例えば
http://aaa.aaa.aaa/としていすると
http://aaa.aaa.aaa/aa.php?test
http://aaa.aaa.aaa/aa.php?test2
といったそのドメインに関連づいているURLリストを取得できるようにしたいのです。
主たる目的がよく分かりませんが、単にドメイン(ホスト名)配下の一覧でしたら、Googleの検索窓で「site:ドメイン名」とすればGoogleがクロールした範囲内での一覧を得ることはできます。
基本的に管理者が能動的にWebサイトのドキュメントルートからリンクしていない限り、その内容を無理矢理に取得する手段はグレーゾーンですし、ある意味、危険でもあります。
ドキュメントルートからリンクされているファイルそのものや、その構造が全部欲しいのだとしましたら、「Website Explorer」とかはいかがでしょうか?
リンクされていないファイルを見つけるのはかなり困難だと思います(indexファイルがないのであればファイル一覧が表示されることもありますが)。
リンクされているファイルをダウンロードするのであれば、Irvineなどはどうでしょうか。
http://hp.vector.co.jp/authors/VA024591/
Mozilla Firefoxを使っているのであれば、ScrapBookがいい感じです。
同様の要件の時には、google先生にお願いしてます
検索BOXに site:aaa.aaa.aaa と入れます。
http://www.itmedia.co.jp/enterprise/articles/0507/11/news057.htm...
どのページからもリンクされていないURLは取得できませんが、そういうモノです。取得する方法はありませんので
前述の「Website Explorer」では、取得したサイトデータをExcel形式で吐き出すことができます。サイトデータとして吐き出すExcelのブックの内容(シート)は以下の通りです。
これらの中で、一覧として欲しいものが〈HTMLデータ〉と〈リソースデータ〉でよろしいのでしたら、これらのシートをコピー&ペーストで一つにまとめて、不要なタイトル行や項目列を削除し、CSVとして保存すればお望みのものが得られると思います。
〈HTMLデータ〉と〈リソースデータ〉のシートの列構成は全く同じですので、たいした手間にはならないと思いますが…。いかがでしょう?
皆さんありがとうございます!
出来ましたら、そのリストをCSVなどで出力できるようなツールはご存知ありませんでしょうか?