人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

あるドメインを指定すると、その下にあるURLを取得できるツールは知りませんか?

例えば
http://aaa.aaa.aaa/としていすると
http://aaa.aaa.aaa/aa.php?test
http://aaa.aaa.aaa/aa.php?test2
といったそのドメインに関連づいているURLリストを取得できるようにしたいのです。

●質問者: makocan
●カテゴリ:インターネット ウェブ制作
✍キーワード:ドメイン リスト
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● やちまう
●23ポイント

主たる目的がよく分かりませんが、単にドメイン(ホスト名)配下の一覧でしたら、Googleの検索窓で「site:ドメイン名」とすればGoogleがクロールした範囲内での一覧を得ることはできます。

基本的に管理者が能動的にWebサイトのドキュメントルートからリンクしていない限り、その内容を無理矢理に取得する手段はグレーゾーンですし、ある意味、危険でもあります。

ドキュメントルートからリンクされているファイルそのものや、その構造が全部欲しいのだとしましたら、「Website Explorer」とかはいかがでしょうか?

http://www.umechando.com/webex/


2 ● kitsuneudon
●23ポイント

リンクされていないファイルを見つけるのはかなり困難だと思います(indexファイルがないのであればファイル一覧が表示されることもありますが)。

リンクされているファイルをダウンロードするのであれば、Irvineなどはどうでしょうか。

http://hp.vector.co.jp/authors/VA024591/

Mozilla Firefoxを使っているのであれば、ScrapBookがいい感じです。

http://amb.vis.ne.jp/mozilla/scrapbook/index.php?lang=ja


3 ● ito-yu
●22ポイント

同様の要件の時には、google先生にお願いしてます

検索BOXに site:aaa.aaa.aaa と入れます。

http://www.itmedia.co.jp/enterprise/articles/0507/11/news057.htm...

どのページからもリンクされていないURLは取得できませんが、そういうモノです。取得する方法はありませんので

◎質問者からの返答

皆さんありがとうございます!

出来ましたら、そのリストをCSVなどで出力できるようなツールはご存知ありませんでしょうか?


4 ● やちまう
●22ポイント

前述の「Website Explorer」では、取得したサイトデータをExcel形式で吐き出すことができます。サイトデータとして吐き出すExcelのブックの内容(シート)は以下の通りです。

  1. サイトリポート … サイト概要、探査結果、更新頻度など。
  2. HTMLデータ … CGIやHTMLなど、表示されるページのリスト。
  3. リソースデータ … HTMLファイル以外のファイル。画像、メディア、外部スクリプト、CSS、RDFなどのリスト。
  4. 外部リンク一覧 … 外部のサイトへ張られているリンクのリスト。
  5. エラー一覧 … ディレクトリ指定の間違いやリンク切れ等のリスト。

これらの中で、一覧として欲しいものが〈HTMLデータ〉と〈リソースデータ〉でよろしいのでしたら、これらのシートをコピー&ペーストで一つにまとめて、不要なタイトル行や項目列を削除し、CSVとして保存すればお望みのものが得られると思います。

〈HTMLデータ〉と〈リソースデータ〉のシートの列構成は全く同じですので、たいした手間にはならないと思いますが…。いかがでしょう?

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ