膨大な量のHTMLやJSPのコンテンツがあります。各コンテンツにはもちろん、リンク先が存在します。内部のコンテンツへの相対リンクだったり、外部への絶対リンクだったり、様々です。リンクの仕方は必ずしも<a href....ではない(かもしれない)です。

さて、そのコンテンツに含まれているリンク先を全て洗い出すという作業が必要になりました。
なにしろ1,000ファイルくらいは(少なくとも)あるので、ハンド作業では到底無理。
そのリンク先を抽出する方法を教えてください。
環境:win98SEもしくはXP
条件:aaaa.htmlには「bbbb.html bbbbの仕方ページ」「http://www.aaaa.com/cccc.html aaaa株式会社」のように、リンク先のタイトル情報?を一緒に拾ってくれることが条件
あわよくば、リンク先が生きているかどうかの確認もできると嬉しい。

できればフリーのソフトでお願いします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2004/12/02 13:23:34
  • 終了:--

回答(2件)

id:hinop No.1

hinop回答回数2601ベストアンサー獲得回数12004/12/02 13:27:06

ポイント30pt

http://www.vector.co.jp/soft/win95/net/se121280.html

ホームページからリンク先を抽出の詳細情報 : Vector ソフトを探す!

1番目のURLでできるようです。

ただし、2番目のソフトであらかじめダウンロードしなければいけないかもしれませんが・・。

http://www.vector.co.jp/soft/win95/net/se247055.html

Website Explorer(ウェブサイト・エクスプローラ)の詳細情報 : Vector ソフトを探す!

id:emmet

ありがとうございます。

ダウンロードしてみました。ファイル単位での作業になるんですね。これをディレクトリ単位でできたらもっと素晴らしいのにと思いました。

引き続き、情報を求めます。

2004/12/02 13:41:12
id:hebe No.2

hebe回答回数43ベストアンサー獲得回数02004/12/02 15:05:13

ポイント30pt

*nix (Unix,Linux,FreeBSD..) 使いに頼みましょう。速攻終わります。

Windows でも Cygwin や SFU があるので無問題。

餅は餅屋です。こういう時のためにプログラマが居るんです。JSP 扱っているのなら近所にいらっしゃるかと。

id:emmet

ありがとうございます。

目の前に座ってるので、頼んでみます^^

2004/12/02 15:06:26

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません