WEBサーバー上にあるリンクされていないhtmlのファイルを見つけ出すいい方法があれば教えてください。


リンクされていないhtmlのファイルを見つけては削除しようと試みていますが
ファイルとディレクトリが多いため、ひとつひとつ見て回ることに限界を感じました。
リンクされていないURLがわかる、リンクされているファイルだけわかるなど
何か楽に見つけ出すいい方法はありますでしょうか。

回答の条件
  • 1人2回まで
  • 登録:2008/01/16 21:30:12
  • 終了:2008/01/23 21:35:02

回答(4件)

id:KairuaAruika No.1

KairuaAruika回答回数6926ベストアンサー獲得回数972008/01/16 21:40:03

id:inumazin

わかりづらい質問ですいません。

リンク切れを探すのではなくて、

リンクされていないファイルがわかる方法

を求めています。

  • 追記--

最後のやつが近いものでした。ありがとうございました。

2008/01/17 21:23:49
id:rev-9 No.2

rev-9回答回数61ベストアンサー獲得回数82008/01/16 22:39:15

ポイント23pt

 まず前提として、ご希望の「WEBサーバー上にあるリンクされていないhtmlのファイルを見つけ出す」ことは一筋縄ではいきません。HTTPのプロトコル上、サーバー側に存在するファイルのすべてを確実にリストアップする方法が存在しないからです。もちろん実際にはディレクトリインデックスが有効になっていれば実用上は何とかなるとは思いますが、一方でセキュリティ的にはどうしても必要でない限り無効にしておきたいものでもあります。

 そこで、当然こういうことをやりたいということは自分の管理下にあるWebサーバーでしょうから、何とかしてローカルのファイルシステムとしてマウントするか、あるいはミラーをローカルに構築し、そちらを検索するソフトを紹介します。

http://hp.vector.co.jp/authors/VA014575/chicchi/kotou/readme.htm...

 実は↑の回答の5番目のページでも紹介されているソフトですが、リンク切れだけではなく、「サイトのトップからリンクを辿っても行き着けないファイル」を見つけ出す機能がメインです。

id:inumazin

ありがとうございます。求めていたものにとても近いです。

これを利用してみます。

2008/01/17 18:29:26
id:ffmpeg No.3

ffmpeg回答回数1202ベストアンサー獲得回数92008/01/17 03:08:08

ポイント22pt

あなた自身のサイトにクローラーを走らせます。そうすれば、リンクされているURLがすべてわかります。それにないファイルを削除します。

UNIXがわかれば、これらを自動で行うスクリプトは3行で書けます。

http://www

id:inumazin

なかなかハードルが高そうです…。

2008/01/17 18:29:56
id:hatyone No.4

はとね回答回数18ベストアンサー獲得回数02008/01/17 03:52:14

ポイント22pt

wget+diffをオススメします。

[windowsでwgetを使う方法]

http://weather.is.kochi-u.ac.jp/winwget.html

使い方はここを参照してください。

[wgetの使い方]

http://tech.bayashi.net/svr/doc/wget.html

↓サンプル↓([wgetの使い方]のページより引用)

# wget -l 3 http://www.sample.com/index.htm

リンク先をたどって、3階層分のファイルを取得してくれます。

これで、リンクしているデータだけを保存することが出来ます。

id:inumazin

なるほど、こういう方法もあるんですね。

2008/01/17 18:31:00

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません