人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

WGETを使用してホームページをダウンロードしようと試みております。
wget -r -np -l 10 -R gif,jpg,cgi,php,zip,htm -nc --ignore-length --wait=5 http://hogehoge.com/hoge/index.html
という感じでHTMLファイルのみをダウンロードしています。

システムの設定上「*1.htm@page=*2」というリンクが出来てしまいます。
*1にはindexやらgood、sea、japanやらとさまざまな文字が入ります。
*2には1から最大30までの数字が入ります。

上記のようなリンクをダウンロードしないという設定って出来ますでしょうか?
どのようにやるのが簡単でしょうか?

どうぞよろしくお願いいたします。

●質問者: ohtsu6
●カテゴリ:コンピュータ
✍キーワード:CGI GIF HTML INDEX JAPAN
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● j0hn
●200ポイント

http://www.gnu.org/software/wget/manual/wget.html#Types-of-Files

GNU Wget 1.10 Manual

Wgetの説明書を読んでみると、Rオプションには、拡張子だけでなく

「pattern」つまり正規表現を与えることができる、と書いてあるようです。


「-R gif,jpg,cgi,php,zip,htm」 のところに、追加で ”@page=” とか、

”[a-z]+.html@page=[0-9]+” などのパターンをカンマで区切って

与えてやるというのはどうでしょうか。

◎質問者からの返答

j0hnさま

ありがとうございます。

教えていただいたものをやってみた(htmlをhtm変更してみましたが)

のですがだめでした。

(拡張子がhtmファイルだったためだと思われます。)

試行錯誤しながら教えていただいたのを

カスタマイズして

拡張子をphpに変更したらできました。

正規表現勉強になりました。

どうもありがとうございました。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ