WGETを使用してホームページをダウンロードしようと試みております。

wget -r -np -l 10 -R gif,jpg,cgi,php,zip,htm -nc --ignore-length --wait=5 http://hogehoge.com/hoge/index.html
という感じでHTMLファイルのみをダウンロードしています。

システムの設定上「*1.htm@page=*2」というリンクが出来てしまいます。
*1にはindexやらgood、sea、japanやらとさまざまな文字が入ります。
*2には1から最大30までの数字が入ります。

上記のようなリンクをダウンロードしないという設定って出来ますでしょうか?
どのようにやるのが簡単でしょうか?

どうぞよろしくお願いいたします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:j0hn No.1

回答回数12ベストアンサー獲得回数0

ポイント200pt

Wgetの説明書を読んでみると、Rオプションには、拡張子だけでなく

「pattern」つまり正規表現を与えることができる、と書いてあるようです。


「-R gif,jpg,cgi,php,zip,htm」 のところに、追加で ”@page=” とか、

”[a-z]+.html@page=[0-9]+” などのパターンをカンマで区切って

与えてやるというのはどうでしょうか。

id:ohtsu6

j0hnさま

ありがとうございます。

教えていただいたものをやってみた(htmlをhtm変更してみましたが)

のですがだめでした。

(拡張子がhtmファイルだったためだと思われます。)

試行錯誤しながら教えていただいたのを

カスタマイズして

拡張子をphpに変更したらできました。

正規表現勉強になりました。

どうもありがとうございました。

2006/02/19 23:31:27

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません