wget -r -np -l 10 -R gif,jpg,cgi,php,zip,htm -nc --ignore-length --wait=5 http://hogehoge.com/hoge/index.html
という感じでHTMLファイルのみをダウンロードしています。
システムの設定上「*1.htm@page=*2」というリンクが出来てしまいます。
*1にはindexやらgood、sea、japanやらとさまざまな文字が入ります。
*2には1から最大30までの数字が入ります。
上記のようなリンクをダウンロードしないという設定って出来ますでしょうか?
どのようにやるのが簡単でしょうか?
どうぞよろしくお願いいたします。
http://www.gnu.org/software/wget/manual/wget.html#Types-of-Files
GNU Wget 1.10 Manual
Wgetの説明書を読んでみると、Rオプションには、拡張子だけでなく
「pattern」つまり正規表現を与えることができる、と書いてあるようです。
「-R gif,jpg,cgi,php,zip,htm」 のところに、追加で ”@page=” とか、
”[a-z]+.html@page=[0-9]+” などのパターンをカンマで区切って
与えてやるというのはどうでしょうか。
j0hnさま
ありがとうございます。
教えていただいたものをやってみた(htmlをhtm変更してみましたが)
のですがだめでした。
(拡張子がhtmファイルだったためだと思われます。)
試行錯誤しながら教えていただいたのを
カスタマイズして
拡張子をphpに変更したらできました。
正規表現勉強になりました。
どうもありがとうございました。