人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

URLを指定するとそのページのHTMLとそこに含まれている画像データを
ローカルに保存する linux スクリプトがあれば紹介してください。

例えば www.hoge.jp/index.html の中身が
<html><body><h1>hello</h1>
<img src="picture.gif">picture
</body></html>
となっていたら
index.html

picture.gif
の2ファイルが /tmp とかに保存できればよいです。

P.S
wget http://www.hoge.jp/index.html だと、index.html しか取得できないですよね。


●質問者: naopontan
●カテゴリ:コンピュータ インターネット
✍キーワード:.jp GIF Hello hoge HTML
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● ujip
●35ポイント

wget -r -l 1 http://www.hoge.jp/index.html

ではいかがでしょうか・・・

http://members.at.infoseek.co.jp/futora/wget153/

◎質問者からの返答

実のところ、

http://blog.fc2.com/

のとあるブログのコンテンツを取得したいのですが、教えていただいた

コマンドではうまく行きませんでした。

(『長さ: 特定できません [text/html]』というメッセージが

延々出力されていくので ^C で強制終了しました)

ちなみにこのサイトは「画像の直リンク禁止」みたいです。そのせい!?

以下、本当にやりたい事。(すいません。質問の意図が伝わりにくいと思い省略してました)

1) ブログの更新情報を自サイトのWebページに埋め込みたい。

ブログに画像があれば、その画像もWebページに埋め込みたい。

2) http://www.geekpage.jp/programming/ruby-network/rss-0.php を参考に

スクリプトを作った。

3) 実際に動かすと動く。が、画像が表示されない。

4) 一度でもブログのサイトにアクセスしたのち、自サイトのWebページを

開くと画像が映っている。(多分、キャッシュを見ている)

5) ブログサイトは直リンク禁止っぽい事が判明。

6) ブログサイトにアクセスすれば画像が見れるのなら、人間ではなく、linux に

見させれば良いのでは? ⇒ 自作のスクリプトはローカルに保存した画像を見る。

…この考え、別に悪い事してないですよね!?


2 ● y-kawaz
●35ポイント

画像の直リンク禁止は普通 Referer で判定すると思うので、1の回答に --referer オプションを追加したらよいんじゃないでしょうか?

wget -r -l 1 --referer=http://www.hoge.jp/index.html http://www.hoge.jp/index.html

また、User-Agent が wget だと拒否される場合も多いので、--user-agent='Mozilla/5.0 (Windows; U; Windows NT 6.0; ja-JP; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1' などを付けて偽装したり、

Cookie を見て弾くケースもたまにありますが、--keep-session-cookies などのオプションを追加することでいけたりします。

個人的には大抵のケースは wget のオプションを工夫すれば間に合うと思っています。

◎質問者からの返答

うぅっ、うまく行かない(T_T)

--referer や --user-agent を付けても現象変わらずです。

--keep-session-cookies を使おうとすると

wget: 認識できないオプション`--keep-session-cookies'です
使い方: wget [オプション]... [URL]...

詳しいオプションは `wget --help' を実行してください。

と出てくる始末。man wget にはちゃんとあるのに...

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ