ブログなどからRSSを取得し表示するアンテナサイトを作っています。

RSS取得と同時にその記事の画像も取得しています。現在のアルゴリズムは記事タイトルより下にある画像を1枚表示するようにしていますが、サイトによっては記事と関係のない画像を取得してしまいます。
たとえば記事タイトルと記事の画像の間にアイコンがあったり、メニューバーなどの背景があるとそれを表示してしまいます。
これらを回避し、記事にあった最初の画像1枚の取得精度を上げるにはどのようにすればいいのでしょうか。
イメージとしては
http://hn-antena.com/
上記のようなサイトを目指しています。
取得元となるサイトはほとんどがFC2かライブドアです。

少しわかりにくかもしれませんが、よろしくお願いいたします。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2011/11/18 16:42:09
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:rish314 No.3

回答回数30ベストアンサー獲得回数6

ポイント98pt

windofjuly さんの回答はシンプルでいいですね。

はてぶを新聞風に閲覧できるHatebuPaperを作ってみた - ゆーすけべー日記
は、本文抽出を行い、先頭の画像を特徴的な画像としてます。サンプルコードもあるので、是非とも参考にしてみてください。

本文抽出に関しては、様々な言語でライブラリが作成されておりますので参考にしてみてください。一時期はネットでも結構話題になりましたが、最近は下火です。
タグ「本文抽出」を含む新着エントリー - はてなブックマーク

あと、どこかでスライドを見たのですが、http header の画像サイズを見て判定している人もいるようです。それってもしかして画像を全てDLする必要があるのではないか…と思い、自分は試してません。

自分は、htmlのメタデータを利用して機械学習を行い、それが本文の画像かどうかを判定しています。naive-bayes で判定を行っているのですが、もうちょっと調整すればもうちょっと安心して使えるようになるかなぁと言った感じです。

他1件のコメントを見る
id:numb08

貴重なご意見ありがとうございました。大変参考になりました。サイズで選別するというのは有効かもしれませんので、それでやってみます。

2011/11/18 16:41:17
id:rish314

tdoiさん;
横からありがとうございます。HEADリクエストってできるんですか。非常に参考になりました。手元のプロジェクトでも試してみます。

2011/11/20 23:45:16

その他の回答2件)

id:kodairabase No.1

回答回数661ベストアンサー獲得回数80

ポイント36pt

画像のALT属性をチェックして、記事内容にマッチするものをチョイスすればいいと思います。

id:windofjuly

ALTは書き込まれてないほうが多いですよ
特にブログでは皆無に等しいですよ
 
仮に書き込まれているとして、
どうやって記事内容とマッチするかを判断しますか?

2011/11/18 08:30:25
id:windofjuly No.2

回答回数2625ベストアンサー獲得回数1149

ポイント66pt

RSSには10件20件と記事が入っていますが、
それを記事毎に1つ1つ処理してしまうのではなく、
まずは、それらの記事を一通り全て読み込んでしまいます
 
そして、それらに含まれる全ての画像URLを抜き出し、
同じURLを一括削除してしまってから、
記事毎の処理に移って1つの画像ファイルを取得します
 
これで共通部分は削除できるはずですよ

id:rish314 No.3

回答回数30ベストアンサー獲得回数6ここでベストアンサー

ポイント98pt

windofjuly さんの回答はシンプルでいいですね。

はてぶを新聞風に閲覧できるHatebuPaperを作ってみた - ゆーすけべー日記
は、本文抽出を行い、先頭の画像を特徴的な画像としてます。サンプルコードもあるので、是非とも参考にしてみてください。

本文抽出に関しては、様々な言語でライブラリが作成されておりますので参考にしてみてください。一時期はネットでも結構話題になりましたが、最近は下火です。
タグ「本文抽出」を含む新着エントリー - はてなブックマーク

あと、どこかでスライドを見たのですが、http header の画像サイズを見て判定している人もいるようです。それってもしかして画像を全てDLする必要があるのではないか…と思い、自分は試してません。

自分は、htmlのメタデータを利用して機械学習を行い、それが本文の画像かどうかを判定しています。naive-bayes で判定を行っているのですが、もうちょっと調整すればもうちょっと安心して使えるようになるかなぁと言った感じです。

他1件のコメントを見る
id:numb08

貴重なご意見ありがとうございました。大変参考になりました。サイズで選別するというのは有効かもしれませんので、それでやってみます。

2011/11/18 16:41:17
id:rish314

tdoiさん;
横からありがとうございます。HEADリクエストってできるんですか。非常に参考になりました。手元のプロジェクトでも試してみます。

2011/11/20 23:45:16

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません