ブログなどからＲＳＳを取得し表示するアンテナサイトを作っています。

Question

numb08

42

37もっと見る

200pt

コンピュータインターネット

ブログなどからＲＳＳを取得し表示するアンテナサイトを作っています。

ＲＳＳ取得と同時にその記事の画像も取得しています。現在のアルゴリズムは記事タイトルより下にある画像を1枚表示するようにしていますが、サイトによっては記事と関係のない画像を取得してしまいます。
たとえば記事タイトルと記事の画像の間にアイコンがあったり、メニューバーなどの背景があるとそれを表示してしまいます。
これらを回避し、記事にあった最初の画像1枚の取得精度を上げるにはどのようにすればいいのでしょうか。
イメージとしては
http://hn-antena.com/
上記のようなサイトを目指しています。
取得元となるサイトはほとんどがＦＣ２かライブドアです。

少しわかりにくかもしれませんが、よろしくお願いいたします。

回答の条件

1人5回まで

登録：2011/11/18 00:23:23
終了：2011/11/18 16:42:09

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

kodairabase661802011/11/18 07:53:47

36pt

画像のALT属性をチェックして、記事内容にマッチするものをチョイスすればいいと思います。

ALTは書き込まれてないほうが多いですよ
特にブログでは皆無に等しいですよ
　
仮に書き込まれているとして、
どうやって記事内容とマッチするかを判断しますか？

2011/11/18 08:30:25

No.2

うぃんど262511492011/11/18 08:21:59

66pt

RSSには10件20件と記事が入っていますが、
それを記事毎に１つ１つ処理してしまうのではなく、
まずは、それらの記事を一通り全て読み込んでしまいます
　
そして、それらに含まれる全ての画像URLを抜き出し、
同じURLを一括削除してしまってから、
記事毎の処理に移って１つの画像ファイルを取得します
　
これで共通部分は削除できるはずですよ

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

rish314 · Accepted Answer · 2011-11-18T11:37:26+09:00

windofjuly さんの回答はシンプルでいいですね。

はてぶを新聞風に閲覧できるHatebuPaperを作ってみた - ゆーすけべー日記
は、本文抽出を行い、先頭の画像を特徴的な画像としてます。サンプルコードもあるので、是非とも参考にしてみてください。

本文抽出に関しては、様々な言語でライブラリが作成されておりますので参考にしてみてください。一時期はネットでも結構話題になりましたが、最近は下火です。
タグ「本文抽出」を含む新着エントリー - はてなブックマーク

あと、どこかでスライドを見たのですが、http header の画像サイズを見て判定している人もいるようです。それってもしかして画像を全てDLする必要があるのではないか…と思い、自分は試してません。

自分は、htmlのメタデータを利用して機械学習を行い、それが本文の画像かどうかを判定しています。naive-bayes で判定を行っているのですが、もうちょっと調整すればもうちょっと安心して使えるようになるかなぁと言った感じです。

rish314 · Accepted Answer · 2011-11-18T11:37:26+09:00

windofjuly さんの回答はシンプルでいいですね。

はてぶを新聞風に閲覧できるHatebuPaperを作ってみた - ゆーすけべー日記
は、本文抽出を行い、先頭の画像を特徴的な画像としてます。サンプルコードもあるので、是非とも参考にしてみてください。

本文抽出に関しては、様々な言語でライブラリが作成されておりますので参考にしてみてください。一時期はネットでも結構話題になりましたが、最近は下火です。
タグ「本文抽出」を含む新着エントリー - はてなブックマーク

あと、どこかでスライドを見たのですが、http header の画像サイズを見て判定している人もいるようです。それってもしかして画像を全てDLする必要があるのではないか…と思い、自分は試してません。

自分は、htmlのメタデータを利用して機械学習を行い、それが本文の画像かどうかを判定しています。naive-bayes で判定を行っているのですが、もうちょっと調整すればもうちょっと安心して使えるようになるかなぁと言った感じです。

ブログなどからＲＳＳを取得し表示するアンテナサイトを作っています。

ベストアンサー

rish3143062011/11/18 11:37:26

その他の回答（2件）

kodairabase661802011/11/18 07:53:47

うぃんど262511492011/11/18 08:21:59

rish3143062011/11/18 11:37:26ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）