あるページに掲載されている代表的な画像を抽出するPHPプログラムの書き方で参考になるサイトを教えてください。
ページをサムネイルにすることは、今回の質問内容とは違います(例えば、このようなwebAPI http://capture.heartrails.com/ ではありません)。
file_get_contents()でデータ取得の後、正規表現でイメージファイルを取得する手法はやってみました。
上記の方法の洗練されたやり方、ライブラリなど掲載されているサイトを探してます。
また、webAPIで提供しているところもあればあわせて教えてください。
よろしくお願いします。(^^)
コメント(2件)
まずは、どのようなページで、どのような画像がメインとなるのかを判断する必要があると思います。
※例えば、100m走を1mずつ撮影したページがあった場合、スタートラインの画像を代表とするか、ゴール直前の画像を代表とするかで大きく変わります。
なお、OGPの場合はog:imageタグの中に、RSSの場合は本文にイメージタグがあります。
そうですか、やはりこちらで何を抽出するかハッキリさせて、自分の望むものを作るしかないかなあ。
一番サイズが大きいとか、jpgだとか、トップに近い方にある、とか簡単に指定できるライブラリないものでしょうか。
FacebookのLINKやアメブロのマイページなどはどういうアルゴリズムになってるのかな…
アメブロはユーザーが投稿した日記のRSSからですよね。
Facebookは画像をユーザーが載せたものはOGPなのでしょうが、別の一般サイトのリンク貼った時に自動抽出するのは何を基準にしてるんだろう…。
おっと、最後のはつぶやきです(笑)。
ヒントをありがとうございました!