価格比較サイトや、グルメサイト、楽天のショッピングサイトなど、xmlで記述されているかどうかは別として、データベースからHTMLへの出力構造が均一的なサイトの場合、それをクローラーが拾っていってデータを収集するということはそれほど難しくないように思いますが、どうなのでしょうか。
(近未来的に商品価格などがrss出力されるようになればさらにクロール&収集しやすくなるように思っています)
たとえば、「ABC1234」という商品名を入れると、「カカクコム・ECナビ・コネコネット」の中で最安値のページから順に表示する、といったような検索エンジンの実現可能性をイメージしています。
<わかりにくいといけないのでもう少し具体的に>
たとえばぐるなびやカカクコムで、裏側のDBがどのような設計になっているかは表面からは見えませんが、サイトのHTMLやページ内に表示されている項目などから、「ある程度の構造や設計」は推定できると思います。推定できれば、クローラーにDBの主要項目を拾わせて、検索エンジン内のDBに整理しなおせるような気がします。
無論できます。
私もやろうかと考えていますが、単体ではほとんど収入を生まないとも思っています。
おっしゃる通りのやりかたでできますが、相応の技術力は必要です。
各サイトのDB項目については普遍的なものではありません。それぞれのサイトの都合で変わるかもしれません。
3サイトを対象にクロールするとして、各サイトが年1回リニューアルすると仮定すれば、あなたは約4ヶ月に1回、突然そのサイトからデータを拾えなくなり、対応作業に追われることになります。
テンプレートのようなもので汎用的に作りたいところですが、それはそれで高度です。
ご自身でプログラムを組むか、常時手伝ってくれる仲間がいなければ、運用は困難かと思います。
コメント(0件)