これって、どうやって管理してるんでしょうか。
例)http://japan.internet.com/busnews/20060613/2.html
何かシステムで組んで自動で行っているのでしょうか?それとも、人間が手作業で過去記事から関連記事を探してくるのでしょうか?
現実的に考えると、人間が手作業でやるのはかなり難儀だと思うのですが・・・(ものによっては数年前の記事を引っ張っくるようなサイトもありますし・・・)
記事をアップするときのカテゴリーと、さらにキーワードの設定がされていて、自動で関連記事が幾つか上がってくる。
はてなブックマークでも、関連記事の表示が出来ますが。
同じような仕組みで、ニュースサイトもそういうプログラムを各社でプログラム設定されていると思います。
↓はてなブックマークのヘルプ参照
CMSというソフト(膨大な量のコンテンツを管理するソフト)を使っているのだと思いますよ。
http://e-words.jp/w/CMS-1.html
http://www.frameworks.co.jp/cms_webrelease.html
では、
テンプレートができあがれば、あとはフォームへの入力だけでページが自動生成され、関連するリンクも自動更新されます。公開 WWW サーバへのファイル転送も自動的におこなわれるので、 HTML や FTP を知らなくても、誰もがその役割に従ってページを作成し公開することができるようになります。
とあるので、特定のキーワードが含まれると「関連記事」にリンクするとかの設定をすればできると思います。
んー、上でもコメントした通り、キーワードぐらいのフィルタリングは関連記事とは呼べないと思うんですよねぇ。
例えばMACの村上さんの記事があったとして、阪神問題もあるかもしれないし、ホリエモンとかニッポン放送もあるかもしれないし、オリックスも関係あるし、日銀総裁もあるし、通産省もあればシンガポールもあるわけで。
もっと拡げれば、投資ファンドそのものかもしれないし、株主とは?企業とは?とかの話も関連するかも知れないし、別の投資案件の会社かもしれないし・・・。
キリがないですよね。
で、今村上さんのニュースがあったとして、過去記事のどれを出すんだい、と思うわけです。
http://q.hatena.ne.jp/1150233957
URLはダミーです。
私は、とあるニュースサイトで記事を書かせてもらっていますが、もしも過去記事で関連記事があった場合は、その都度、原稿の末尾に関連記事としてURLと記事タイトルを引用しています。
探す方法は、サイト内の検索機能を使ってキーワード検索し、その中から関連記事があれば、多くても過去7件くらいを1つの記事に引用すると。
従って、私のケースではありますが、
>それとも、人間が手作業で過去記事から関連記事を探してくるのでしょうか?
ということになります。
全てではないと思いますが、こういうケースもあるということでご参考まで。
http://www.itmedia.co.jp/news/articles/0512/02/news047_2.html
GETAのことですね。
文章同士の内容類似度を求め、自動的に類似した文書を提案してくれるソフトです。
新書マップという実装はとても面白いです。試してみてください。
んー、ものによるんでしょうけど、「本当に関連記事」を掲載しているサイトの場合の話です。
キーワードとかのフィルタリングでは、ちっとも関連じゃないものもあるじゃないですか。数も多くなりすぎるし。
そういうのではなく。
それから、例えばあるニュースAのカテゴリが、3年後にジャンルの違う全く別のニュースと関連付けられる場合とかもありますよね。
それをニュースが発生した時に予測することは不可能だと思うんですよね・・・。どうやってるんだろ。