http://q.hatena.ne.jp/1219143634
複数文書要約に関する、
既存のシステム(の組み合わせ)では実現できない、 「多種多様」な
「あなたの」「具体的な」要求を一つずつでも、可能な限り詳しく記述してください。
長く具体的に詳しく説明してくださればポイントを多く差し上げます。
おっしゃるようにネット上には情報が溢れていますが、ニュースソースが同一であれば、重複した情報としてフィルタリングしてくれるような仕組みは欲しいですね。
ただし、重複している中からどれか1つは見たいので、サマリーで良い分野・詳細が必要な分野などを登録しておいて、ヒットしたもの1件を表示してくれるもの。
それだけでなく、そのニュースソースがパブリシティや配信会社によるものであれば、含まれる項目としてほぼ似たような内容になるでしょうし、その記事を書いた記者が取材したものであれば、独自の観点などが加えられているかもしれません。
それらの中から「最もソースに近く、事実だけが書かれているもの」を選んでくれればなお良いと思います。
例えば、ソースがパブリシティなら、それが記事になったものを見るよりも、そのパブリシティそのものを見れた方が良い。
ただ、既存のニュースサイトに実装されているように、関連他企業の似たようなパブリシティや、過去のそのニュースに関連する情報などは列挙されているとありがたいです。
いわしを拝見しました。前の質問で明示されていた「医学、薬学」「情報セキュリティ」という分野では例を想定することもできなかったのですが、今回、せめて何かのヒントになればと思い、より一般的なニュースで例を考えてみました。(質問者さんがお求めの回答ではない場合、ポイントは0ポイントでもかまいませんので。)
私が、「アメリカの金融不安」について、気になってはいたけれど、ニュースを追えていなかったとします。ようやく手が空いたのでYahooのトピックスを見てみましたが、記事が多すぎてわけがわかりません。ページの下半分にある「関連情報」も、ディープすぎます。
http://dailynews.yahoo.co.jp/fc/economy/financial_turmoil/
現時点ですと、問題の法案は既に「上院で可決」されているので並んでいるのはその記事ばかりなのですが、その数日前に「下院で否決」されています。そして今ここで私が知りたいのは:
であるとします。今日からは自分でニュース記事を読めるので、今後の展望についての記述は不要です。また、「下院で否決」されたときのアナリストの考えや政治家の言葉も知る必要はありません。
内容的には「サブプライム問題発生以降、○件の金融機関が破綻するといった状況の中、○月○日、政府の緊急対策法案が米下院で採決された。法案には○人が賛成、○人が反対し(うち共和党○人、民主党○人)、否決された。その影響でダウ平均株価は○ドル下がった。これは○○○○な規模の下げ幅である」ということなので、情報が一箇所にまとまってさえいれば、1分ほどあれば把握できるはずです。
しかし、記事をひとつひとつクリックして知りたいことを調べるか、知りたい情報がまとまって載っている記事をYahooトピックスから探すかするだけで10分くらいかかりそうです(新聞の紙面なら、前の日付の新聞をめくってみるだけで、記事の大きさや見出しの大きさからどれを読んだらよさそうなのかが判断できますが、ウェブだとそれがやりづらいです)。
……このような場合に、精度の高い「複数文書の要約」がなされたものがそこにあれば、「私」のニーズは満たせると思います。
医学・薬学の分野の一般的ニュースでいえば、例えば最近販売禁止が解かれることになった「サリドマイド」について、その薬害は自身が生まれる前のことで直接的には知らないけれども、いったんは禁止されたような薬なのに、、という不安がある人がいる場合、その人の知りたいことは:
といったことであると思われます。
ここで、Google Newsを参照して一番上にあった記事
http://mainichi.jp/select/science/news/20081003k0000m040124000c....
を見ると、最後に【ことば】として次のような簡潔なまとめがあります:
鎮静・催眠剤として57年から世界約50カ国で販売された。61年に、服用した女性から手足の短い子が生まれることが判明。各国が販売を中止する中、日本では62年9月まで回収されず、認定患者は309人に上った。……
日本でのことについては知りたいことはだいたいわかりましたが、日本以外でのことがわかりません。でも報道で言及されているのを見た記憶はあるので、どこかに何かが書かれているはずです。
……という場合に、「複数文書要約」があると重宝するのでは、と思います。
ありがとうございます。
今回は対象の分野は、薬学、セキュリティなどの制約はないです。
コピーが繰り返されて、出所や原典が、はっきりしなくなった情報の出所や原典を追跡したい。
googleで、黒門市場 と 野田市場 とをキーワードに検索すると
「日本橋の黒門市場は大阪においては野田市場と並んで食の宝庫として知られる市場」
と言った記述が、沢山見つかります。
これは、少し以前の wikipedia の黒門市場の記事の丸写しと思われます。
去年の暮れに「黒門市場」を検索した時には、もっと沢山、上記の丸写しがありました。
間違っているとは言えませんが、野田市場という呼び方は、私の周囲では聞いたことがありません。
また、小売店が連なる商店街「黒門市場」と 野田にある「大阪市中央卸売市場」を並べるのも
違和感があります。
wikipedia の方は、履歴を見ると 2008年5月19日修正されており、現在は以下の様になっています。
「大阪においては、福島区野田の大阪中央卸売市場と並んで食の宝庫として知られる市場である」
まあこの例は、私の違和感、程度のことですが、もし、間違っていると思われる情報に接した時、
記事の書かれた時期の前後関係や、書いた人の他の記述などを、人手で丁寧に追いかけて出所を
探す作業を、自動で行って、簡単に出所や原典を検索できれば、ありがたいです。
もっとも、原典に当たることで信頼できる情報か、必ずしも判断できる訳ではありませんが、
単に皆が書いているからといって信用するより、かなりましではないかと思います。
サンプルプログラムに間違いが含まれたまま、転載されているとか、出典を探し回った
ことは何度もあるのですが、今、具体的に思い出せたのは、上記の例だけです。
なるほどこういうニーズですか
これはこれで意味がある回答ではあるのですが、
「例えば、」どんなニュースについてとか、
どこのニュースサイトが、とか、
という「多種多様な」「具体的な」要求を教えてほしいのです