そのような情報を効率よく得たいというニーズがあると思います。
そのような大規模テキストデータ(文書)から、
重要な情報を選択するのではなく、
冗長な情報を削減する方が重要性、必要性が大きい、
そういうデータの具体例を示してください。
現時点で最も普及している技術がRSSリーダーですね。まぁ、「冗長な情報を削除する」という点ではちょっと当てはまりませんが、自分にとって興味のある記事かどうか程度の判断はできます。「重要な情報」かどうかは、その記事に含まれているキーワードが重要視されますので。
ということで、当該記事の中から重要なキーワードを抜き出して、その中でランクの高いものを数件表示する、という技術があれば良いということでしょうね。残念ながら私にはそのような技術を利用したサービスの存在は存じ上げておりません。
ちょっとずれてしまいますが、この件に関して、以下のような興味深い記事があります。
http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...
http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...
現時点で最も普及している技術がRSSリーダーですね。まぁ、「冗長な情報を削除する」という点ではちょっと当てはまりませんが、自分にとって興味のある記事かどうか程度の判断はできます。「重要な情報」かどうかは、その記事に含まれているキーワードが重要視されますので。
ということで、当該記事の中から重要なキーワードを抜き出して、その中でランクの高いものを数件表示する、という技術があれば良いということでしょうね。残念ながら私にはそのような技術を利用したサービスの存在は存じ上げておりません。
ちょっとずれてしまいますが、この件に関して、以下のような興味深い記事があります。
http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...
http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...
そういう対象になるテキストデータは、
具体的にどんなものがあるか、どんなものが考えられるか?
を、あげてほしいのです
「冗長な情報」の性質にもよりますが、
「ウェブスパム」を排除すべき以下のような研究が行われています。
http://portal.acm.org/citation.cfm?id=1316740&dl=&coll=
また、日本でも「スパムブログ」を判定する研究が行われています。
http://b.hatena.ne.jp/entry/7805362
このようなデータは該当しますでしょうか。
これはすでにわたくしが研究し、実働システムも開発できています。
どちらかといえばこのような作為的な類似情報ではなく
偶然、冗長な情報が、誰かが意図したわけではなく「自然」に湧いてくるようなコーパスです
システム系のログでは可能性があります。
例えば、複数のトラフィックをもつ回線が切断された場合、トラフィックごとにエラーメッセージが上がるのは当然ですが、それは人から見れば「冗長なデータ」です。
その中に本来の原因(root cause)が埋もれるのですから。
研究をされているのであれば、おわかりでしょうが、なにをもって「冗長とするか」を自動的に決められるのであれば、たとえシステムログというジャンルに絞っても、意味がある技術です。
自然言語を想定していたのですが、
こういう応用もあり得ますね。
「重要な情報を選択する」ことと「冗長な情報を削減する」ことは多くの場合一致するのではないかと思いますが
「冗長な情報を削減する」ことが「重要な情報を見つける」上で特に有効だと予想されるテキストを教えてくれ
という解釈で回答させていただきます。
会議の議事録や討論会の発言全文はいかがでしょう。
ネット上にゴロゴロ転がっていますが、例えば
http://abirur.iza.ne.jp/blog/entry/307257/
のようなものです。国会や一部の自治体のホームページでも議事録が手に入ります。
口頭でのコミュニケーションでは、書いてものを伝えるときよりも
相手に正確に伝えることが困難になるので、しっかり伝えるために
重要なことほど繰り返し肉付けされて発話されることが多くなります。
そのため、それをテキスト化した議事録等は、長ったらしいわりに情報量の少ない退屈なものになりがちです。
そこで、自然言語処理でうまく冗長な情報をそぎ落とし、短い表現として発言者の意見を抽出することができれば
議事録、討論内容を読む側としては大幅なコスト削減につながり、非常に有益なのではないかと。
また、政治がらみのテキストでは、人手で要約することは作業者の主義主張に左右される恐れがあり好まれませんが
アルゴリズムが明らかな自然言語処理であれば、客観性が高まり、その点も評価されると思われます。
同じことを何回も言っているという点では、
非常に適切な対象です。
そういう対象になるテキストデータは、
具体的にどんなものがあるか、どんなものが考えられるか?
を、あげてほしいのです