人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

web上には大量の(冗長な情報を含む)必要性が高い情報がある場合があります。
そのような情報を効率よく得たいというニーズがあると思います。


そのような大規模テキストデータ(文書)から、

重要な情報を選択するのではなく、
冗長な情報を削減する方が重要性、必要性が大きい、
そういうデータの具体例を示してください。


●質問者: tak
●カテゴリ:インターネット 学習・教育
✍キーワード:Web テキスト データ ニーズ 重要
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● あひる
●40ポイント ベストアンサー

現時点で最も普及している技術がRSSリーダーですね。まぁ、「冗長な情報を削除する」という点ではちょっと当てはまりませんが、自分にとって興味のある記事かどうか程度の判断はできます。「重要な情報」かどうかは、その記事に含まれているキーワードが重要視されますので。

ということで、当該記事の中から重要なキーワードを抜き出して、その中でランクの高いものを数件表示する、という技術があれば良いということでしょうね。残念ながら私にはそのような技術を利用したサービスの存在は存じ上げておりません。

ちょっとずれてしまいますが、この件に関して、以下のような興味深い記事があります。

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

◎質問者からの返答

そういう対象になるテキストデータは、

具体的にどんなものがあるか、どんなものが考えられるか?

を、あげてほしいのです


2 ● ピロシキ(id:rawwell)
●5ポイント

「冗長な情報」の性質にもよりますが、

「ウェブスパム」を排除すべき以下のような研究が行われています。

http://portal.acm.org/citation.cfm?id=1316740&dl=&coll=

また、日本でも「スパムブログ」を判定する研究が行われています。

http://b.hatena.ne.jp/entry/7805362

このようなデータは該当しますでしょうか。

◎質問者からの返答

これはすでにわたくしが研究し、実働システムも開発できています。



どちらかといえばこのような作為的な類似情報ではなく

偶然、冗長な情報が、誰かが意図したわけではなく「自然」に湧いてくるようなコーパスです


3 ● RON
●25ポイント

システム系のログでは可能性があります。

例えば、複数のトラフィックをもつ回線が切断された場合、トラフィックごとにエラーメッセージが上がるのは当然ですが、それは人から見れば「冗長なデータ」です。

その中に本来の原因(root cause)が埋もれるのですから。

研究をされているのであれば、おわかりでしょうが、なにをもって「冗長とするか」を自動的に決められるのであれば、たとえシステムログというジャンルに絞っても、意味がある技術です。

http://en.wikipedia.org/wiki/Root_cause_analysis

◎質問者からの返答

自然言語を想定していたのですが、

こういう応用もあり得ますね。


4 ● opechuman
●20ポイント

「重要な情報を選択する」ことと「冗長な情報を削減する」ことは多くの場合一致するのではないかと思いますが

「冗長な情報を削減する」ことが「重要な情報を見つける」上で特に有効だと予想されるテキストを教えてくれ

という解釈で回答させていただきます。


会議の議事録や討論会の発言全文はいかがでしょう。

ネット上にゴロゴロ転がっていますが、例えば

http://abirur.iza.ne.jp/blog/entry/307257/

のようなものです。国会や一部の自治体のホームページでも議事録が手に入ります。


口頭でのコミュニケーションでは、書いてものを伝えるときよりも

相手に正確に伝えることが困難になるので、しっかり伝えるために

重要なことほど繰り返し肉付けされて発話されることが多くなります。

そのため、それをテキスト化した議事録等は、長ったらしいわりに情報量の少ない退屈なものになりがちです。

そこで、自然言語処理でうまく冗長な情報をそぎ落とし、短い表現として発言者の意見を抽出することができれば

議事録、討論内容を読む側としては大幅なコスト削減につながり、非常に有益なのではないかと。


また、政治がらみのテキストでは、人手で要約することは作業者の主義主張に左右される恐れがあり好まれませんが

アルゴリズムが明らかな自然言語処理であれば、客観性が高まり、その点も評価されると思われます。

◎質問者からの返答

同じことを何回も言っているという点では、

非常に適切な対象です。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ