web上には大量の(冗長な情報を含む)必要性が高い情報がある場合があります。

そのような情報を効率よく得たいというニーズがあると思います。


そのような大規模テキストデータ(文書)から、

重要な情報を選択するのではなく、
冗長な情報を削減する方が重要性、必要性が大きい、
そういうデータの具体例を示してください。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2008/09/04 00:48:41
  • 終了:2008/09/10 10:00:25

ベストアンサー

id:ahirusan No.1

あひる回答回数229ベストアンサー獲得回数32008/09/04 04:38:12

ポイント40pt

現時点で最も普及している技術がRSSリーダーですね。まぁ、「冗長な情報を削除する」という点ではちょっと当てはまりませんが、自分にとって興味のある記事かどうか程度の判断はできます。「重要な情報」かどうかは、その記事に含まれているキーワードが重要視されますので。

ということで、当該記事の中から重要なキーワードを抜き出して、その中でランクの高いものを数件表示する、という技術があれば良いということでしょうね。残念ながら私にはそのような技術を利用したサービスの存在は存じ上げておりません。

ちょっとずれてしまいますが、この件に関して、以下のような興味深い記事があります。

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

id:TAK_TAK

そういう対象になるテキストデータは、

具体的にどんなものがあるか、どんなものが考えられるか?

を、あげてほしいのです

2008/09/04 07:28:49

その他の回答(3件)

id:ahirusan No.1

あひる回答回数229ベストアンサー獲得回数32008/09/04 04:38:12ここでベストアンサー

ポイント40pt

現時点で最も普及している技術がRSSリーダーですね。まぁ、「冗長な情報を削除する」という点ではちょっと当てはまりませんが、自分にとって興味のある記事かどうか程度の判断はできます。「重要な情報」かどうかは、その記事に含まれているキーワードが重要視されますので。

ということで、当該記事の中から重要なキーワードを抜き出して、その中でランクの高いものを数件表示する、という技術があれば良いということでしょうね。残念ながら私にはそのような技術を利用したサービスの存在は存じ上げておりません。

ちょっとずれてしまいますが、この件に関して、以下のような興味深い記事があります。

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

http://www.chs.nihon-u.ac.jp/german/inst/yonei/yonei_info/daf-ku...

id:TAK_TAK

そういう対象になるテキストデータは、

具体的にどんなものがあるか、どんなものが考えられるか?

を、あげてほしいのです

2008/09/04 07:28:49
id:rawwell No.2

ピロシキ(id:rawwell)回答回数91ベストアンサー獲得回数102008/09/04 02:06:57

ポイント5pt

「冗長な情報」の性質にもよりますが、

「ウェブスパム」を排除すべき以下のような研究が行われています。

http://portal.acm.org/citation.cfm?id=1316740&dl=&coll=

また、日本でも「スパムブログ」を判定する研究が行われています。

http://b.hatena.ne.jp/entry/7805362

このようなデータは該当しますでしょうか。

id:TAK_TAK

これはすでにわたくしが研究し、実働システムも開発できています。



どちらかといえばこのような作為的な類似情報ではなく

偶然、冗長な情報が、誰かが意図したわけではなく「自然」に湧いてくるようなコーパスです

2008/09/04 07:29:54
id:ttakao No.3

RON回答回数276ベストアンサー獲得回数312008/09/05 16:43:02

ポイント25pt

システム系のログでは可能性があります。

例えば、複数のトラフィックをもつ回線が切断された場合、トラフィックごとにエラーメッセージが上がるのは当然ですが、それは人から見れば「冗長なデータ」です。

その中に本来の原因(root cause)が埋もれるのですから。

研究をされているのであれば、おわかりでしょうが、なにをもって「冗長とするか」を自動的に決められるのであれば、たとえシステムログというジャンルに絞っても、意味がある技術です。

http://en.wikipedia.org/wiki/Root_cause_analysis

id:TAK_TAK

自然言語を想定していたのですが、

こういう応用もあり得ますね。

2008/09/09 12:13:30
id:opechuman No.4

opechuman回答回数16ベストアンサー獲得回数42008/09/09 00:01:16

ポイント20pt

「重要な情報を選択する」ことと「冗長な情報を削減する」ことは多くの場合一致するのではないかと思いますが

「冗長な情報を削減する」ことが「重要な情報を見つける」上で特に有効だと予想されるテキストを教えてくれ

という解釈で回答させていただきます。


会議の議事録や討論会の発言全文はいかがでしょう。

ネット上にゴロゴロ転がっていますが、例えば

http://abirur.iza.ne.jp/blog/entry/307257/

のようなものです。国会や一部の自治体のホームページでも議事録が手に入ります。


口頭でのコミュニケーションでは、書いてものを伝えるときよりも

相手に正確に伝えることが困難になるので、しっかり伝えるために

重要なことほど繰り返し肉付けされて発話されることが多くなります。

そのため、それをテキスト化した議事録等は、長ったらしいわりに情報量の少ない退屈なものになりがちです。

そこで、自然言語処理でうまく冗長な情報をそぎ落とし、短い表現として発言者の意見を抽出することができれば

議事録、討論内容を読む側としては大幅なコスト削減につながり、非常に有益なのではないかと。


また、政治がらみのテキストでは、人手で要約することは作業者の主義主張に左右される恐れがあり好まれませんが

アルゴリズムが明らかな自然言語処理であれば、客観性が高まり、その点も評価されると思われます。

id:TAK_TAK

同じことを何回も言っているという点では、

非常に適切な対象です。

2008/09/09 12:16:23
  • id:TAK_TAK
    ahirusanさんへ

    RSSリーダに登録している情報源がそういうデータの対象であるということですか?
    つまりユーザによって対象は異なるということですか




  • id:ahirusan
    人々が興味のあるデータをRSSリーダに登録しているわけですから。ですから、当然ユーザごとに対象は異なりますよね。

    あと、対象となる記事の具体例としてはXMLがあげられますね。XMLの解析は非常に簡潔に行うことができますからね。

    何にしても、超いい加減な回答でごめんなさい。ポイントは無用に願います。 m(__)m
  • id:TAK_TAK
    方向性はだいぶ絞れました。
    ありがとうございました

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません