chocococoa回答ポイント 70pt

あるものに対してキャッチコピーのような文章を募集したところ、約４万件の回答を得ました。

この投稿作品はデータベースに収められていて、文字数は１件あたり５０文字前後の日本語です。

この中から「類似した内容を持つレコード」をグルーピングすることって、出来るのでしょうか。
機械的な処理になっても構わないですが、このような処理を行いたい場合に何をすればよいかの検討がつきません。

データ自体は通番と投稿文の２カラムで、これを PostgreSQL に投入して操作していますが、もし PostgreSQL 以外のデータベースで実現できるのであれば、それも知りたいです。

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

ベストアンサー

pahoo2009/04/29 07:08:01
満足70pt

何をもって「類似」とするか、その考え方にもよりますが、出来ます。データベースの違いは問題になりませんが、類似度を計算するためのプログラミング言語が必要です。

livedoor開発チームが、livedoorキーワードに登録されている内容が Wikipedia の丸写しでないことをチェックするために perl の String::Trigram を使っているとのこと。公式ブログの記事「String::Trigram でテキストの類似度を測る」を参考にしてください。

String::Trigram のアルゴリズムはN-gram言語モデルと呼ばれるもので、Google検索エンジンなどでも利用されています。

Python や PHP での実装方法については「テキストの類似度をプログラムで処理するには」が参考になるでしょう。

スター
- chocococoa 2009/04/29 07:24:28
  
  String::Trigram
  
  python-ngram
  
  PHP:similar_text
  
  PHP: levenshtein
  
  ありがとうございます！
  
  ※もしやPHPのMLでお見かけするぱぱぱふぅさんでしょうか！

その他の回答

rolexbaidu2009/04/29 18:29:43
0pt

http://www.lv-google.net/E-gc7.htm

スター

あるものに対してキャッチコピーのような文章を募集したところ、約４万件の回答を得ました。

ベストアンサー

pahoo2009/04/29 07:08:01
満足70pt

chocococoa 2009/04/29 07:24:28

その他の回答

rolexbaidu2009/04/29 18:29:43
0pt

pahoo2009/05/02 09:39:19
回答オープン10pt

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

あるものに対してキャッチコピーのような文章を募集したところ、約４万件の回答を得ました。

ベストアンサー

pahoo2009/04/29 07:08:01 満足70pt

chocococoa 2009/04/29 07:24:28

その他の回答

rolexbaidu2009/04/29 18:29:43 0pt

pahoo2009/05/02 09:39:19 回答オープン10pt

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

pahoo2009/04/29 07:08:01
満足70pt

rolexbaidu2009/04/29 18:29:43
0pt

pahoo2009/05/02 09:39:19
回答オープン10pt