”文書類似度計算法”をﾌﾞﾗｳｻﾞ上から試してみるようなｻｲﾄを探しています｡ﾕｰｸﾘｯﾄﾞ距離やｺｻｲﾝ類似度などの文書類似度計算法をﾌﾞﾗｳｻﾞ上から試してみるよう…

人力検索はてな

ﾓﾊﾞｲﾙ版を表示しています｡PC版はこちら

”文書類似度計算法”をﾌﾞﾗｳｻﾞ上から試してみるようなｻｲﾄを探しています｡
ﾕｰｸﾘｯﾄﾞ距離やｺｻｲﾝ類似度などの文書類似度計算法をﾌﾞﾗｳｻﾞ上から試してみるようなｻｲﾄはありませんでしょうか？
ﾚｰﾍﾞﾝｼｭﾀｲﾝ距離に関しては見つかったのですが｡
http://andrew.hedges.name/experiments/levenshtein/
ｱﾄﾞﾊﾞｲｽいただけたらありがたいです｡

●質問者: yujinTODO
●ｶﾃｺﾞﾘ:ｺﾝﾋﾟｭｰﾀ学習･教育
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

▽1 ● fiwa

次のようなｻｲﾄでよろしいでしょうか？

http://asecuritysite.com/forensics/simstring
いろいろなｱﾙｺﾞﾘｽﾞﾑで文字列の類似度を算出できるようになっているようです｡下の方に"Cosine Similarity"や"Euclidean Distance"があります｡

http://cs.joensuu.fi/~zhao/Link/Similarity_strings.html
Levenshtein distance､Q-gram､Cosine similarity､Dice coefficientの4種類が試せるようになっています｡

http://www.tools4noobs.com/online_tools/string_similarity/
ここで使用されているｱﾙｺﾞﾘｽﾞﾑは"An O(ND) Difference Algorithm and its Variations"と呼ばれ､diffで使用されているのと同じものなんだそうで｡

yujinTODOさんのｺﾒﾝﾄ
fiwa様､本当にありがとうございました｡とても参考になりました｡しかし､このようなｻｲﾄはどのようにしてお探しになられたのでしょうか? ｢xxx sample｣とか色々してみましたが､自分の調べ方が悪いのか出てこなかったのですが｡

fiwaさんのｺﾒﾝﾄ
たぶん"string similarity test" とか "string similarity cosine" ､"string similarity Euclidean" などのｷｰﾜｰﾄﾞで検索したと思います｡いくつかﾊﾟﾀｰﾝを変えてそれぞれから関係ありそうなものを拾ったはずです｡