タイトルをコピペしたブコメを非表示にしたいです。どのようなアルゴリズムが適しているでしょうか?
目的は、はてなブックマークにおけるコメントの内、その人の考えが余り反映されていないコメントを非表示にすることです。
ブコメを目視で観察(http://b.hatena.ne.jp/entry/matome.naver.jp/odai/2131632919918955401)してみると、そのようなブコメにはタイトルをコピペしたものが多かったため、表題の事を質問させて頂きました。
文字数が足りないので、質問の続きはコメント欄に追記致しました。
回答がまだついていないようなので、思い切って回答させていただきます。
書いてはみたものの、こんなのでいいのかなと引っ込み思案気味になって一旦しまったものです。
例示されたエントリをそのまま例に取ると、大体こんな事をやってます。
- 「無料で」「学」「べる」「優良英語」「サイト」「まとめ - 」「NAVER 」「まとめ」で区切ります。
- 「無料で学」「学べる」「べる優良英語」「優良英語サイト」「サイトまとめ - 」「まとめ - NAVER 」「NAVER まとめ」のように結合して配列にしまいます。
- 各コメントでこの文字列を検索して、何割かヒットしたら、タイトルの一部が含まれているとみなします。
- 意見 (そこそこの文字数で独自の語が入っている文字列) とタイトルを併記している人をフィルタリングしないよう、最初に区切った語をコメントから消去していって、残った文字数を数えて判定します。
いくつもの文字列を切ったり消したり探ったりしているので、もしかしたらちょっと重いかもしれません。
(例示されたエントリで実行したら、体感としては一瞬でしたが、他の環境でもそうだと言い切れる自信はありません。)
もし重かったら、最初の処理 (タイトルの一部が含まれていると判定するまでの処理) ははしょっても良いかもしれません。
あと、この方法は「ほげほげをほげほげしてほげほげすると・・・」みたいなひらがなだけで構成されたタイトルにはめっぽう弱いです。
Greasemonkey 用のユーザスクリプトをまだちゃんと書いたことが無いので、どれくらい使いまわせるかは未知なのですが、参考になれば嬉しいです。