有償ソフトですがジャストシステムの「conceptbase」は類似性を計測していますね。
http://www.justsystems.com/jp/km/whats/search_q_104.html
ConceptBase技術は、テキスト情報からその内容(コンセプト)を抽出し、内容の類似性を判定する技術です。
類似性の判定には、(1)言語処理に必須となる形態素解析と、(2)類似度判定に必須となるベクトル空間モデルを利用した統計処理により実現されています。この2つの基礎技術により、高精度かつ高速なテキスト情報処理が実現されます。
内容の類似性を判定する技術は、関連ドキュメントの検索や、内容を判別した自動振分け、ドキュメント群のカテゴライズなど、様々なテキスト情報処理に応用できます。