門外漢なのでちょっと怪しい回答になります。ご了承下さい。
形態素解析
http://ja.wikipedia.org/wiki/形態素解析
や、
N-gram
http://www.shuiren.org/chuden/teach/n-gram/index-j.html
を用いて各文書から要素を抽出し、さらに文書間の各要素の共起関係を見ることで類似度がある程度算出出来ると思います。全要素中の何%が共起していた、と言うような。
一般的にはTF/IDFを用いて算出した文書を規定するような重要語句を用いて、意味空間に特徴ベクトルとして各文書を定義し、さらに各ベクトル間の距離を求める方法が挙げられるようですが
http://www.dl.kuis.kyoto-u.ac.jp/lecture/doc/infosystem02.pdf
2文書の類似度を算出するとなると、データベースとなるような文書群が存在しない為にTF/IDFを適用する意味が殆ど無いように思います。