表記ゆれってありますよね?例えば、
「私は東京のホテルが好きだ。」
というTXTファイルがあった場合、
「私|は|東京|の|ホテル|が|好き|だ。」
という感じで日本語の表記に従ってわけてくれるプログラムはないでしょうか?
よろしくお願いいたします。
形態素解析エンジンはどうでしょう?
http://chasen.naist.jp/hiki/ChaSen/
http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
macabが現在は広く使われているようです。Perlバインディングもあるので、便利です。
おおおお!
ありがとうございます!!
助かりました、さっそくやってみます!