開発環境: JAVA
日本語の形態素解析システムとしてSEN(http://ultimania.org/sen/)を使用していますが,
固有名詞抽出にはあまり性能が良くないです.
SEN以外のモジュールは使用せずに,固有名詞抽出の性能をよくする方法を教えて下さい.
SENの辞書ファイルを拡大する方法は分かっていますが,その場合も新しい固有名詞の辞書ファイルが必要になるので困っています.
よろしくお願いいたします.
http://www.hatena.ne.jp/1142055422#
人力検索はてな - 自然言語処理についてです. 開発環境: JAVA 日本語の形態素解析システムとしてSEN(http://ultimania.org/sen/)を使用していますが, 固有名詞抽出にはあまり性能が良..
URLはダミーです。
他の形態素解析エンジンを使用したとしても辞書に登録されていない限りは未知語扱いであるため、辞書の精度をあげるのがよいのではないでしょうか?
固有名詞を入手する手段として、ATOK17からだと辞書ツールから固有名詞一覧をファイル出力することが可能ですので、そのファイルをSEN形式の辞書に変換して使用すればいいと思います。
コメント(0件)