自然言語処理についてです.


開発環境: JAVA

日本語の形態素解析システムとしてSEN(http://ultimania.org/sen/)を使用していますが,
固有名詞抽出にはあまり性能が良くないです.

SEN以外のモジュールは使用せずに,固有名詞抽出の性能をよくする方法を教えて下さい.

SENの辞書ファイルを拡大する方法は分かっていますが,その場合も新しい固有名詞の辞書ファイルが必要になるので困っています.

よろしくお願いいたします.

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:r315 No.1

回答回数20ベストアンサー獲得回数0

ポイント40pt

http://www.hatena.ne.jp/1142055422#

人力検索はてな - 自然言語処理についてです. 開発環境: JAVA 日本語の形態素解析システムとしてSEN(http://ultimania.org/sen/)を使用していますが, 固有名詞抽出にはあまり性能が良..

URLはダミーです。

他の形態素解析エンジンを使用したとしても辞書に登録されていない限りは未知語扱いであるため、辞書の精度をあげるのがよいのではないでしょうか?


固有名詞を入手する手段として、ATOK17からだと辞書ツールから固有名詞一覧をファイル出力することが可能ですので、そのファイルをSEN形式の辞書に変換して使用すればいいと思います。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません