人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

英語の論文に対して字句解析・言語解析を行いたいと思います。

とりあえず、テキストデータから各単語の品詞を解析したいのですが、ある程度の辞書が用意されていて、かつ自前の辞書をそこに加えられるようなソフトウェアはないでしょうか?

プログラム言語は、Python/Rubyなどのスクリプト言語を念頭に置いておりますがJavaやCなども使いやすければかまいません。

また、OSはLinux系のものを使います。GUIは不要というかむしろCUIしか使いません。

polyglotを試してみたのですが、自前の辞書を登録できずに断念してしまいました。
http://polyglot.readthedocs.io/en/latest/index.html

●質問者: 匿名質問者
●カテゴリ:コンピュータ
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● 匿名回答1号
ベストアンサー

自前の辞書を登録したことはないのですが、言語処理100本ノックの第6章に挑戦した時に、javaで実装されているStanford Core NLPを使ったことがあります。
その時は用意されているコマンドを使って解析結果をxmlで出力させ、その結果をPythonで読みこんで使いました。(流れはQiitaに軽くまとめています。〔Qiita〕素人の言語処理100本ノック:53)

アノテーターの追加で辞書の登録に相当することができそうな気がするのですが、すいません、ここから先はやったことがないので良くわかりません。本家のサイトに単語からレンマへの変換をカスタムする例はありました。Adding a new annotator


匿名質問者さんのコメント
回答ありがとうございました。参考にさせていただきます。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ