人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

形態素解析:係り受け

日本語の始まりと終わりを認識するのはどうすればよいでしょうか?


例文
「私ははてなが好きです。はてなを好きな理由 第一にはてなには多くの情報があります。 又、はてなにはユーザーを一番に考えてくれます!」

上の文だと、文節の始まりと終わりを分けると

・私ははてなが好きです。
・はてなを好きな理由
・第一にはてなには多くの情報があります。
・又、はてなにはユーザーを一番に考えてくれます!


な感じでしょうか。


この様に分ける場合、どうすればよいでしょうか?

写真は、http://www.benricho.org/moji_conv/japanese-dependency.php で係り受け解析をした結果です。これでは、文の始まりと終わりを解析できなさそうですね....

1445813571
●拡大する


●質問者: webtomake
●カテゴリ:インターネット
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● みやど
●20ポイント

リンク先のは1文ずつ入れるという前提で作られているものと思います。


2 ● なぽりん
●180ポイント ベストアンサー

文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。


. ピリオド
(空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11
。+^p (エンターキー、キャリッジリターン)
、+^p (エンターキー、キャリッジリターン)

tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm

関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ