1445813571 形態素解析:係り受け


日本語の始まりと終わりを認識するのはどうすればよいでしょうか?


例文
「私ははてなが好きです。はてなを好きな理由 第一にはてなには多くの情報があります。 又、はてなにはユーザーを一番に考えてくれます!」

上の文だと、文節の始まりと終わりを分けると

・私ははてなが好きです。
・はてなを好きな理由
・第一にはてなには多くの情報があります。
・又、はてなにはユーザーを一番に考えてくれます!


な感じでしょうか。


この様に分ける場合、どうすればよいでしょうか?

写真は、http://www.benricho.org/moji_conv/japanese-dependency.php で係り受け解析をした結果です。これでは、文の始まりと終わりを解析できなさそうですね....

回答の条件
  • 1人1回まで
  • 登録:
  • 終了:2015/11/01 12:45:34
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:NAPORIN No.2

回答回数4892ベストアンサー獲得回数909

ポイント180pt

文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、 
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。


. ピリオド
  (空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11 
。+^p  (エンターキー、キャリッジリターン)
、+^p  (エンターキー、キャリッジリターン)

tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。 
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm

その他の回答1件)

id:MIYADO No.1

回答回数1056ベストアンサー獲得回数193

ポイント20pt

リンク先のは1文ずつ入れるという前提で作られているものと思います。

id:NAPORIN No.2

回答回数4892ベストアンサー獲得回数909ここでベストアンサー

ポイント180pt

文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、 
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。


. ピリオド
  (空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11 
。+^p  (エンターキー、キャリッジリターン)
、+^p  (エンターキー、キャリッジリターン)

tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。 
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません