1445813571 形態素解析:係り受け


日本語の始まりと終わりを認識するのはどうすればよいでしょうか?


例文
「私ははてなが好きです。はてなを好きな理由 第一にはてなには多くの情報があります。 又、はてなにはユーザーを一番に考えてくれます!」

上の文だと、文節の始まりと終わりを分けると

・私ははてなが好きです。
・はてなを好きな理由
・第一にはてなには多くの情報があります。
・又、はてなにはユーザーを一番に考えてくれます!


な感じでしょうか。


この様に分ける場合、どうすればよいでしょうか?

写真は、http://www.benricho.org/moji_conv/japanese-dependency.php で係り受け解析をした結果です。これでは、文の始まりと終わりを解析できなさそうですね....

回答の条件
  • 1人1回まで
  • 13歳以上
  • 登録:2015/10/26 07:52:51
  • 終了:2015/11/01 12:45:34

ベストアンサー

id:NAPORIN No.2

なぽりん回答回数4608ベストアンサー獲得回数8452015/10/26 11:44:51

ポイント180pt

文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、 
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。


. ピリオド
  (空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11 
。+^p  (エンターキー、キャリッジリターン)
、+^p  (エンターキー、キャリッジリターン)

tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。 
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm

その他の回答(1件)

id:MIYADO No.1

みやど回答回数333ベストアンサー獲得回数732015/10/26 10:07:06

ポイント20pt

リンク先のは1文ずつ入れるという前提で作られているものと思います。

id:NAPORIN No.2

なぽりん回答回数4608ベストアンサー獲得回数8452015/10/26 11:44:51ここでベストアンサー

ポイント180pt

文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、 
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。


. ピリオド
  (空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11 
。+^p  (エンターキー、キャリッジリターン)
、+^p  (エンターキー、キャリッジリターン)

tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。 
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません