日本語の始まりと終わりを認識するのはどうすればよいでしょうか?
例文
「私ははてなが好きです。はてなを好きな理由 第一にはてなには多くの情報があります。 又、はてなにはユーザーを一番に考えてくれます!」
上の文だと、文節の始まりと終わりを分けると
・私ははてなが好きです。
・はてなを好きな理由
・第一にはてなには多くの情報があります。
・又、はてなにはユーザーを一番に考えてくれます!
な感じでしょうか。
この様に分ける場合、どうすればよいでしょうか?
写真は、http://www.benricho.org/moji_conv/japanese-dependency.php で係り受け解析をした結果です。これでは、文の始まりと終わりを解析できなさそうですね....
文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。
」
。
. ピリオド
(空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11
。+^p (エンターキー、キャリッジリターン)
、+^p (エンターキー、キャリッジリターン)
tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm
文頭文末の認識は係り受けとは何ら関係がありません。
コンピューターでの文字列処理には「正規表現」の学習が必須です。
身の回りの正規表現でいえば、
msワードの設定で禁則処理の設定のときに候補となる文末文字リストがあります。
」
。
. ピリオド
(空白2個)
……(会話文の語尾をにごすのによく用いられる)
。+^11 (^11は改行。リターン)
、+^11
。+^p (エンターキー、キャリッジリターン)
、+^p (エンターキー、キャリッジリターン)
tab (タブキー。エクセルからコピペした文章のセル区切り)
など。
終了文字のその直後にでてくるぁ-んァ-ンなどの有効な文字が文頭にあたるでしょう。
http://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm
コメント(0件)