PHPでテキストを処理する際の話として質問です。

新聞記事や日記、本の内容など一般的な文章から「単語」を抜き出す方法の定石というのはあるのでしょうか?

例えば上の質問文から「PHP」「テキスト」「質問」「新聞記事」「日記」...というような単語を抜き出したいと考えています。

例えば「です」「ます」「だから」などを全て削除してどうのこうの...などという具体的な方法や掲載されているURLを教えてください。
よろしくお願いします。

回答の条件
  • 1人2回まで
  • 登録:2006/06/19 18:38:23
  • 終了:2006/06/19 19:12:43

ベストアンサー

id:wizemperor No.2

wizemperor回答回数379ベストアンサー獲得回数522006/06/19 19:00:17

ポイント40pt

形態素解析によって抽出するのが一般的です。


kakasi

http://kakasi.namazu.org/

Chasen

http://chasen.aist-nara.ac.jp/hiki/ChaSen/

MeCab

http://mecab.sourceforge.jp/


PHPでChasenを使用する方法

http://aineko.com/php/program/chasen.php

人工無能を作ろう~形態素解析(php)

http://shohoji.net/blog/archives/000250.html


本格的にやろうとすると大規模になってしまうとは思いますが…。

id:worldtravel

ありがとうございます。

> 本格的にやろうとすると大規模になってしまうとは思いますが…。

確かにちょっとしたサイトに使うのは難しそうですね。

一応一通り拝見して見ます。

ありがとうございました。

2006/06/19 19:11:53

その他の回答(1件)

id:Mook No.1

Mook回答回数1312ベストアンサー獲得回数3912006/06/19 18:53:38

ポイント40pt

今回のお探しの手法は形態素解析と呼ばれるも分野に該当するものと思います。

http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A...

フリーウェアとして有名なものとして、kakasi/namazuがありますので、

http://kakasi.namazu.org/

見てみてはどうでしょうか。

id:worldtravel

ありがとうございます。

「形態素解析」と言うのですね。

先日質問した別の質問の回答にも同じサイトが紹介されていました。

ありがとうございました。

2006/06/19 19:10:37
id:wizemperor No.2

wizemperor回答回数379ベストアンサー獲得回数522006/06/19 19:00:17ここでベストアンサー

ポイント40pt

形態素解析によって抽出するのが一般的です。


kakasi

http://kakasi.namazu.org/

Chasen

http://chasen.aist-nara.ac.jp/hiki/ChaSen/

MeCab

http://mecab.sourceforge.jp/


PHPでChasenを使用する方法

http://aineko.com/php/program/chasen.php

人工無能を作ろう~形態素解析(php)

http://shohoji.net/blog/archives/000250.html


本格的にやろうとすると大規模になってしまうとは思いますが…。

id:worldtravel

ありがとうございます。

> 本格的にやろうとすると大規模になってしまうとは思いますが…。

確かにちょっとしたサイトに使うのは難しそうですね。

一応一通り拝見して見ます。

ありがとうございました。

2006/06/19 19:11:53

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません