PHPでテキストを処理する際の話として質問です。

新聞記事や日記、本の内容など一般的な文章から「単語」を抜き出す方法の定石というのはあるのでしょうか?

例えば上の質問文から「PHP」「テキスト」「質問」「新聞記事」「日記」...というような単語を抜き出したいと考えています。

例えば「です」「ます」「だから」などを全て削除してどうのこうの...などという具体的な方法や掲載されているURLを教えてください。
よろしくお願いします。

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2006/06/19 19:12:43
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:wizemperor No.2

回答回数379ベストアンサー獲得回数52

ポイント40pt

形態素解析によって抽出するのが一般的です。


kakasi

http://kakasi.namazu.org/

Chasen

http://chasen.aist-nara.ac.jp/hiki/ChaSen/

MeCab

http://mecab.sourceforge.jp/


PHPでChasenを使用する方法

http://aineko.com/php/program/chasen.php

人工無能を作ろう~形態素解析(php)

http://shohoji.net/blog/archives/000250.html


本格的にやろうとすると大規模になってしまうとは思いますが…。

id:worldtravel

ありがとうございます。

> 本格的にやろうとすると大規模になってしまうとは思いますが…。

確かにちょっとしたサイトに使うのは難しそうですね。

一応一通り拝見して見ます。

ありがとうございました。

2006/06/19 19:11:53

その他の回答1件)

id:Mook No.1

回答回数1314ベストアンサー獲得回数393

ポイント40pt

今回のお探しの手法は形態素解析と呼ばれるも分野に該当するものと思います。

http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A...

フリーウェアとして有名なものとして、kakasi/namazuがありますので、

http://kakasi.namazu.org/

見てみてはどうでしょうか。

id:worldtravel

ありがとうございます。

「形態素解析」と言うのですね。

先日質問した別の質問の回答にも同じサイトが紹介されていました。

ありがとうございました。

2006/06/19 19:10:37
id:wizemperor No.2

回答回数379ベストアンサー獲得回数52ここでベストアンサー

ポイント40pt

形態素解析によって抽出するのが一般的です。


kakasi

http://kakasi.namazu.org/

Chasen

http://chasen.aist-nara.ac.jp/hiki/ChaSen/

MeCab

http://mecab.sourceforge.jp/


PHPでChasenを使用する方法

http://aineko.com/php/program/chasen.php

人工無能を作ろう~形態素解析(php)

http://shohoji.net/blog/archives/000250.html


本格的にやろうとすると大規模になってしまうとは思いますが…。

id:worldtravel

ありがとうございます。

> 本格的にやろうとすると大規模になってしまうとは思いますが…。

確かにちょっとしたサイトに使うのは難しそうですね。

一応一通り拝見して見ます。

ありがとうございました。

2006/06/19 19:11:53

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません