人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PHPでテキストを処理する際の話として質問です。
新聞記事や日記、本の内容など一般的な文章から「単語」を抜き出す方法の定石というのはあるのでしょうか?

例えば上の質問文から「PHP」「テキスト」「質問」「新聞記事」「日記」...というような単語を抜き出したいと考えています。

例えば「です」「ます」「だから」などを全て削除してどうのこうの...などという具体的な方法や掲載されているURLを教えてください。
よろしくお願いします。

●質問者: worldtravel
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:PHP URL テキスト 単語 新聞
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● Mook
●40ポイント

今回のお探しの手法は形態素解析と呼ばれるも分野に該当するものと思います。

http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A...

フリーウェアとして有名なものとして、kakasi/namazuがありますので、

http://kakasi.namazu.org/

見てみてはどうでしょうか。

◎質問者からの返答

ありがとうございます。

「形態素解析」と言うのですね。

先日質問した別の質問の回答にも同じサイトが紹介されていました。

ありがとうございました。


2 ● wizemperor
●40ポイント ベストアンサー

形態素解析によって抽出するのが一般的です。


kakasi

http://kakasi.namazu.org/

Chasen

http://chasen.aist-nara.ac.jp/hiki/ChaSen/

MeCab

http://mecab.sourceforge.jp/


PHPでChasenを使用する方法

http://aineko.com/php/program/chasen.php

人工無能を作ろう?形態素解析(php)

http://shohoji.net/blog/archives/000250.html


本格的にやろうとすると大規模になってしまうとは思いますが…。

◎質問者からの返答

ありがとうございます。

> 本格的にやろうとすると大規模になってしまうとは思いますが…。

確かにちょっとしたサイトに使うのは難しそうですね。

一応一通り拝見して見ます。

ありがとうございました。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ