検索エンジンの仕組みはなんとなくわかりますが、日本語の分解、常駐プログラムの設計、必要とするサーバーの性能やソフトなどを紹介している本を教えてください。
APIを使うという回答は、無しでお願いします。
http://www.blogkid.com/weblog/archives/000189.html
あまり詳しくないので一部だけ。
日本語の分解には形態素解析プログラムが必要で、
http://journal.mycom.co.jp/column/yetanother/045/
ChaSen(ちゃせん)が有名ですね。
本ではないのですが、既にPHPで書かれているクローラーのクラスがあります。http://sourceforge.net/projects/phpcrawl/ リンク数など検知する事ができます。
また日本語のトーン検出もPHPで可能です。 http://phpspot.org/blog/archives/2005/11/php_17.html
参考になれば幸いです。
回答ありがとうございます。
もう既にPHP用のクラスが作られていたのですね。普段からPHPを使っていますが、常駐プログラムをPHPで作っても大丈夫なのでしょうか。常駐というとCとかJavaというイメージがついてしまっているので・・・。
PHPSPOTのほうは1度見たときはあんな簡単ででいいのかと驚きました。
質問に間して:「書籍」以外でもかまいません。説明不足ですみません
形態素解析以外の方法では、N-gramが有名ですね。
N-gramを使った全文検索エンジンとして有名なHyper EstraierのURLを貼っておきます。
回答ありがとうございます。
N-gramは日本語にも使えるのでしょうか。調べてみたいと思います。
回答ありがとうございます。
このサイトもそれぞれのエンジンの設定に合わせたという面ではすごいと思います。(1つ1つのサイトを見てチェックしたという面では。)
ここで回答を締め切りたいと思います。
みなさん、ありがとうございました。
回答ありがとうございます。
やはりキーワードは形態素解析プログラムなようですね。がんばってみます。