自作検索エンジンを作ろうと思っています。


検索エンジンの仕組みはなんとなくわかりますが、日本語の分解、常駐プログラムの設計、必要とするサーバーの性能やソフトなどを紹介している本を教えてください。

APIを使うという回答は、無しでお願いします。

回答の条件
  • 1人3回まで
  • 登録:
  • 終了:2006/06/26 23:05:40
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答5件)

id:Kumappus No.1

回答回数3784ベストアンサー獲得回数185

ポイント20pt

http://www.blogkid.com/weblog/archives/000189.html

あまり詳しくないので一部だけ。

日本語の分解には形態素解析プログラムが必要で、

http://journal.mycom.co.jp/column/yetanother/045/

ChaSen(ちゃせん)が有名ですね。

id:yokohamaken

回答ありがとうございます。

やはりキーワードは形態素解析プログラムなようですね。がんばってみます。

2006/06/21 17:21:17
id:esecua No.2

回答回数510ベストアンサー獲得回数10

ポイント40pt

本ではないのですが、既にPHPで書かれているクローラーのクラスがあります。http://sourceforge.net/projects/phpcrawl/ リンク数など検知する事ができます。


また日本語のトーン検出もPHPで可能です。 http://phpspot.org/blog/archives/2005/11/php_17.html


参考になれば幸いです。

id:yokohamaken

回答ありがとうございます。

もう既にPHP用のクラスが作られていたのですね。普段からPHPを使っていますが、常駐プログラムをPHPで作っても大丈夫なのでしょうか。常駐というとCとかJavaというイメージがついてしまっているので・・・。

PHPSPOTのほうは1度見たときはあんな簡単ででいいのかと驚きました。

質問に間して:「書籍」以外でもかまいません。説明不足ですみません

2006/06/21 17:41:38
id:skky No.3

回答回数98ベストアンサー獲得回数4

ポイント20pt

国産検索エンジンで実績があり情報も豊富なのはnamazuでしょう。日本語の分解部分はkakashiとか既存ライブラリを使用していたと思います。本も何冊か出ているので立ち読みしては如何。

なまず本

id:yokohamaken

namazuは有名ですね。

今度、namazuが期待した結果を吐き出せるかを検証してみます。

2006/06/26 22:56:11
id:kisaramatsui No.4

回答回数19ベストアンサー獲得回数2

ポイント20pt

形態素解析以外の方法では、N-gramが有名ですね。

N-gramを使った全文検索エンジンとして有名なHyper EstraierのURLを貼っておきます。

http://hyperestraier.sourceforge.net/

id:yokohamaken

回答ありがとうございます。

N-gramは日本語にも使えるのでしょうか。調べてみたいと思います。

2006/06/26 22:57:42
id:Katabami No.5

回答回数24ベストアンサー獲得回数0

ポイント5pt

答えではないのでポイントは不要です。

http://www.searchdesk.com/

上のHPが最強の検索エンジンだとおもいます

自作のができたらぜひ使わせてくださいw

id:yokohamaken

回答ありがとうございます。

このサイトもそれぞれのエンジンの設定に合わせたという面ではすごいと思います。(1つ1つのサイトを見てチェックしたという面では。)

ここで回答を締め切りたいと思います。

みなさん、ありがとうございました。

2006/06/26 22:56:40

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません