人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

自作検索エンジンを作ろうと思っています。

検索エンジンの仕組みはなんとなくわかりますが、日本語の分解、常駐プログラムの設計、必要とするサーバーの性能やソフトなどを紹介している本を教えてください。

APIを使うという回答は、無しでお願いします。

●質問者: yokohamaken
●カテゴリ:コンピュータ インターネット
✍キーワード:API サーバー ソフト プログラム 日本語
○ 状態 :終了
└ 回答数 : 5/5件

▽最新の回答へ

1 ● くまっぷす
●20ポイント

http://www.blogkid.com/weblog/archives/000189.html

あまり詳しくないので一部だけ。

日本語の分解には形態素解析プログラムが必要で、

http://journal.mycom.co.jp/column/yetanother/045/

ChaSen(ちゃせん)が有名ですね。

◎質問者からの返答

回答ありがとうございます。

やはりキーワードは形態素解析プログラムなようですね。がんばってみます。


2 ● esecua
●40ポイント

本ではないのですが、既にPHPで書かれているクローラーのクラスがあります。http://sourceforge.net/projects/phpcrawl/ リンク数など検知する事ができます。


また日本語のトーン検出もPHPで可能です。 http://phpspot.org/blog/archives/2005/11/php_17.html


参考になれば幸いです。

◎質問者からの返答

回答ありがとうございます。

もう既にPHP用のクラスが作られていたのですね。普段からPHPを使っていますが、常駐プログラムをPHPで作っても大丈夫なのでしょうか。常駐というとCとかJavaというイメージがついてしまっているので・・・。

PHPSPOTのほうは1度見たときはあんな簡単ででいいのかと驚きました。

質問に間して:「書籍」以外でもかまいません。説明不足ですみません


3 ● skky
●20ポイント

国産検索エンジンで実績があり情報も豊富なのはnamazuでしょう。日本語の分解部分はkakashiとか既存ライブラリを使用していたと思います。本も何冊か出ているので立ち読みしては如何。

なまず本

◎質問者からの返答

namazuは有名ですね。

今度、namazuが期待した結果を吐き出せるかを検証してみます。


4 ● きさら
●20ポイント

形態素解析以外の方法では、N-gramが有名ですね。

N-gramを使った全文検索エンジンとして有名なHyper EstraierのURLを貼っておきます。

http://hyperestraier.sourceforge.net/

◎質問者からの返答

回答ありがとうございます。

N-gramは日本語にも使えるのでしょうか。調べてみたいと思います。


5 ● Katabami
●5ポイント

答えではないのでポイントは不要です。

http://www.searchdesk.com/

上のHPが最強の検索エンジンだとおもいます

自作のができたらぜひ使わせてくださいw

◎質問者からの返答

回答ありがとうございます。

このサイトもそれぞれのエンジンの設定に合わせたという面ではすごいと思います。(1つ1つのサイトを見てチェックしたという面では。)

ここで回答を締め切りたいと思います。

みなさん、ありがとうございました。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ