その際、特徴、費用(初期・運用共、ライセンスの有無)、カスタマイズの程度、専用サーバの要不要、導入に必要なおおよその期間、などといった情報も可能な限りいただければ幸いです。
ちょうど同様の質問が他でも出ていますので、参考にされると良いかと思いますが、私も Hyper Estraier 結構おすすめです。
■特徴
・高速
・クローラが付属しており、複数サイトのページを検索対象に加えることが可能
・形態素解析と N-gram の併用による漏れのない検索
など
■費用
オープンソース・無料 (その分面倒は全て自分で見る必要があります)
■カスタマイズ
標準付属の検索 CGI プログラムを使った場合、検索ページのテンプレートカスタマイズ可能。ただし検索フォームのカスタマイズは不可能なので、Namazu よりカスタマイズ性は若干劣ります。
しかし、API が公開されていてドキュメントもしっかりしているので、プログラムさえ組めれば自在にカスタマイズが可能です。私は Perl から API を叩いて使っています。
■専用サーバの要不要
バイナリをコンパイル・インストールする必要があるので、基本的に専用サーバが必要と考えた方が良いです。
さくらインターネットのようにシェルアクセス・コンパイル環境が開放されていれば共有のホスティングサービスでもインストールできる可能性がありそうですが、未確認です。
■導入に必要な期間
ちょっと試してみるだけなら1日でできるかと思いますが、あとどのくらいカスタマイズしたいかによるかと思います。
■検索精度
Namazu のように HTML の TITLE や見出し要素を重視して順序立てする機能が Hyper Estraier にはないので、単純に検索語が多く登場する文書が上位に出てきてしまい、上位に出てくるべきページが適切に上位にリストアップされないのがネックです。
しかし、適切なスニペット (検索語にヒットした周辺の抜粋) が出るのはいいですね。(Namazu は検索語が含まれているかいないかにかかわらずページの冒頭が出てしまう)
■実績
自分の経験では、ドキュメント数約20万ページのサイト内検索を、Pentium III 1GHz、メモリ 512MB のサーバで運営していますが、月間検索クエリ数約20万を余裕で捌いています。CPU 負荷は1割程度、メモリ使用量は 230MB 程度です。
同内容を玄箱 HG で構築してみたこともありますが、CPU は 266MHz だし、メモリも 128MB しかなかったので、さすがに20万ドキュメントは厳しかったです。
どのようなものを指しているのか良くわからないのですが(グループウェアやCMSのことであればお手上げです)サイト内検索に使えるソフトウェアであればHyperEstraierがお勧めです。
オープンソースソフトウェアであり無償で使用でき、特に日本語に対しての精度はかなり高いです。
マルチプラットフォームでバイナリとして実行され、Java、Perl、Ruby用のAPIも提供されているため該当する言語が使用できるならばそれなりのカスタマイズは可能です。
また、ローカルファイルのほかWebクローラとしてインデックス化を行うことも出来ます。
http://hyperestraier.sourceforge.net/index.ja.html
他には、Namazu、Rast、JiroSearchなどがあります。
質問が曖昧で申し訳ありませんでした。
ご回答いただいている内容で全く問題ありません!サイト内検索に使えるソフトウェアないしサービスという意味です。
HyperEstraierは初耳でした。Namazuは知っているのですが、それよりも性能も使い勝手も良いというイメージでよろしいでしょうか?
ご紹介のURLにあったデモンストレーション(wipipediaの全文検索)も大変高速で、検索結果にもおかしなところはないようでした。
ありがとうございます!
(「京都」で「東京都」が検索されたり、「ゲイ」で「ビル・ゲイツ」が検索されたり、ということはなかったので安心しました)
あとは、導入にあたってどの程度の作業ボリュームが必要かとか、検索対象ページ数の上限などが分かれば大変ありがたいです。
googleの検索用サーバが販売されてます。
見当違いでしたらごめんんさい。
http://www.plathome.co.jp/agency/google/
上記のサイト内検索系でしたらもう一つ有名な
Senna
http://qwik.jp/senna/FrontPageJ.html
Ludia
http://www.nttdata.co.jp/release/2006/101100.html
あと、サイト内検索のASPも最近多いです。
いえいえ!見当違いではありませんよ!
Googleの場合、サイト内の検索窓にロゴを表示させなくても良いのかどうかが知りたいところです。
SennaやLudiaのインストールはNamazu同様大変なのでしょうか?
ASPは導入は簡単という認識で良いですかね?
Namazuと比べたらかなり高性能と見ていいと思います。
明確な上限はありませんが、ユーザーマニュアル#助言によると、HTMLであればインデックスあたり600GB程度が限度とのことです。
Wikipedia(の記事名前空間)がインデックス化できているところを見ると通常のサイト内検索には充分な容量かと思います。
ただし、実行ファイルがバイナリであるために共有サーバでは動作させられないと思うので、専用もしくはVPSのレンタルサーバ(OSは問わず)か自宅サーバの用意は必須です。
性能的には予想されるトラフィックにもよりますが、それなりの性能は必要かと思います(性能不足だと極端に遅くなったりサーバーが落ちたりします)。特にメモリは多めに積んでおいた方が良いかと思います。
なるほど!ありがとうございました!!
2の回答者です。
googleのアプライアンスサーバは販売しているプラットホームさんで使用している
ので見ていただくといいと思いますが、オリジナルロゴが検索窓よこにあります。
非表示も可能と活用事例にでているのでOKですね。
検索結果例
http://www.plathome.co.jp/search?q=Google&x=24&y=11
(広告はでません)
ただ、費用対効果からするとgoogleが提供している
Googleフリー検索でもいいかなと感じます。
http://www.google.co.jp/intl/ja/faq_freewebsearch.html
(検索結果ページにgoogleの(c)やgoogleの検索結果である旨が表示されますので検索窓自体にはロゴを表示させなくていいと解釈してます。)
活用例:長野県公式ページ
http://www.google.co.jp/search?q=%90%7D%8F%91%8A%D9&ie=Shift...
(広告がでます。)
googleAPIを利用したスクリプトを設置するのも簡単で安いです。
http://www.intriguedesign.ca/search/
(広告はでません)
NamazuはLinuxがある程度使えればインストールは簡単です。
sennaやHyperEstraierはドキュメントを読んでる段階でおなかいっぱいになったので試していません。
ASPはお金払えばOKなので導入は簡単ですが試したことがないので
ご希望に沿うかどうかは解らないです。
ありがとうございます!
Googleだけでいろいろできそうですね!
APIを利用したスクリプト設置も面白そうです!!
ちょうど同様の質問が他でも出ていますので、参考にされると良いかと思いますが、私も Hyper Estraier 結構おすすめです。
■特徴
・高速
・クローラが付属しており、複数サイトのページを検索対象に加えることが可能
・形態素解析と N-gram の併用による漏れのない検索
など
■費用
オープンソース・無料 (その分面倒は全て自分で見る必要があります)
■カスタマイズ
標準付属の検索 CGI プログラムを使った場合、検索ページのテンプレートカスタマイズ可能。ただし検索フォームのカスタマイズは不可能なので、Namazu よりカスタマイズ性は若干劣ります。
しかし、API が公開されていてドキュメントもしっかりしているので、プログラムさえ組めれば自在にカスタマイズが可能です。私は Perl から API を叩いて使っています。
■専用サーバの要不要
バイナリをコンパイル・インストールする必要があるので、基本的に専用サーバが必要と考えた方が良いです。
さくらインターネットのようにシェルアクセス・コンパイル環境が開放されていれば共有のホスティングサービスでもインストールできる可能性がありそうですが、未確認です。
■導入に必要な期間
ちょっと試してみるだけなら1日でできるかと思いますが、あとどのくらいカスタマイズしたいかによるかと思います。
■検索精度
Namazu のように HTML の TITLE や見出し要素を重視して順序立てする機能が Hyper Estraier にはないので、単純に検索語が多く登場する文書が上位に出てきてしまい、上位に出てくるべきページが適切に上位にリストアップされないのがネックです。
しかし、適切なスニペット (検索語にヒットした周辺の抜粋) が出るのはいいですね。(Namazu は検索語が含まれているかいないかにかかわらずページの冒頭が出てしまう)
■実績
自分の経験では、ドキュメント数約20万ページのサイト内検索を、Pentium III 1GHz、メモリ 512MB のサーバで運営していますが、月間検索クエリ数約20万を余裕で捌いています。CPU 負荷は1割程度、メモリ使用量は 230MB 程度です。
同内容を玄箱 HG で構築してみたこともありますが、CPU は 266MHz だし、メモリも 128MB しかなかったので、さすがに20万ドキュメントは厳しかったです。
かなり詳しくご紹介いただき、ありがとうございます! Hyper Estraierに惹かれました!
同様に、Senna, Ludia, Rastについてもどなたかご存知であればお教えいただきたいです。
Senna は全文検索機能を実現するためのライブラリ (API) のみで、サイト内検索向けにパッケージされたものではないので、Web 検索システムを実現するには、クローラ、インデクサ、検索インタフェース等は全部自前で作り込む必要があります。
Ludia は Senna の機能をを PostgreSQL に追加するプラグインなので、同様ですね。
Google Mini、Google 検索アプライアンスですが、例えば名古屋市のサイト内検索で使われているのを見ていただければわかる通り、Google ロゴの表示はされていません。
ありがとうございます!
かなり詳しくご紹介いただき、ありがとうございます! Hyper Estraierに惹かれました!
同様に、Senna, Ludia, Rastについてもどなたかご存知であればお教えいただきたいです。