サイト内検索について教えてください。

サイト内に大量にあるPDFの全文検索機能を追加したいと考えています。
ただ、PDFが数十ページ以上になるケースもあり、namazuを使った場合、検索に引っ掛かったPDFから該当のキーワードがあるページにたどり着くことが非常に困難です。
そこで「Google検索アプライアンス」の導入を検討しました。
確かにPDFがHTML形式に変換されてインデックス化されるので要件を満たすのですが費用がかなりかかってしまいます。
そこで同じような機能をもった検索エンジンを教えてもらえませんでしょうか。有償でもかまいません。「Google検索アプライアンス」との費用比較はこちらで別途調べます。

回答の条件
  • 1人5回まで
  • 登録:2009/08/03 18:28:17
  • 終了:2009/08/08 11:39:23

ベストアンサー

id:jimglq No.4

jimglq回答回数1ベストアンサー獲得回数12009/08/04 16:37:56

ポイント30pt

商用の検索ASPサービスでは、いいものが結構ありますよ。

ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...

id:umi_budo

ありがとうございます。

どちらも是非検討したいと思います。

開発が不要なので手間はかかりませんね。

後はコスト見合いです。

費用はどれほどなのでしょうか?

もしご存知なら教えてください。

2009/08/04 17:20:46

その他の回答(3件)

id:b-wind No.1

b-wind回答回数3344ベストアンサー獲得回数4402009/08/03 20:09:43

ポイント20pt

namazu 自体が遅い(量をさばけてない)のか、PDF からの変換処理が遅いのが問題なのかどちらなのだろう?という気はするが。


自分なら、pdf2text, pdf2html 等で形式を変換してから全文検索エンジンに登録することを考える。

全文検索 - Wikipedia

その際の検索エンジンとしては、以下の様な N-gram ベースの物が比較的高速であるケースが多いようだ。

  • Hyper Estraier
  • Rast
  • Senna
id:umi_budo

ありがとうございます。

PDF含めコンテンツ量が多いことが問題なのと、

namazuでは特に、該当箇所がハイライトされずPDFの前半の文字ばかりが検索結果画面に表示されるためそこが問題になっていました。

先にコンテンツをHTML形式等に変換してからインデックスさせればよいのですね。

その方法も検討してみます。

2009/08/04 16:55:58
id:pahoo No.2

pahoo回答回数5960ベストアンサー獲得回数6332009/08/03 20:06:27

ポイント20pt

クライアントが Windows に限定されてしまいますが、namazu で全文検索した結果を KWIC Finder に渡してインデックス検索、ヒットした箇所の表示という組み合わせはどうでしょう。

id:umi_budo

ありがとうございます。

こちらの方法も検討してみます。

2009/08/04 16:57:03
id:pmakino No.3

まきのっぴ回答回数353ベストアンサー獲得回数282009/08/03 23:39:38

ポイント20pt

問題点が

・PDF であること

・文書量が大きいこと

どちらにあるのかによりますが、仮に前者だとして。

Hyper Estraier には estproxy.cgi という変換プログラムが付属しており、これを使用すると、PDF からテキストを抽出してキーワードをハイライトした HTML として表示してくれるので、なんちゃって Google キャッシュっぽいことができます。

ただしあくまでテキスト抽出なので、Google キャッシュのように元々の PDF レイアウトの再現まではしてくれません。また、その場で変換をかけるので対象の PDF が大きい場合はレスポンスに難があるかもしれません。

これに限らず Hyper Estraier は全般に Namazu より実用性が高いと思うのでお薦めです。

(標準付属の CGI プログラムだと見た目をカスタマイズしづらいのがネックですが)

id:umi_budo

ありがとうございます。

前の方も推薦していただいているようにHyper Estraierはよさそうですね。

Google キャッシュっぽいことができるだけでもずいぶん使い勝手は上がりそうです。

2009/08/04 17:01:00
id:jimglq No.4

jimglq回答回数1ベストアンサー獲得回数12009/08/04 16:37:56ここでベストアンサー

ポイント30pt

商用の検索ASPサービスでは、いいものが結構ありますよ。

ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...

id:umi_budo

ありがとうございます。

どちらも是非検討したいと思います。

開発が不要なので手間はかかりませんね。

後はコスト見合いです。

費用はどれほどなのでしょうか?

もしご存知なら教えてください。

2009/08/04 17:20:46

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません