サイト内に大量にあるPDFの全文検索機能を追加したいと考えています。
ただ、PDFが数十ページ以上になるケースもあり、namazuを使った場合、検索に引っ掛かったPDFから該当のキーワードがあるページにたどり着くことが非常に困難です。
そこで「Google検索アプライアンス」の導入を検討しました。
確かにPDFがHTML形式に変換されてインデックス化されるので要件を満たすのですが費用がかなりかかってしまいます。
そこで同じような機能をもった検索エンジンを教えてもらえませんでしょうか。有償でもかまいません。「Google検索アプライアンス」との費用比較はこちらで別途調べます。
商用の検索ASPサービスでは、いいものが結構ありますよ。
ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...
namazu 自体が遅い(量をさばけてない)のか、PDF からの変換処理が遅いのが問題なのかどちらなのだろう?という気はするが。
自分なら、pdf2text, pdf2html 等で形式を変換してから全文検索エンジンに登録することを考える。
その際の検索エンジンとしては、以下の様な N-gram ベースの物が比較的高速であるケースが多いようだ。