サイト内に大量にあるPDFの全文検索機能を追加したいと考えています。
ただ、PDFが数十ページ以上になるケースもあり、namazuを使った場合、検索に引っ掛かったPDFから該当のキーワードがあるページにたどり着くことが非常に困難です。
そこで「Google検索アプライアンス」の導入を検討しました。
確かにPDFがHTML形式に変換されてインデックス化されるので要件を満たすのですが費用がかなりかかってしまいます。
そこで同じような機能をもった検索エンジンを教えてもらえませんでしょうか。有償でもかまいません。「Google検索アプライアンス」との費用比較はこちらで別途調べます。
商用の検索ASPサービスでは、いいものが結構ありますよ。
ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...
namazu 自体が遅い(量をさばけてない)のか、PDF からの変換処理が遅いのが問題なのかどちらなのだろう?という気はするが。
自分なら、pdf2text, pdf2html 等で形式を変換してから全文検索エンジンに登録することを考える。
その際の検索エンジンとしては、以下の様な N-gram ベースの物が比較的高速であるケースが多いようだ。
ありがとうございます。
PDF含めコンテンツ量が多いことが問題なのと、
namazuでは特に、該当箇所がハイライトされずPDFの前半の文字ばかりが検索結果画面に表示されるためそこが問題になっていました。
先にコンテンツをHTML形式等に変換してからインデックスさせればよいのですね。
その方法も検討してみます。
クライアントが Windows に限定されてしまいますが、namazu で全文検索した結果を KWIC Finder に渡してインデックス検索、ヒットした箇所の表示という組み合わせはどうでしょう。
ありがとうございます。
こちらの方法も検討してみます。
問題点が
・PDF であること
・文書量が大きいこと
どちらにあるのかによりますが、仮に前者だとして。
Hyper Estraier には estproxy.cgi という変換プログラムが付属しており、これを使用すると、PDF からテキストを抽出してキーワードをハイライトした HTML として表示してくれるので、なんちゃって Google キャッシュっぽいことができます。
ただしあくまでテキスト抽出なので、Google キャッシュのように元々の PDF レイアウトの再現まではしてくれません。また、その場で変換をかけるので対象の PDF が大きい場合はレスポンスに難があるかもしれません。
これに限らず Hyper Estraier は全般に Namazu より実用性が高いと思うのでお薦めです。
(標準付属の CGI プログラムだと見た目をカスタマイズしづらいのがネックですが)
ありがとうございます。
前の方も推薦していただいているようにHyper Estraierはよさそうですね。
Google キャッシュっぽいことができるだけでもずいぶん使い勝手は上がりそうです。
商用の検索ASPサービスでは、いいものが結構ありますよ。
ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...
ありがとうございます。
どちらも是非検討したいと思います。
開発が不要なので手間はかかりませんね。
後はコスト見合いです。
費用はどれほどなのでしょうか?
もしご存知なら教えてください。
ありがとうございます。
どちらも是非検討したいと思います。
開発が不要なので手間はかかりませんね。
後はコスト見合いです。
費用はどれほどなのでしょうか?
もしご存知なら教えてください。