人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

サイト内検索について教えてください。
サイト内に大量にあるPDFの全文検索機能を追加したいと考えています。
ただ、PDFが数十ページ以上になるケースもあり、namazuを使った場合、検索に引っ掛かったPDFから該当のキーワードがあるページにたどり着くことが非常に困難です。
そこで「Google検索アプライアンス」の導入を検討しました。
確かにPDFがHTML形式に変換されてインデックス化されるので要件を満たすのですが費用がかなりかかってしまいます。
そこで同じような機能をもった検索エンジンを教えてもらえませんでしょうか。有償でもかまいません。「Google検索アプライアンス」との費用比較はこちらで別途調べます。

●質問者: umi_budo
●カテゴリ:ウェブ制作
✍キーワード:Google HTML Namazu PDF アプライアンス
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● b-wind
●20ポイント

namazu 自体が遅い(量をさばけてない)のか、PDF からの変換処理が遅いのが問題なのかどちらなのだろう?という気はするが。


自分なら、pdf2text, pdf2html 等で形式を変換してから全文検索エンジンに登録することを考える。

全文検索 - Wikipedia

その際の検索エンジンとしては、以下の様な N-gram ベースの物が比較的高速であるケースが多いようだ。

◎質問者からの返答

ありがとうございます。

PDF含めコンテンツ量が多いことが問題なのと、

namazuでは特に、該当箇所がハイライトされずPDFの前半の文字ばかりが検索結果画面に表示されるためそこが問題になっていました。

先にコンテンツをHTML形式等に変換してからインデックスさせればよいのですね。

その方法も検討してみます。


2 ● pahoo
●20ポイント

クライアントが Windows に限定されてしまいますが、namazu で全文検索した結果を KWIC Finder に渡してインデックス検索、ヒットした箇所の表示という組み合わせはどうでしょう。

◎質問者からの返答

ありがとうございます。

こちらの方法も検討してみます。


3 ● まきのっぴ
●20ポイント

問題点が

・PDF であること

・文書量が大きいこと

どちらにあるのかによりますが、仮に前者だとして。

Hyper Estraier には estproxy.cgi という変換プログラムが付属しており、これを使用すると、PDF からテキストを抽出してキーワードをハイライトした HTML として表示してくれるので、なんちゃって Google キャッシュっぽいことができます。

ただしあくまでテキスト抽出なので、Google キャッシュのように元々の PDF レイアウトの再現まではしてくれません。また、その場で変換をかけるので対象の PDF が大きい場合はレスポンスに難があるかもしれません。

これに限らず Hyper Estraier は全般に Namazu より実用性が高いと思うのでお薦めです。

(標準付属の CGI プログラムだと見た目をカスタマイズしづらいのがネックですが)

◎質問者からの返答

ありがとうございます。

前の方も推薦していただいているようにHyper Estraierはよさそうですね。

Google キャッシュっぽいことができるだけでもずいぶん使い勝手は上がりそうです。


4 ● jimglq
●30ポイント ベストアンサー

商用の検索ASPサービスでは、いいものが結構ありますよ。

ビジネスサーチテクノロジのPDFナビだと、単純な全文検索だけでなくページ単位で検索結果を返したりpreviewで中身を確認できますし、マーズフラッグのUnivresal Viewerなんかでも、検索だけでなくアクロバットを立ち上げずPDFの中身が確認できます。両社ともそれなりに費用はかかりますが...

◎質問者からの返答

ありがとうございます。

どちらも是非検討したいと思います。

開発が不要なので手間はかかりませんね。

後はコスト見合いです。

費用はどれほどなのでしょうか?

もしご存知なら教えてください。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ