人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

namazuで透明テキスト付きPDFを検索出来ずに困っております。
通常のPDF(Word等から生成したPDF)は検索出来るのですが、e.TypistまたはScanPaperで作成
した透明テキスト付きPDFは検索してもHitしません。
どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。

環境:
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
#!/bin/tcsh
setenv LANG ja_JP.eucJP
setenv LC_ALL ja_JP.eucJP
setenv PEAL_BADLANG 0
cd /usr/local/var/namazu/index
/usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test


●質問者: masa2007_Ver2
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:2.0 CD INDEX Namazu PDF
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● y-kawaz
●60ポイント

これは透明テキストだから、とかnamazuの使い方が違う、とかいう問題ではないです。

単純にScanPaperのOCR(画像文字認識)の認識率が悪くて、正しい文字列として認識できていないだけだと思います。


試しに透明テキストを選択してクリップボードにコピーして、テキストエディタに貼り付けてみて、それがまともな文字列になっているか確認してみて下さい。恐らく、検索しようと思っている文字列がそもそも含まれていないんじゃないでしょうか?なのでnamazuで検索しても見つからないのは当然です。


いくつかのOCRエンジンを試したことがありますが、その経験から、今時のOCRエンジンでも、頑張ったところで精々人間がみたらそれっぽい文字列にはなっている程度には認識できますが、検索で使えるほどのマトモなレベルに認識させるのは難しいというのが僕の結論です。

◎質問者からの返答

ご返答有難うございます。

文字列として認識している事は確認済みで、PDF内での検索も出来ているようです。

ですので、namazuでのindex作成の際に、何か作業が足りないのかな?と考えております。

例えばロケールの設定等。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ