通常のPDF(Word等から生成したPDF)は検索出来るのですが、e.TypistまたはScanPaperで作成
した透明テキスト付きPDFは検索してもHitしません。
どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。
環境:
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
#!/bin/tcsh
setenv LANG ja_JP.eucJP
setenv LC_ALL ja_JP.eucJP
setenv PEAL_BADLANG 0
cd /usr/local/var/namazu/index
/usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test
これは透明テキストだから、とかnamazuの使い方が違う、とかいう問題ではないです。
単純にScanPaperのOCR(画像文字認識)の認識率が悪くて、正しい文字列として認識できていないだけだと思います。
試しに透明テキストを選択してクリップボードにコピーして、テキストエディタに貼り付けてみて、それがまともな文字列になっているか確認してみて下さい。恐らく、検索しようと思っている文字列がそもそも含まれていないんじゃないでしょうか?なのでnamazuで検索しても見つからないのは当然です。
いくつかのOCRエンジンを試したことがありますが、その経験から、今時のOCRエンジンでも、頑張ったところで精々人間がみたらそれっぽい文字列にはなっている程度には認識できますが、検索で使えるほどのマトモなレベルに認識させるのは難しいというのが僕の結論です。
原因はFreeBSDのPortsの設定らしく、
/usr/X11R6/etc/xpdfrcで指定しているcMapDirでは、サブフォルダまで見に行かないらしく
cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/
cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/aj16/CMap ←追加
とする事により動作するようになりました。
以上、ご報告まで。