namazuで透明テキスト付きPDFを検索出来ずに困っております。

通常のPDF(Word等から生成したPDF)は検索出来るのですが、e.TypistまたはScanPaperで作成
した透明テキスト付きPDFは検索してもHitしません。
どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。

環境:
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
 #!/bin/tcsh
 setenv LANG ja_JP.eucJP
 setenv LC_ALL ja_JP.eucJP
 setenv PEAL_BADLANG 0
 cd /usr/local/var/namazu/index
 /usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test

回答の条件
  • 1人5回まで
  • 登録:2007/11/05 11:22:12
  • 終了:2007/11/05 20:38:14

回答(1件)

id:y-kawaz No.1

y-kawaz回答回数1421ベストアンサー獲得回数2262007/11/05 13:28:51

ポイント60pt

これは透明テキストだから、とかnamazuの使い方が違う、とかいう問題ではないです。

単純にScanPaperのOCR(画像文字認識)の認識率が悪くて、正しい文字列として認識できていないだけだと思います。


試しに透明テキストを選択してクリップボードにコピーして、テキストエディタに貼り付けてみて、それがまともな文字列になっているか確認してみて下さい。恐らく、検索しようと思っている文字列がそもそも含まれていないんじゃないでしょうか?なのでnamazuで検索しても見つからないのは当然です。


いくつかのOCRエンジンを試したことがありますが、その経験から、今時のOCRエンジンでも、頑張ったところで精々人間がみたらそれっぽい文字列にはなっている程度には認識できますが、検索で使えるほどのマトモなレベルに認識させるのは難しいというのが僕の結論です。

id:masa2007_Ver2

ご返答有難うございます。

文字列として認識している事は確認済みで、PDF内での検索も出来ているようです。

ですので、namazuでのindex作成の際に、何か作業が足りないのかな?と考えております。

例えばロケールの設定等。

2007/11/05 14:37:00
  • id:masa2007_Ver2
    masa2007_Ver2 2007/11/05 20:36:37
    検索出来るようになりました。

    原因はFreeBSDのPortsの設定らしく、
    /usr/X11R6/etc/xpdfrcで指定しているcMapDirでは、サブフォルダまで見に行かないらしく

    cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/
    cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/aj16/CMap ←追加

    とする事により動作するようになりました。
    以上、ご報告まで。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません