masa2007_Ver2回答ポイント 60pt

namazuで透明テキスト付きPDFを検索出来ずに困っております。

通常のPDF（Word等から生成したPDF）は検索出来るのですが、e.TypistまたはScanPaperで作成
した透明テキスト付きPDFは検索してもHitしません。
どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。

環境：
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
　#!/bin/tcsh
　setenv LANG ja_JP.eucJP
　setenv LC_ALL ja_JP.eucJP
　setenv PEAL_BADLANG 0
　cd /usr/local/var/namazu/index
　/usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

みんなの回答

y-kawaz2007/11/05 13:28:51
満足60pt

これは透明テキストだから、とかnamazuの使い方が違う、とかいう問題ではないです。

単純にScanPaperのOCR(画像文字認識)の認識率が悪くて、正しい文字列として認識できていないだけだと思います。

試しに透明テキストを選択してクリップボードにコピーして、テキストエディタに貼り付けてみて、それがまともな文字列になっているか確認してみて下さい。恐らく、検索しようと思っている文字列がそもそも含まれていないんじゃないでしょうか？なのでnamazuで検索しても見つからないのは当然です。

いくつかのOCRエンジンを試したことがありますが、その経験から、今時のOCRエンジンでも、頑張ったところで精々人間がみたらそれっぽい文字列にはなっている程度には認識できますが、検索で使えるほどのマトモなレベルに認識させるのは難しいというのが僕の結論です。

スター
- masa2007_Ver2 2007/11/05 14:37:00
  
  ご返答有難うございます。
  
  文字列として認識している事は確認済みで、PDF内での検索も出来ているようです。
  
  ですので、namazuでのindex作成の際に、何か作業が足りないのかな？と考えております。
  
  例えばロケールの設定等。

この質問へのコメント

masa2007_Ver22007/11/05 20:36:37

検索出来るようになりました。

原因はFreeBSDのPortsの設定らしく、
/usr/X11R6/etc/xpdfrcで指定しているcMapDirでは、サブフォルダまで見に行かないらしく

cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/
cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/aj16/CMap　←追加

とする事により動作するようになりました。
以上、ご報告まで。

namazuで透明テキスト付きPDFを検索出来ずに困っております。

みんなの回答

y-kawaz2007/11/05 13:28:51
満足60pt

masa2007_Ver2 2007/11/05 14:37:00

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

namazuで透明テキスト付きPDFを検索出来ずに困っております。

みんなの回答

y-kawaz2007/11/05 13:28:51 満足60pt

masa2007_Ver2 2007/11/05 14:37:00

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

y-kawaz2007/11/05 13:28:51
満足60pt