辞書をOCRしています。そのプロセスでPDF化、テキスト化の他に、画像そのものを保存した方がよいと聞きました。
将来、よりすぐれたOCRソフトが入手できれば、再び読み込みをさせるのに有用とのことです。
そこで、
1 この保存様式としてtiffが一番妥当なのでしょうか?
2 その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。
当方はWINDOWを使用しています。
よろしくお願いいたします。
1 この保存様式としてtiffが一番妥当なのでしょうか?
TIFF をあげたのは、スキャナの出力形式に TIFF があるから、ですよね。
JPEG よりは、妥当だと思います。
2 その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。
ただ保存しておくだけで、参照することが二度と無いかもしれない画像ファイル、ということですよね。
圧縮率が高い方が良いと思うので、ZIP か LZW、もし、スキャン時に二値化してるのであれば、PACKBITS のうちから選ぶのが良いと思います。
JPEG は、非可逆圧縮なのとエッヂがにじむので、OCR 用としては不向きだと思います。
--
追記
では、a-kumaさんなら、いかなる形式を使いますか。今回の用途として。
スキャナ次第ですが、TIFF と JPEG なら、TIFF を選びます。
また、取り込んだ画像の質にもよりますが、鮮明にスキャンできるなら、
取込の時点で、二値化して、PACKBITS にするかな。
因みに、ID に、数字の「3」が入ってますんで、よろしく :-)
質問文には私の理解から一つ抜けていますので、まず付け加えておきます。
PDFには欠点があります。それはデータ形式として安定していないということです。バージョンの違い、それと作成アプリによる方言があります。
リコーが独自の画像と文字を自動判別して文字は透明でないテキストのPDFを開発したと自慢していましたが、Scan画像をOCRした結果が99%以上ならまだしも97%台ならせっかくの画像に誤字を加えるだけに終わったという笑い話がありますが、良い例でしょう。
PDFだけで保存しないというのは、今回の質問にあるOCRソフトが対象データとしてPDFを扱えると謳っていても、扱えないPDFデータになる可能性があるということです。
そのため公開用にはPDF、保存用としてTIFFという組み合わせが多いのです。ただし、図書館などで蔵書の電子化を第三者委託する場合は経費を抑えるためにいずれか片方の納品となる場合が多いです。
TIFFのデータ形式で利用が最も多いのは現在では圧倒的にG4圧縮です。まず、TIFFが用いられるのは複数ページの画像を一つのファイルにまとめられるからで、書籍の画像を扱うのに便利だからという理由です。
更にG4圧縮とするのは、結局バックアップとしてのファイルですから容量がコンパクトな方が良いと考えているからです。
コメント(3件)
a-kumaさん
では、a-kumaさんなら、いかなる形式を使いますか。今回の用途として。たしかに、参照はしないかもしれない。でも、将来はするかもしれない、なら。
Baku7700さん
今回の用途として、「Tiffは妥当だ、実際多くがそうしている」という意味と解してよろしいですね。そして、Bakuさんご自身も、今回の目的なら、tiffを選択するという意見ということですね。
>Tiffは妥当だ、実際多くがそうしている
ではなくて、将来現在使用していないソフトで何らかの加工・利用をすることが想定される場合Tiff以外の形式では保存しない。
PDFで保存するのはテキストを組み合わせる上で妥当な形式ではありますが、将来のデータ形式として生き残るか、また将来利用するソフトが取り扱うかという点で問題が残るということです。
位の強い意味です。
>Bakuさんご自身も、今回の目的なら、tiffを選択するという意見
というより、その場合Tiff以外の選択肢は考えられないでしょうね。
余談ですが、私は書籍のOCRをする場合、結構Word形式で保存します。理由は単純で文法や単語のチェックをWord上でも行ってくれるからです。
abbyyのファインリーダーを使っているので、
他の保存様式として、
BMP
DCX
PCX
PNG
JBIG
があります。
皆さんがこの中で今回の用途として選択されるとしたらどれにされるでしょうか。理由もお願いします、とするべきでした。