人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

OCRのためのTIFFでの保存

辞書をOCRしています。そのプロセスでPDF化、テキスト化の他に、画像そのものを保存した方がよいと聞きました。
将来、よりすぐれたOCRソフトが入手できれば、再び読み込みをさせるのに有用とのことです。

そこで、

1 この保存様式としてtiffが一番妥当なのでしょうか?
2 その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。

当方はWINDOWを使用しています。

よろしくお願いいたします。


●質問者: crocodile00
●カテゴリ:コンピュータ インターネット
✍キーワード:JPEG TIFF zip ソフト テキスト
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● a-kuma3
●50ポイント

1 この保存様式としてtiffが一番妥当なのでしょうか?

TIFF をあげたのは、スキャナの出力形式に TIFF があるから、ですよね。

JPEG よりは、妥当だと思います。


2 その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。

ただ保存しておくだけで、参照することが二度と無いかもしれない画像ファイル、ということですよね。

圧縮率が高い方が良いと思うので、ZIP か LZW、もし、スキャン時に二値化してるのであれば、PACKBITS のうちから選ぶのが良いと思います。

JPEG は、非可逆圧縮なのとエッヂがにじむので、OCR 用としては不向きだと思います。


--

追記

では、a?kumaさんなら、いかなる形式を使いますか。今回の用途として。

スキャナ次第ですが、TIFF と JPEG なら、TIFF を選びます。

また、取り込んだ画像の質にもよりますが、鮮明にスキャンできるなら、

取込の時点で、二値化して、PACKBITS にするかな。


因みに、ID に、数字の「3」が入ってますんで、よろしく :-)


2 ● Baku7770
●50ポイント

質問文には私の理解から一つ抜けていますので、まず付け加えておきます。

PDFには欠点があります。それはデータ形式として安定していないということです。バージョンの違い、それと作成アプリによる方言があります。

リコーが独自の画像と文字を自動判別して文字は透明でないテキストのPDFを開発したと自慢していましたが、Scan画像をOCRした結果が99%以上ならまだしも97%台ならせっかくの画像に誤字を加えるだけに終わったという笑い話がありますが、良い例でしょう。

PDFだけで保存しないというのは、今回の質問にあるOCRソフトが対象データとしてPDFを扱えると謳っていても、扱えないPDFデータになる可能性があるということです。

そのため公開用にはPDF、保存用としてTIFFという組み合わせが多いのです。ただし、図書館などで蔵書の電子化を第三者委託する場合は経費を抑えるためにいずれか片方の納品となる場合が多いです。

TIFFのデータ形式で利用が最も多いのは現在では圧倒的にG4圧縮です。まず、TIFFが用いられるのは複数ページの画像を一つのファイルにまとめられるからで、書籍の画像を扱うのに便利だからという理由です。

更にG4圧縮とするのは、結局バックアップとしてのファイルですから容量がコンパクトな方が良いと考えているからです。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ