ＯＣＲのためのTIFFでの保存

Question

crocodile00

5

4もっと見る

100pt

コンピュータインターネット

ＯＣＲのためのTIFFでの保存

辞書をＯＣＲしています。そのプロセスでＰＤＦ化、テキスト化の他に、画像そのものを保存した方がよいと聞きました。
将来、よりすぐれたＯＣＲソフトが入手できれば、再び読み込みをさせるのに有用とのことです。

そこで、

１この保存様式としてｔｉｆｆが一番妥当なのでしょうか？
２その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。

当方はＷＩＮＤＯＷを使用しています。

よろしくお願いいたします。

回答の条件

1人5回まで

登録：2011/07/06 11:26:47
終了：2011/07/13 11:30:03

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

crocodile00 2011/07/07 08:34:01

回答ありがとうございます

a-kumaさん
では、ａ－ｋｕｍａさんなら、いかなる形式を使いますか。今回の用途として。たしかに、参照はしないかもしれない。でも、将来はするかもしれない、なら。

Ｂａｋｕ７７００さん
今回の用途として、「Ｔｉｆｆは妥当だ、実際多くがそうしている」という意味と解してよろしいですね。そして、Ｂａｋｕさんご自身も、今回の目的なら、ｔｉｆｆを選択するという意見ということですね。
Baku7770 2011/07/07 11:25:38

　私宛のコメントにコメントしますと、重箱の隅を突くような内容ですが、微妙なニュアンスの違いがあります。
>Ｔｉｆｆは妥当だ、実際多くがそうしている
　ではなくて、将来現在使用していないソフトで何らかの加工・利用をすることが想定される場合Ｔｉｆｆ以外の形式では保存しない。
　ＰＤＦで保存するのはテキストを組み合わせる上で妥当な形式ではありますが、将来のデータ形式として生き残るか、また将来利用するソフトが取り扱うかという点で問題が残るということです。
　位の強い意味です。

>Ｂａｋｕさんご自身も、今回の目的なら、ｔｉｆｆを選択するという意見
　というより、その場合Ｔｉｆｆ以外の選択肢は考えられないでしょうね。

　余談ですが、私は書籍のＯＣＲをする場合、結構Ｗｏｒｄ形式で保存します。理由は単純で文法や単語のチェックをＷｏｒｄ上でも行ってくれるからです。
crocodile00 2011/07/07 21:14:46

質問の仕方がまずかったかもしれません。
ａｂｂｙｙのファインリーダーを使っているので、
他の保存様式として、

ＢＭＰ
ＤＣＸ
ＰＣＸ
ＰＮＧ
ＪＢＩＧ
があります。

皆さんがこの中で今回の用途として選択されるとしたらどれにされるでしょうか。理由もお願いします、とするべきでした。

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

a-kuma3 · Answer 1 · 2011-07-06T12:25:09+09:00

１この保存様式としてｔｉｆｆが一番妥当なのでしょうか？

TIFF をあげたのは、スキャナの出力形式に TIFF があるから、ですよね。

JPEG よりは、妥当だと思います。

２その場合、UNPACKED, PACKBITS, COMPRESSION(JPEG, ZIP, LZW)のなかでどれが一番有利でしょうか。

ただ保存しておくだけで、参照することが二度と無いかもしれない画像ファイル、ということですよね。

圧縮率が高い方が良いと思うので、ZIP か LZW、もし、スキャン時に二値化してるのであれば、PACKBITS のうちから選ぶのが良いと思います。

JPEG は、非可逆圧縮なのとエッヂがにじむので、OCR 用としては不向きだと思います。

--

追記

では、ａ－ｋｕｍａさんなら、いかなる形式を使いますか。今回の用途として。

スキャナ次第ですが、TIFF と JPEG なら、TIFF を選びます。

また、取り込んだ画像の質にもよりますが、鮮明にスキャンできるなら、

取込の時点で、二値化して、PACKBITS にするかな。

因みに、ID に、数字の「３」が入ってますんで、よろしく　:-)

Baku7770 · Answer 2 · 2011-07-06T23:56:20+09:00

　質問文には私の理解から一つ抜けていますので、まず付け加えておきます。

　ＰＤＦには欠点があります。それはデータ形式として安定していないということです。バージョンの違い、それと作成アプリによる方言があります。

　リコーが独自の画像と文字を自動判別して文字は透明でないテキストのＰＤＦを開発したと自慢していましたが、Ｓｃａｎ画像をＯＣＲした結果が９９％以上ならまだしも９７％台ならせっかくの画像に誤字を加えるだけに終わったという笑い話がありますが、良い例でしょう。

　ＰＤＦだけで保存しないというのは、今回の質問にあるＯＣＲソフトが対象データとしてＰＤＦを扱えると謳っていても、扱えないＰＤＦデータになる可能性があるということです。

　そのため公開用にはＰＤＦ、保存用としてＴＩＦＦという組み合わせが多いのです。ただし、図書館などで蔵書の電子化を第三者委託する場合は経費を抑えるためにいずれか片方の納品となる場合が多いです。

　ＴＩＦＦのデータ形式で利用が最も多いのは現在では圧倒的にＧ４圧縮です。まず、ＴＩＦＦが用いられるのは複数ページの画像を一つのファイルにまとめられるからで、書籍の画像を扱うのに便利だからという理由です。

　更にＧ４圧縮とするのは、結局バックアップとしてのファイルですから容量がコンパクトな方が良いと考えているからです。

ＯＣＲのためのTIFFでの保存

回答（2件）

a-kuma3497321542011/07/06 12:25:09

Baku777028321812011/07/06 23:56:20

コメント（3件)

この質問への反応（ブックマークコメント）