Excelなどで作って印刷した紙があります。
もとのExcelを紛失してしまったので紙から復元できないかと考えています。
完全に復元できなくてもいいのですが、文字情報などだけでも復元したいと思っています。
このような紙を読み込んで文字情報だけでもいいのでデータにするOCRはあるのでしょうか。
キンコーズなどで使えるのであれば是非使いたいと思っています。
方法1.スキャナ・OCRソフトを買う
ある程度(数十枚以上)の枚数がある、高精度にデータ化したいなら
スキャナとOCRソフトを買うのが良いかと。
スキャナにOCRソフト(の簡易版)が付いているものもあります。
メリット・デメリット
○いいスキャナやソフトを買えば、精度が高くなる。
×費用が掛かる、スキャナを置く場所が必要
方法2.セブンイレブンでスキャンしてオンラインのOCRを使う
近くのセブンイレブンのマルチコピー機に、USBメモリを持って行き、
原稿をスキャンして(1枚30円程度)USBメモリに保存。
PCで画像ファイルをアップロードしてオンラインのOCRにかける。
googleドキュメント(エバーノート)などで画像ファイルにOCRをかけられます。
エバーノートのOCRは、検索できるようにするためのOCRなので、文字を
取り出すにはさらに手間が掛かります。
メリット・デメリット
○枚数が少なければ安い。
○物を買わないので、置く場所を作る必要がない。
×変換精度が低い。
×専用ソフトより修正などが面倒
×枚数が多いと面倒。
ちなみに、店舗にも寄るかと思いますが、キンコーズのセルフ用PCに
OCRソフトは無かったと思います。
セブンイレブンの代わりに、スキャンしてもらうことはできると思いますが、
OCRをかけてくれなかったはずです。
(単純に画像ファイル/画像のPDFファイルをくれるだけです。)
最近キンコーズに行かないので、店舗で確認してください。
参考になれば。
OCRソフトは、印刷や画像の文字をテキストデータへ変換するソフトなので、エクセルとか関係なく、文字を画像として読み込んだあとにそれをデータへ変換します。
ほとんどの場合、表や罫線は無視され文字のみをテキストデータにします。
ただ、業務用の非常に高価なものを除き、変換精度は大した事はありません。元が活字できれいに印刷されていて、やっとそれなりにデータになる程度です。
パーソナルでは読んでココなどもありますが、フリーもあるので試してみるとよろしいかと。
http://data-digital.sakura.ne.jp/RealReaderLiteTop.html
もちろんなのですが、印刷物であればそれを画像ファイルにしなければならず、スキャナが必要になります。
デジカメでもいいですが、うまく撮らないとフォントがぼやけたりして変換精度がかなり落ちます。
フリーの版で試してみたいと思います。
ありがとうございます!
OCRは可能ですが、シートの内容は何ですか?
OCR商品は97%以上の精読率を謳っていますが、文字の認識だけなら技術上70%程度です。
これはスキャナで読み取った原稿を拡大してみればすぐに理解できます。ノイズだらけで読めたものではありません。
ノイズを除去し、色々工夫をしながら精度を上げるといったことで90%以上の精度に上げていきます。
一例として住所録の場合ですと、住所と郵便番号の組み合わせで正しい郵便番号と住所の組み合わせにするといったことを行います。
市販のOCRソフトだと文法や単語のつながりなどから精度を上げています。
プリンタで印刷した文字だと特に印刷自体が粗いのでその傾向は顕著に現れます。
数字が多い表であれば、8×8で64マスに5桁の数字が収納されているとして320字です。97%だとしても9文字は誤読していることになります。数字の誤読が後々恐ろしい結果となる表であれば、入力し直した方が良いと私は考えます。
シートの中身はExcelのセルに数字が打ち込まれています。
カンマなどもなくて数字だけです。
数字だけなので読み取りやすいのかなと素人考えでは考えていたのですが。。。
ポイントありがとうございました。
若干補足しますと、読取革命は私が使った中でOCRの結果が最悪です。ただし、画像の手修正、拡大表示については優れており、誤読の一括修正機能をいち早く採り入れたという点は評価しなければならないでしょう。
私の場合、読み込んだ画像が酷い場合は一旦読取革命で画像の汚れを手修正してからといった使い方をしていました。
体験版なら読んde!!ココの方が良いと思われます。
http://www.epson.jp/download/dms/dl_yondekoko.htm
数字もかなり誤読がありますよ。
1,7,9
2,3,5
の組み合わせで発生しますし、ノイズを『,』や『.』、『0』と誤読しますからね。本当であれば2人で片方が表を読み、もう一人が入力とした方が余程速くて正確ですが。
方法1.スキャナ・OCRソフトを買う
ある程度(数十枚以上)の枚数がある、高精度にデータ化したいなら
スキャナとOCRソフトを買うのが良いかと。
スキャナにOCRソフト(の簡易版)が付いているものもあります。
メリット・デメリット
○いいスキャナやソフトを買えば、精度が高くなる。
×費用が掛かる、スキャナを置く場所が必要
方法2.セブンイレブンでスキャンしてオンラインのOCRを使う
近くのセブンイレブンのマルチコピー機に、USBメモリを持って行き、
原稿をスキャンして(1枚30円程度)USBメモリに保存。
PCで画像ファイルをアップロードしてオンラインのOCRにかける。
googleドキュメント(エバーノート)などで画像ファイルにOCRをかけられます。
エバーノートのOCRは、検索できるようにするためのOCRなので、文字を
取り出すにはさらに手間が掛かります。
メリット・デメリット
○枚数が少なければ安い。
○物を買わないので、置く場所を作る必要がない。
×変換精度が低い。
×専用ソフトより修正などが面倒
×枚数が多いと面倒。
ちなみに、店舗にも寄るかと思いますが、キンコーズのセルフ用PCに
OCRソフトは無かったと思います。
セブンイレブンの代わりに、スキャンしてもらうことはできると思いますが、
OCRをかけてくれなかったはずです。
(単純に画像ファイル/画像のPDFファイルをくれるだけです。)
最近キンコーズに行かないので、店舗で確認してください。
参考になれば。
オンラインのOCRというものがあるのですね。
これは是非試してみたいと思います。
ありがとうございます!
ベター・ハーフ ~ 最良でなくても、不可欠な伴侶として ~
無くてはならぬが、決して信用できないソフトが、OCRです。
とくに「エクセル」の英数字・漢字かなカナの識別機能は絶望的です。
わたしは、かならず「OCRのママ」と付記して、保存しています。
しかし、それでも「ないよりまし」「なければならぬ」のが現実です。
原資料と「OCRのママ」を一括保存し、必要部分だけ訂正します。
まずは、目をつぶって「無料ソフト」を導入し、使い慣れましょう。
現時点で、実用的・多目的なのは ScanSnap 1500(レンタル可)です。
PDF(画像)から、OCR(変換)する手順は同じですが、A4判
以下、両面の「色彩・濃度・垂直」を自動的に峻別します。
数年前の過去質問(20080824)で、当時の懊悩を訴えています。
── A社は「ナシのツブテ」。B社は「折返し担当者から返信します」
とメールが来ただけ。C社は「見積フォーム」に丁重な2通の返信ある
も、予想外の高値で、看板(ネットCM)に偽りあり。
http://q.hatena.ne.jp/1219561134#c129465
業界不信 ~ 外注3社について ~
情報ありがとうございます。
ScanSnap 1500について調べてみます。
読取革命Ver.14 製品版
どこまで希望してるのか不明ですが、原稿を読み込んでEXCEL化は可能です。
OCR(スキャナ)の機器だけでなくて、ソフトウェアも必要です。
パナソニックの日本語・英語活字カラーOCRソフト「読取革命Ver.14」とかはどうでしょうか?
メーカーサイトに体験版があるので、試すことは可能です。
体験版試してみたいと思います。
ありがとうございます。
オンラインのOCRというものがあるのですね。
2012/02/29 18:02:35これは是非試してみたいと思います。
ありがとうございます!