PDFデータをテキストに読み込むOCRソフトでフリーかシェアウェアのものを探しています。

スキャナの機種はFUJITSUのSCANSNAP S300です。
よろしくお願いいたします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2007/11/17 19:00:50
  • 終了:2007/11/18 04:13:17

ベストアンサー

id:YUUH32 No.3

YUUH32回答回数93ベストアンサー獲得回数52007/11/18 01:25:55

ポイント29pt

1さん、SmartOCRは現在会社が存在してません。製造中止&配布中止です(あるところにはあるけども)。

で、私も質問の意味が分かりませんけども、2つの方向から回答してみます。

(1)PDFからテキストデータを抽出する

XDOC2TXTというツールでできます。

http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html

PDFの中のテキストが画像データ、つまり文字に見えるけれども実は画像であるという場合”以外”に使えます。

(2)実は画像であるテキストをOCRのようにテキスト化する

たぶん、こっちなんでしょうけども、

こことか

http://metac.cocolog-nifty.com/script/2005/12/pdf_21c7.html

こことか(2chですけども)

http://pc11.2ch.net/test/read.cgi/software/1141635878/571-617

こことか

http://www.sourcenext.com/products/pdf_todata/

いろいろあります。シェアウェアでよいというならつまり有料で良いと言う事だと解釈しまして、ソースネクストの「いきなりPDF to Data」が3970円とお安いです。

・・・というか、実はこっちを最初に言いたかったんですけども、回答にならないから最後に回したんですが・・・

SCANSNAPには自動PDF化+OCR機能+PDFに透明テキストの貼付け機能がもともと付いています。

http://scansnap.fujitsu.com/jp/product/s510/function/soft-1.html

僕も便利に使ってます。これでスキャンした文書はある程度検索可能にできるのですごく便利です。

ということで、SCANSNAPなら他にOCRソフトは不要だと思います。

テキスト抽出したいならXDOC2TXTが便利です。これも使った事あります。速くていいです。

その他の回答(2件)

id:j1960 No.1

j1960回答回数322ベストアンサー獲得回数212007/11/17 19:07:10

ポイント27pt

質問の意味が不明確なのですが、一応フリーのOCRソフトを挙げておきます。

スキャナーで読み取った画像ファイルからテキストを抽出してくれます。


独自エンジンを搭載したフリーの日本語OCRソフト「SmartOCR Lite Edition」

http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite....

id:ZONMAX No.2

ZONMAX回答回数13ベストアンサー獲得回数42007/11/17 22:05:24

ポイント24pt

これはいかがでしょうか?

1日に5ファイルまでOCR処理可能となっております。

「クセロReaderZERO」

http://xelo.jp/xelopdf/readerzero/index.html

id:YUUH32 No.3

YUUH32回答回数93ベストアンサー獲得回数52007/11/18 01:25:55ここでベストアンサー

ポイント29pt

1さん、SmartOCRは現在会社が存在してません。製造中止&配布中止です(あるところにはあるけども)。

で、私も質問の意味が分かりませんけども、2つの方向から回答してみます。

(1)PDFからテキストデータを抽出する

XDOC2TXTというツールでできます。

http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html

PDFの中のテキストが画像データ、つまり文字に見えるけれども実は画像であるという場合”以外”に使えます。

(2)実は画像であるテキストをOCRのようにテキスト化する

たぶん、こっちなんでしょうけども、

こことか

http://metac.cocolog-nifty.com/script/2005/12/pdf_21c7.html

こことか(2chですけども)

http://pc11.2ch.net/test/read.cgi/software/1141635878/571-617

こことか

http://www.sourcenext.com/products/pdf_todata/

いろいろあります。シェアウェアでよいというならつまり有料で良いと言う事だと解釈しまして、ソースネクストの「いきなりPDF to Data」が3970円とお安いです。

・・・というか、実はこっちを最初に言いたかったんですけども、回答にならないから最後に回したんですが・・・

SCANSNAPには自動PDF化+OCR機能+PDFに透明テキストの貼付け機能がもともと付いています。

http://scansnap.fujitsu.com/jp/product/s510/function/soft-1.html

僕も便利に使ってます。これでスキャンした文書はある程度検索可能にできるのですごく便利です。

ということで、SCANSNAPなら他にOCRソフトは不要だと思います。

テキスト抽出したいならXDOC2TXTが便利です。これも使った事あります。速くていいです。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません