プログラムからPDFを操作する為の優れたライブラリを教えてください。


やりたい事は、
「ScanSnap S1500で紙の書籍をスーパーファインモード(600dpi)でPDF化しOCRをかけたPDFをiPadで読みたいのだが、データサイズが大きい&解像度が大きいのでiPadで快適に閲覧できない。なので、データサイズを落とし解像度を減らしたい。今のところAcrobat9 StandardでClear Scanで落とす方法でやっているが、GUIとかめんどいので、プログラムからやりたい」
です。

要件になおすと、
* 画像をOCR化して透明テキストが埋め込まれているPDFの全ページの解像度を減らす(その際OCRしたテキストも保持したい)
* 無料且つオープンソース(もし無理なら有料でも)
です。

無理なら、
* PDFの全ページを複数枚の画像に変換する
* 複数枚の画像を単一のPDFに変換する
でもいいです。

↓は見ました。C/C++の優れたライブラリがあってもよさそうな気がしているのですが。。。
# Apache PDFBox
# iText

回答の条件
  • URL必須
  • 1人2回まで
  • 13歳以上
  • 登録:2010/07/31 17:23:16
  • 終了:2010/08/07 17:25:03

回答(1件)

id:heke2mee No.1

heke2mee回答回数162ベストアンサー獲得回数432010/08/01 14:49:05

ポイント60pt

優れているかどうか分かりませんがMicrosoft Officeをお持ちでしたら

OCRが付いているようなので、このような方法もあるようです。

http://tmp.junkbox.info/e48.html

ただ日本語が読めるかまでは不明です。



日本語を認識できるオープンソースのOCRライブラリのNHocrを使ったOCRサーバです。

日本語文字認識 - beta

http://appsv.ocrgrid.org/nhocr/index-j.html

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません