やりたい事は、
「ScanSnap S1500で紙の書籍をスーパーファインモード(600dpi)でPDF化しOCRをかけたPDFをiPadで読みたいのだが、データサイズが大きい&解像度が大きいのでiPadで快適に閲覧できない。なので、データサイズを落とし解像度を減らしたい。今のところAcrobat9 StandardでClear Scanで落とす方法でやっているが、GUIとかめんどいので、プログラムからやりたい」
です。
要件になおすと、
* 画像をOCR化して透明テキストが埋め込まれているPDFの全ページの解像度を減らす(その際OCRしたテキストも保持したい)
* 無料且つオープンソース(もし無理なら有料でも)
です。
無理なら、
* PDFの全ページを複数枚の画像に変換する
* 複数枚の画像を単一のPDFに変換する
でもいいです。
↓は見ました。C/C++の優れたライブラリがあってもよさそうな気がしているのですが。。。
# Apache PDFBox
# iText
優れているかどうか分かりませんがMicrosoft Officeをお持ちでしたら
OCRが付いているようなので、このような方法もあるようです。
http://tmp.junkbox.info/e48.html
ただ日本語が読めるかまでは不明です。
日本語を認識できるオープンソースのOCRライブラリのNHocrを使ったOCRサーバです。
日本語文字認識 - beta