PDFファイル上のテキストの最良の読み取り方法について教えてください。


今、とあるPDFファイルがあるのですが、セキュリティがかけられているため、テキストをコピーすることはできません。
このPDFファイル上のテキストを、なんとかテキスト化したいとき、優良な手段としてどのような方法があるでしょうか?

・気合で、PDFファイル上の文字を見ながら、メモ帳に自力で打ち込む
・一旦PDFファイルを印刷し、スキャナで読み取り、OCRでテキスト化を目指す
・PDFファイルをgif等の画像に変換してしまい、そのままOCRでテキスト化を目指す

と、素人の私は思いつくままに考えてみたのですが、どれも手間や正確性の面からいまいちです。

「簡単にテキストがコピーできたらセキュリティの意味がない」
とか
「OCRくらいしかないんじゃない?」
という意見はご遠慮ください。

何か斬新な手段がございましたらご教授願います。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答10件)

id:Yetinmeyi No.1

回答回数93ベストアンサー獲得回数0

http://hack.dot.thebbs.jp/1068641350.html

PDFファイルのセキュリティ解除について

こんなのありました。

私もよくは知りませんが。参考までに。

id:perishable

ごめんなさい、英語がわからないので使いこなせませんでした。

2005/03/12 22:41:51
id:carmania No.2

回答回数64ベストアンサー獲得回数0

ポイント5pt

AdobeReader(旧AcrobatReader)では無理ですが、PDFを作るソフトでセキュリティは解けます。

Acrobatではパスワードを求められるので、そのパスワードを知っているなら解除できます。

そうじゃなければ、Adobe純正Acrobat以外のPDF作成ソフトを使えば、セキュリティの仕組みが違うので、モノによっては無視して解除できてしまうことがあります。

こちらは体験版ダウンロードあります。

id:perishable

ありがとう。

ジャストシステムのは無料なので使ってみたいのですが、DLしたけど使い方わからず・・・。

2005/03/12 22:53:14
id:Yetinmeyi No.3

回答回数93ベストアンサー獲得回数0

http://win98.pasokoma.jp/1_lg18237.html

PDFファイルにセキュリティがかかっており文書変更が出来ないです

こんなのもありました。

いい加減な回答ですみません。

id:izayoimizuki No.4

回答回数302ベストアンサー獲得回数0

ロックをの機能を持つAdobe Acrobatで

ロックをかけたパスワードを使って

ロックを解除することは出来ないですか?

これが出来ないとしたら

PDFファイルをgif等の画像に変換してしまい、そのままOCRでテキスト化を目指す

というのが最も正確な手段だと思います。

id:psx No.5

回答回数22ベストアンサー獲得回数0

機能の一つにセキュリティの解除と書いてあります。

http://kernelcomputer.co.jp/pdfmgpdf.htm

PDFファイルの編集ソフト(ページの追加・削除、しおり生成、セキュリティ設定、ページ番号や文字列合成、一括変換)【PDFMGPDF】

上と同じくサードパーティ製のPDFソフトです。

id:perishable

すいません、皆さんセキュリティを解除する方法に着眼しているようなのですが、パスワードがわからないので解除できないものと思ってアドバイスをお願いします。

2005/03/12 22:58:56
id:morningrain No.6

回答回数824ベストアンサー獲得回数2

http://japan.internet.com/webtech/20050308/12.html

Google、デスクトップ検索ツールの正式版を公開 - japan.internet.com Webテクノロジー

自分では試してない方法なので、できるかどうか確信が持てないのですが、上記URLで紹介されているGoogleのデスクトップ検索を使って、PDFファイルを検索→キャッシュ化→テキスト化という方法は採れないでしょうか?

id:more_1999 No.7

回答回数581ベストアンサー獲得回数1

http://www.adobe.co.jp/

Adobe Systems Incorporated(アドビ システムズ社)

一端、Wordに戻して(Acrobat7.0なら可能)からテキスト化するのは斬新なアイデアではないですか?セキュリティがかけられてるとダメかな?

URLはダミー。斬新なアイデアとしては、読み上げソフトで読み上げて、録音して、テキスト化するとか。

id:typista No.8

回答回数359ベストアンサー獲得回数7

ポイント110pt

以下、引用です。

(このツールならセキュリティだのパスワードだの関係ないようですよ)

---

さらにこのソフトの強力な機能はこれだけではなく,パスワードなしで暗号化されたPDFファイルからテキスト抽出を行うことができる. 具体的に云うと,パスワードなしで開くことが可能で,コピーや印刷を制限されたPDFファイルからテキストだけ抽出することができるわけだ. これは非常にありがたい. ちょっと著作権的に問題も出てきそうなので,この辺はしっかりと守っていただくとして,使い方は

■コマンドプロンプトの場合:

オプションで -n を指定.

xdoc2txt -n sample.pdf > sample.txt

■ショートカットを使う場合:

プロパティから[リンク先(T)]の末尾に, -n を追加

# 結果として,-f -nとなります.

またこの機能を使うためには別配布のcryptlib.dllが必要になる(同サイトで配布).

これでコピーできないPDFからでも,コピペして間違いなく引用することができる. 著作権に気を付けてガンガン使ってくださいませ.

id:isogava No.9

回答回数50ベストアンサー獲得回数1

ポイント5pt

http://www9.plala.or.jp/trueroad/pdf-make/

$B%U%j!<%=%U%H$G(B PDF $B$r:n@.$9$kJ}K!(B

まず、純正Acrobatなら、一定のセキュリティがかかっていても、一部文字の抽出(マウスでドラッグして)が可能かもしれませんから、ページごと、部分ごとにコピーできる可能性はあります。

印刷可能なファイルの場合、PDF作成できるフリーソフトでPDF出力した場合、偶然、セキュリティが外れる可能性はゼロではないでしょう。(しかし、これはおそらく合法ではないのでお奨めしません)

OCRソフトを使う場合は、PDFファイルを表示させた状態でプリントスクリーンでクリップボードに保存し、クリップボードから直接OCR読み込みできれば、割合簡単です。

個人的には、OCRの精度に不満があるので、画面を上下に分割して(上:PDFファイルを表示/下:エディタで行の文字幅をあわせて)直接入力する方法でやっています。経験上、それが一番早くて正確なので。

2台のPCを使って、音声入力を使う方法もありますが、OCR/音声入力とも、予期せぬ誤変換が発生するので、それを文字校正するよりは、ベタ打ちの方が正確なような気がします。

質問者が未読の回答一覧

 回答者回答受取ベストアンサー回答時間
1 masahikokimoto 241 221 10 2005-03-15 18:27:02

コメントはまだありません

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません