今、とあるPDFファイルがあるのですが、セキュリティがかけられているため、テキストをコピーすることはできません。
このPDFファイル上のテキストを、なんとかテキスト化したいとき、優良な手段としてどのような方法があるでしょうか?
・気合で、PDFファイル上の文字を見ながら、メモ帳に自力で打ち込む
・一旦PDFファイルを印刷し、スキャナで読み取り、OCRでテキスト化を目指す
・PDFファイルをgif等の画像に変換してしまい、そのままOCRでテキスト化を目指す
と、素人の私は思いつくままに考えてみたのですが、どれも手間や正確性の面からいまいちです。
「簡単にテキストがコピーできたらセキュリティの意味がない」
とか
「OCRくらいしかないんじゃない?」
という意見はご遠慮ください。
何か斬新な手段がございましたらご教授願います。
http://hack.dot.thebbs.jp/1068641350.html
PDFファイルのセキュリティ解除について
こんなのありました。
私もよくは知りませんが。参考までに。
AdobeReader(旧AcrobatReader)では無理ですが、PDFを作るソフトでセキュリティは解けます。
Acrobatではパスワードを求められるので、そのパスワードを知っているなら解除できます。
そうじゃなければ、Adobe純正Acrobat以外のPDF作成ソフトを使えば、セキュリティの仕組みが違うので、モノによっては無視して解除できてしまうことがあります。
http://www.justsystem.co.jp/software/dt/pdf/?w=t2005_top
製品情報/Justsystem PDF Creator
こちらは体験版ダウンロードあります。
ありがとう。
ジャストシステムのは無料なので使ってみたいのですが、DLしたけど使い方わからず・・・。
http://win98.pasokoma.jp/1_lg18237.html
PDFファイルにセキュリティがかかっており文書変更が出来ないです
こんなのもありました。
いい加減な回答ですみません。
http://www.adobe.co.jp/products/acrobat/main.html
Adobe Acrobat Family
ロックをの機能を持つAdobe Acrobatで
ロックをかけたパスワードを使って
ロックを解除することは出来ないですか?
これが出来ないとしたら
PDFファイルをgif等の画像に変換してしまい、そのままOCRでテキスト化を目指す
というのが最も正確な手段だと思います。
機能の一つにセキュリティの解除と書いてあります。
http://kernelcomputer.co.jp/pdfmgpdf.htm
PDFファイルの編集ソフト(ページの追加・削除、しおり生成、セキュリティ設定、ページ番号や文字列合成、一括変換)【PDFMGPDF】
上と同じくサードパーティ製のPDFソフトです。
すいません、皆さんセキュリティを解除する方法に着眼しているようなのですが、パスワードがわからないので解除できないものと思ってアドバイスをお願いします。
http://japan.internet.com/webtech/20050308/12.html
Google、デスクトップ検索ツールの正式版を公開 - japan.internet.com Webテクノロジー
自分では試してない方法なので、できるかどうか確信が持てないのですが、上記URLで紹介されているGoogleのデスクトップ検索を使って、PDFファイルを検索→キャッシュ化→テキスト化という方法は採れないでしょうか?
Adobe Systems Incorporated(アドビ システムズ社)
一端、Wordに戻して(Acrobat7.0なら可能)からテキスト化するのは斬新なアイデアではないですか?セキュリティがかけられてるとダメかな?
Yahoo! JAPAN
URLはダミー。斬新なアイデアとしては、読み上げソフトで読み上げて、録音して、テキスト化するとか。
以下、引用です。
(このツールならセキュリティだのパスワードだの関係ないようですよ)
---
さらにこのソフトの強力な機能はこれだけではなく,パスワードなしで暗号化されたPDFファイルからテキスト抽出を行うことができる. 具体的に云うと,パスワードなしで開くことが可能で,コピーや印刷を制限されたPDFファイルからテキストだけ抽出することができるわけだ. これは非常にありがたい. ちょっと著作権的に問題も出てきそうなので,この辺はしっかりと守っていただくとして,使い方は
■コマンドプロンプトの場合:
オプションで -n を指定.
xdoc2txt -n sample.pdf > sample.txt
■ショートカットを使う場合:
プロパティから[リンク先(T)]の末尾に, -n を追加
# 結果として,-f -nとなります.
またこの機能を使うためには別配布のcryptlib.dllが必要になる(同サイトで配布).
これでコピーできないPDFからでも,コピペして間違いなく引用することができる. 著作権に気を付けてガンガン使ってくださいませ.
http://www9.plala.or.jp/trueroad/pdf-make/
$B%U%j!<%=%U%H$G(B PDF $B$r:n@.$9$kJ}K!(B
まず、純正Acrobatなら、一定のセキュリティがかかっていても、一部文字の抽出(マウスでドラッグして)が可能かもしれませんから、ページごと、部分ごとにコピーできる可能性はあります。
印刷可能なファイルの場合、PDF作成できるフリーソフトでPDF出力した場合、偶然、セキュリティが外れる可能性はゼロではないでしょう。(しかし、これはおそらく合法ではないのでお奨めしません)
OCRソフトを使う場合は、PDFファイルを表示させた状態でプリントスクリーンでクリップボードに保存し、クリップボードから直接OCR読み込みできれば、割合簡単です。
個人的には、OCRの精度に不満があるので、画面を上下に分割して(上:PDFファイルを表示/下:エディタで行の文字幅をあわせて)直接入力する方法でやっています。経験上、それが一番早くて正確なので。
2台のPCを使って、音声入力を使う方法もありますが、OCR/音声入力とも、予期せぬ誤変換が発生するので、それを文字校正するよりは、ベタ打ちの方が正確なような気がします。
回答者 | 回答 | 受取 | ベストアンサー | 回答時間 | |
---|---|---|---|---|---|
1 | masahikokimoto | 241回 | 221回 | 10回 | 2005-03-15 18:27:02 |
ごめんなさい、英語がわからないので使いこなせませんでした。