もちろん pdftotext などのツールを使えばできるよ、ってことはわかっています。
そういうのじゃなくて、PDFの文章構造を把握したり、文章のつながりをみて、文章をつなぎあわせて本文全体を再構築してくれるような、便利なソフトやサービスを探しています。具体的には英語の論文のPDFから本文だけ抽出したいです。
Windows向けの市販ソフト、Mac向け市販ソフト、Webアプリケーション、iPhoneアプリ、Androidアプリ、linux用コマンドラインツール、有料・日本語にローカライズされていないもの・精度が低いもの、何でも構いません。
今まで何回かググって探しましたが、調べ方が悪いようで見つかりません。
よろしくおねがいします。
Acrobat があるでしょ。純正じゃん。
コメント(9件)
画像から文字を検出する技術って意味ですよ
質問にあるような技術はOCRとは言いません
キーワードとしては text mining とか document analysis じゃないですかね
例えばこんなのです
https://en.wikipedia.org/wiki/List_of_text_mining_software
質問とは関係ないのでは?
今回のPDFからの文字抽出は目的ではなく手段として考えています。text mining や document analysis は、よいキーワードなんですが、学習コストが高くなることを懸念しています。ググって一番上に出てくるPythonスクリプトを作成する等の方法は、しんどい事が予想されるので、お金でツールを購入することでスマートに解決できるならそうしたいです。
とはいえ、情報はありがとうございます。GUI付きの使いやすい text mining ソフトウェアで、ボタン一発でPDFから本文抽出できるようなものがないか探してみようと思います。
ここの質問のコメント数をみても、PDFから本文を取り出したい人や、論文を翻訳サイトを利用してスクリーニングしたい人は、少なくならずいると思います。しかし、Google翻訳の精度が向上したのは最近であり、論文を機械翻訳で読むことは恥ずかしいということもあって、論文のGoogle翻訳を支援するサービスが少ないのかなと感じました。もちろんPDF形式の扱いづらさや、言語処理の面倒臭さ、欧米での需要の低さなどの要因もあると思います。匿名回答3号さん、5号さん、ありがとうございます。
質問とは関係ないのでは?