匿名質問者
匿名質問者匿名質問者とは「匿名質問」を利用して質問した質問者。
「匿名質問」では、ユーザー名を公開せずに匿名の質問ができます。
詳しくはこちら

PDFの「本文」をテキストに変換するサービスを探しています。


もちろん pdftotext などのツールを使えばできるよ、ってことはわかっています。

そういうのじゃなくて、PDFの文章構造を把握したり、文章のつながりをみて、文章をつなぎあわせて本文全体を再構築してくれるような、便利なソフトやサービスを探しています。具体的には英語の論文のPDFから本文だけ抽出したいです。

Windows向けの市販ソフト、Mac向け市販ソフト、Webアプリケーション、iPhoneアプリ、Androidアプリ、linux用コマンドラインツール、有料・日本語にローカライズされていないもの・精度が低いもの、何でも構いません。

今まで何回かググって探しましたが、調べ方が悪いようで見つかりません。
よろしくおねがいします。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2018/09/16 19:40:41
  • 終了:2018/09/23 19:45:06
匿名質問者

質問者から

匿名質問者2018/09/17 05:50:30

自己レスですがOCRソフトがよさそうですね

回答(2件)

匿名回答4号 No.1

匿名回答4号「匿名質問」を利用した質問に回答すると「匿名回答○号」と匿名で表示されます。
「匿名質問」では、ユーザー名を公開せずに匿名の質問ができます。
詳しくはこちら
2018/09/18 11:14:21

Acrobat があるでしょ。純正じゃん。

匿名回答7号 No.2

匿名回答7号「匿名質問」を利用した質問に回答すると「匿名回答○号」と匿名で表示されます。
「匿名質問」では、ユーザー名を公開せずに匿名の質問ができます。
詳しくはこちら
2018/09/19 12:49:32

  • 匿名回答2号
    匿名回答2号 2018/09/17 19:05:00
    OCRってのは、Optical character recognitionの略で
    画像から文字を検出する技術って意味ですよ

    質問にあるような技術はOCRとは言いません

    キーワードとしては text mining とか document analysis じゃないですかね
    例えばこんなのです
    https://en.wikipedia.org/wiki/List_of_text_mining_software
  • 匿名回答2号
    匿名回答2号 2018/09/17 19:18:07
    それは貴方の個人的思い出であって
    質問とは関係ないのでは?
  • 匿名質問者
    匿名質問者 2018/09/17 19:58:08
     みなさまありがとうございます。匿名回答1号さん、2号さん、おっしゃる通りOCRソフトは、画像から文字を認識するものです。しかし、プロプライエタリの性能のよいOCRソフトはレイアウト認識機能を備えています。文字が埋め込まれているPDFを読み込ませてても、きちんと文章をつなぎ合わせてテキスト出力してくれました。
     今回のPDFからの文字抽出は目的ではなく手段として考えています。text mining や document analysis は、よいキーワードなんですが、学習コストが高くなることを懸念しています。ググって一番上に出てくるPythonスクリプトを作成する等の方法は、しんどい事が予想されるので、お金でツールを購入することでスマートに解決できるならそうしたいです。
     とはいえ、情報はありがとうございます。GUI付きの使いやすい text mining ソフトウェアで、ボタン一発でPDFから本文抽出できるようなものがないか探してみようと思います。
  • 匿名回答3号
    匿名回答3号 2018/09/17 20:06:38
    めっちゃ簡単なやり方としては、スクショを撮ってグーグル翻訳にかけると、もとの文と翻訳した文どちらもテキストになります。
  • 匿名回答5号
    匿名回答5号 2018/09/18 16:52:05
    これこそ機械学習の出番だよなあ
  • 匿名質問者
    匿名質問者 2018/09/19 07:15:24
     みなさまありがとうございます。匿名回答1号さんが想像しているように、Googleなどの機械翻訳を使用したいです。論文の Full text は PDF だけでなく、ウェブページの形で公開されている場合もあります。しかし、これらのウェブページは、サイトごとに形式が異なり、手動のコピペが必要になります。また論文がオープンアクセスでなければ、ウェブページを直接Google翻訳にかけるという方法がつかえません。結局、PDF から本文を取る方法がもっとも汎用性があると考えました。
     ここの質問のコメント数をみても、PDFから本文を取り出したい人や、論文を翻訳サイトを利用してスクリーニングしたい人は、少なくならずいると思います。しかし、Google翻訳の精度が向上したのは最近であり、論文を機械翻訳で読むことは恥ずかしいということもあって、論文のGoogle翻訳を支援するサービスが少ないのかなと感じました。もちろんPDF形式の扱いづらさや、言語処理の面倒臭さ、欧米での需要の低さなどの要因もあると思います。匿名回答3号さん、5号さん、ありがとうございます。
  • 匿名回答6号
    匿名回答6号 2018/09/19 12:10:41
    目次や柱やノンブルや図版のキャプションやらを無視して、本文だけ全ページから抜き出して自動で繋ぎ合わせるソフトが欲しい、って事でいいのかな? あるわきゃない(笑)。AIが必要になる領域だわ。
  • 匿名回答8号
    匿名回答8号 2018/09/19 19:07:52
    それは貴方の個人的思い込みであって
    質問とは関係ないのでは?
  • 匿名回答1号
    匿名回答1号 2018/09/19 20:24:07
    挑戦したことない人に何を疑われても痛痒感じませんが、コメントでさえこういうガキっぽいご意見がのさばるって気持ち悪いし、呼ばれるの面倒なんで全部けしますね。さよなら

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません