会社で難題を押し付けられました。大量のPDFファイルの中からemailだけを抜き出したいのですが、そんなことってできるんですかね?要するに正規表現とかで検索できるgrepのpdf版みたいのがあれば教えて欲しいのですが。。。なかったら手作業でやるしかないです。何時間かかるか分かりません。あの上司殺したる。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2003/09/10 00:26:32
  • 終了:--

回答(9件)

id:Hidenori No.1

Hidenori回答回数120ベストアンサー獲得回数02003/09/10 00:36:51

ポイント14pt

http://homepage2.nifty.com/AnoSoft/dwnload.htm

MS-WordやExcelやPowerPointを全文テキスト検索するソフトなどのダウンロード

使った事はないのですが,こういうのは使えませんかね.

(上司は何にも分かってないタコなので,本気で怒っても自分が辛いだけっす.畑のキャベツやかぼちゃに怒ってもしょうがないです(^^;)

id:uchujinhakiteru

ぉおお。こんなのあったのかぁ

2003/09/10 10:29:24
id:aki73ix No.2

aki73ix回答回数5224ベストアンサー獲得回数272003/09/10 00:39:53

ポイント14pt

PDFからTextに変換するのはいかがですか?

そこからGREPしてみるといいかもしれませんよ

Acrobatにも書き出す機能があったとは思いますが

id:uchujinhakiteru

これもいいです。使えそうです。

2003/09/10 10:31:09
id:AMark No.3

AMark回答回数115ベストアンサー獲得回数02003/09/10 00:40:19

ポイント14pt

KWIC Finderというシェアウェアで前文検索できるようなので「@」や「.jp」「.com」を検索してみてはいかがでしょうか。

id:uchujinhakiteru

これもよさげです。俺は何も知らなかったんだなぁ

2003/09/10 10:32:41
id:opponent No.4

opponent回答回数1876ベストアンサー獲得回数72003/09/10 00:45:44

ポイント13pt

http://www.forest.impress.co.jp/article/2003/07/28/kwicfinder.ht...

窓の杜 - 【Review NEWS】TXT/PDFファイル、Office文書、電子メールなどを全文検索「KWIC Finder」

http://arena.nikkeibp.co.jp/qa/other/20020603/100595/

PDFを利用して文書管理するには - デジタル - 日経トレンディネット

http://www.zdnet.co.jp/news/products/9908/19ask.html

競争力向上にITを活用するすべての企業へ - ZDNet Japan

id:uchujinhakiteru

結構あるものなんすね。。

2003/09/10 10:35:49
id:AMark No.5

AMark回答回数115ベストアンサー獲得回数02003/09/10 00:46:06

ポイント13pt

http://www.namazu.org/

Namazu: a Full-Text Search Engine

追加です。

検索エンジンNamazuです。

社内にWebサーバーを立てそれを使ってNamazuで全文検索をするというのも1つでしょうか。

id:connect24h No.6

connect24h回答回数22ベストアンサー獲得回数02003/09/10 01:00:13

ポイント13pt

Acrobatで読んで、テキストを選択、コピーして、テキスト化して、それから、このサイトで

メールアドレスを抽出してはどうでしょう?

id:uchujinhakiteru

うほっ

2003/09/10 10:37:05
id:kokutenho No.7

kokutenho回答回数23ベストアンサー獲得回数02003/09/10 01:11:17

ポイント13pt

URLはダミーです。

単にアクロバットリーダーですべて選択して、テキストファイルに貼り付けて、grepを実行では駄目ですか?

id:uchujinhakiteru

pdfファイルがいっぱいあるんです。

2003/09/10 10:37:27
id:khayashi No.8

khayashi回答回数12ベストアンサー獲得回数02003/09/10 02:15:42

ポイント13pt

おっしゃるようにpdfをtxtにしてgrep書けるというのでいかがでしょうか?

pdf2txt version 0.95

日本語PDFファイルから日本語テキストを抽出するPerlスクリプト

PDFファイルからテキストを取り出すPerlスクリプト。

http://www.hatena.ne.jp/1061383401

PDF文書をテキストファイルに変換したいのですが、どうしても文字化けが発生してしまいます。今までに試した方法は1:Acrobat Readerのテキスト選択ツールからコピペ 2:PDF.. - 人力検索はてな

過去にも同様の質問があります。

PDFからテキストを抽出する方法

http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text....

PDFからテキストを抽出する方法 (Hajilyn's Papa)

id:uchujinhakiteru

ありがとうございます。

2003/09/10 10:38:04
id:mahbo No.9

mahbo回答回数87ベストアンサー獲得回数02003/09/10 03:15:44

ポイント13pt

直接の回答になっていませんが、PDFからテキストを抽出してから、grepで検索すれば良いかも知れません。

namazuという全文検索ソフトでは、その目的のために、Xpdfに付属のpdftotextを使って、テキストの抽出を行う事が紹介されていました。

http://www.verypdf.com/pdf2txt/pdf2txt.htm

PDF to Text - convert Adobe PDF documents into ASCII text format with PDF to Text converter, royalty free SDK product

名前からするとPDFからテキストを抽出するソフトの様です。

こちらも同様。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません