pdftotextで -enc UTF-8 を指定して作成したtxtファイルが、正規表現がマッチしないのですが、なぜでしょうか?


変換元のファイルは http://www.fusokk.co.jp/ir/2009/010.pdf です。

正規表現を含むRubyのコードは以下です。

$KCODE = 'UTF8'

f = File.read("010.txt")

/平成(.*)年(.*)月期第(.*)四半期決算短信/ =~ f

p $1 ⇒ nil
p $2 ⇒ nil
p $3 ⇒ nil

どなたか教えて頂けないでしょうか。よろしくお願いします。

回答の条件
  • 1人5回まで
  • 登録:2009/10/23 23:38:40
  • 終了:2009/10/30 23:40:02

回答(0件)

回答はまだありません

  • id:rouge_2008
    とりあえず単純なミスとして、月期の後ろの半角スペースが足りないようです。

    平成(.*)年(.*)月期 第(.*)四半期決算短信
  • id:rouge_2008
    次でマッチするようです。

    平成(.*)年(.*)月期(.*)第(.*)四半期決算短信

    ※スペースをそのまま記述した場合や\sではマッチしませんでした。(\sはスペースに空白文字にマッチするはずなんですが・・・)

  • id:tyn
    rouge_2008さん、コメントありがとうございます。ご指摘の通り、スペースを勘案すると正しくマッチするようになりました。

    コメントだとポイントを差し上げられないかもしれず、申し訳ないです。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません