EUCのhtmlファイルが1万個ほどあります。

1ファイルあたりの容量は1-3kb程度です。

この中のいくつかのファイルに、一部が文字化けしたファイルが混じっています。
Sjisからの変換時に文字化けしたらしいです。ファイル内すべての文字化けではなく、一部(2-3行)が化けている状態です。

これらの文字化け箇所を迅速に検索・編集する方法はないでしょうか。
1万ファイルをすべて手作業でチェックするのは死ぬほど大変なので、何とか効率的な方法を探しています。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:2006/06/27 02:23:50
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:moonwolf No.1

回答回数30ベストアンサー獲得回数2

ポイント60pt

http://www.ruby-lang.org/ja/

Ruby言語のスクリプトで簡単にチェックできます。

ARGV.each {|path|

open(path,'rb') {|f|

text = f.read || ''

unless text=~/\A([\t\r\n\x20-\x7e]|[\xa1-\xfe][xa1-\xfe])*\z/n

puts path

end

}

}

使い方: ruby check.rb *.html

文字化けしたファイル名が表示されます。

id:nishik

ありがとうございます。

当方ただのHTML書きのため、開発言語となると

さっぱりです。

が、せっかくのご好意、何とか勉強してみます。

#でも他に方法があれば是非に回答募集いたします。。。

2006/06/20 14:42:57

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません