人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

正規表現について質問です。

extractcontent.rb
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
というWebページの本文抽出モジュールに、次の正規表現が書かれています。(文字コードはUTF-8です)

これらの正規表現の意味や、どのような処理を行うかについて、詳しく教えてください。

# eliminate useless symbols
html.gsub!(/\342(?:\200[\230-\235]|\206[\220-\223]|\226[\240-\275]|\227[\206-\257]|\230[\205\206])/,'')

# Convert from wide character to ascii
st.gsub!(/\357\274([\201-\272])/){($1[0]-96).chr} # symbols, 0-9, A-Z
st.gsub!(/\357\275([\201-\232])/){($1[0]-32).chr} # a-z
st.gsub!(/\342[\224\225][\200-\277]/, '') # keisen
st.gsub!(/\343\200\200/, ' ')

●質問者: さがらや
●カテゴリ:ウェブ制作
✍キーワード:ASCII HTML ST UTF-8 Web
○ 状態 :キャンセル
└ 回答数 : 0/0件

回答がありません
関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ