正規表現について質問です。

Question

さがらや

0

0もっと見る

50pt

ウェブ制作

正規表現について質問です。

extractcontent.rb
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
というWebページの本文抽出モジュールに、次の正規表現が書かれています。（文字コードはUTF-8です）

これらの正規表現の意味や、どのような処理を行うかについて、詳しく教えてください。

# eliminate useless symbols
html.gsub!(/\342(?:\200[\230-\235]|\206[\220-\223]|\226[\240-\275]|\227[\206-\257]|\230[\205\206])/,'')

# Convert from wide character to ascii
st.gsub!(/\357\274([\201-\272])/){($1[0]-96).chr} # symbols, 0-9, A-Z
st.gsub!(/\357\275([\201-\232])/){($1[0]-32).chr} # a-z
st.gsub!(/\342[\224\225][\200-\277]/, '') # keisen
st.gsub!(/\343\200\200/, ' ')

回答の条件

1人2回まで

登録：2011/03/22 16:37:56
終了：2011/03/29 16:40:03

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Answer 1

回答はまだありません

正規表現について質問です。

回答（0件）

コメント（0件)

この質問への反応（ブックマークコメント）