正規表現について質問です。


extractcontent.rb
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
というWebページの本文抽出モジュールに、次の正規表現が書かれています。(文字コードはUTF-8です)

これらの正規表現の意味や、どのような処理を行うかについて、詳しく教えてください。

# eliminate useless symbols
html.gsub!(/\342(?:\200[\230-\235]|\206[\220-\223]|\226[\240-\275]|\227[\206-\257]|\230[\205\206])/,'')

# Convert from wide character to ascii
st.gsub!(/\357\274([\201-\272])/){($1[0]-96).chr} # symbols, 0-9, A-Z
st.gsub!(/\357\275([\201-\232])/){($1[0]-32).chr} # a-z
st.gsub!(/\342[\224\225][\200-\277]/, '') # keisen
st.gsub!(/\343\200\200/, ' ')

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2011/03/29 16:40:03
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答0件)

回答はまだありません

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません