extractcontent.rb
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
というWebページの本文抽出モジュールに、次の正規表現が書かれています。(文字コードはUTF-8です)
これらの正規表現の意味や、どのような処理を行うかについて、詳しく教えてください。
# eliminate useless symbols
html.gsub!(/\342(?:\200[\230-\235]|\206[\220-\223]|\226[\240-\275]|\227[\206-\257]|\230[\205\206])/,'')
# Convert from wide character to ascii
st.gsub!(/\357\274([\201-\272])/){($1[0]-96).chr} # symbols, 0-9, A-Z
st.gsub!(/\357\275([\201-\232])/){($1[0]-32).chr} # a-z
st.gsub!(/\342[\224\225][\200-\277]/, '') # keisen
st.gsub!(/\343\200\200/, ' ')
コメント(0件)