Rubyでｽｸﾚｲﾋﾟﾝｸﾞやってみたので見てもらえますか？？先日Rubyのお勉強を始めまして､ｽｸﾚｲﾋﾟﾝｸﾞに挑戦しました｡やったらできました！うまく動いてとても高ぶっ…

Rubyでｽｸﾚｲﾋﾟﾝｸﾞやってみたので見てもらえますか？？

先日Rubyのお勉強を始めまして､ｽｸﾚｲﾋﾟﾝｸﾞに挑戦しました｡やったらできました！
うまく動いてとても高ぶってるのですが､ﾌﾟﾛｸﾞﾗﾐﾝｸﾞはほとんど初めてなので､いろいろとお作法から外れていそうです｡
そこで､変なところや､もっと一般化して書けるところがあればお教えいただけますか？

■やったこと：
CSV形式の曲のﾘｽﾄを用意して､初音ﾐｸWikiから該当する曲の歌詞をｽｸﾚｲﾋﾟﾝｸﾞする｡

■知りたいこと：
私の書いたｺｰﾄﾞの変なところ､一般化できるところを教えてほしい｡
気づいてる範囲ではたとえば､
･今回URLは｢?page=｣のあとにﾀｲﾄﾙつければ繋がることが偶然わかったのでそうしています｡そういう仕組みではないｻｲﾄでも平気な方法はありますか｡
･｢Nokogiri｣はわかんなくてあきらめてしまったけど､それを使ったほうがよかったのでしょうか｡
･最後にばらばらのﾃｷｽﾄﾌｧｲﾙに書き出してるけど､ふつうはﾃﾞｰﾀﾍﾞｰｽに入れますか？？
など？

基本なにもわからないので､いろいろ教えてください！よろしくお願いします｡

長くなるので､ｺｰﾄﾞは別に書きます！

CSVﾌｧｲﾙは
https://docs.google.com/spreadsheet/pub?key=0AidlTjRleM3mdHJBSjJPbmtIM0NsMG41Z1VsVVc1T2c
これをもとにして変換したものです｡
0列目には順位が､2列目には曲名を初音ﾐｸWikiの表記に合わせたものを正規表現で作って入れました｡
CSVﾌｧｲﾙは全部で200行ですが､初音ﾐｸWikiにない曲もあるので､処理できたのは170曲ほどでした｡

最終的にはRで読み込んで､MeCabで形態素解析して､ﾎﾞｶﾛ曲の特徴を考えたりしたいです｡まだお勉強中です｡
http://hacosato.hatenablog.com/
結果はこのﾌﾞﾛｸﾞに載せようと思っています｡

Rubyで私が書いたのは以下のようなｺｰﾄﾞです｡

require 'open-uri'
require 'csv'
require 'uri'

CSV.foreach("(csvﾌｧｲﾙのﾊﾟｽ)", "r") do |row|
title = row[2]
url = "http://www5.atwiki.jp/hmiku/?page="+title
url = URI.escape(url)

charset = nil
html = open(url) do |f|
charset = f.charset
f.read
end
if (/<title>初音ﾐｸ Wiki -.*は見つかりません<\/title>/ =~ html)
next
end
/(?<=<h3 id="id_0a172479">歌詞<\/h3>)(.*?)(?=<h3)/m =~ html
lyric = $1
if (lyric == nil)
next
end
lyric.gsub!(/<div>|\n/m, '') #divﾀｸﾞと\nを取り除く
lyric.gsub!(/<\/div>|\n/m, '<br />') #div閉じﾀｸﾞを<br \/>にする
lyric.gsub!(/\A\s+?|\s+?\Z|(<br \/>)+\Z/m, '')#文字列の最初と最後の空白や<br />を取り除く
lyric.gsub!("<br />", "\n")#brﾀｸﾞを改行にする
lyric.gsub!(/<\/?[^>]*>/, "")#文中のhtmlﾀｸﾞは外す
lyric.chomp!
File.write("/lyric/"+row[0]+"_"+title+".txt", lyric)#それぞれﾃｷｽﾄﾌｧｲﾙに書き出す
sleep 1
end

色をつけられるんですね！

･今回URLは｢?page=｣のあとにﾀｲﾄﾙつければ繋がることが偶然わかったのでそうしています｡そういう仕組みではないｻｲﾄでも平気な方法はありますか｡

｢そういう仕組みではない｣にも､いろいろなﾀｲﾌﾟがあるので､ぶち当たってから､でも良さそうな気がします｡
よくあるところだと､POST と､ﾘﾀﾞｲﾚｸﾄでしょうか｡

POST は､ﾊﾟﾗﾒｰﾀが URL で見えないやつです｡
ﾈｯﾄﾊﾞﾝｸや電車の予約のｻｲﾄでは､URL にﾊﾟﾗﾒｰﾀがついてません｡

ﾘﾀﾞｲﾚｸﾄは､ﾎｰﾑﾍﾟｰｼﾞの引っ越しとかで､ｱｸｾｽしたURLから､別のｻｲﾄに飛ばされるやつです｡
Net::HTTP のﾗｲﾌﾞﾗﾘを使うと､｢ﾘﾀﾞｲﾚｸﾄしろ､って言ってるよ｣というのが分かるので､もう一回､ﾍﾟｰｼﾞの内容を取りに行きます｡

･｢Nokogiri｣はわかんなくてあきらめてしまったけど､それを使ったほうがよかったのでしょうか｡

Nokogiri を使わないと､どうにも面倒だ､ってなってからでも良いと思います｡
例えば､先の｢ﾘﾀﾞｲﾚｸﾄ｣｡
これなんかを自動でやってくれます(確か)｡

歌詞を切り取るところで､ﾋﾟﾝﾎﾟｲﾝﾄな目印があれば､こんな感じのｿｰｽで行けますけど､HTML の構造をたどらなきゃいけなかったりすると､Nokogiri を使うと楽になります｡

＃とか書きながら､ぼくも文字列ﾍﾞｰｽでやることがほとんどです (^^;

･最後にばらばらのﾃｷｽﾄﾌｧｲﾙに書き出してるけど､ふつうはﾃﾞｰﾀﾍﾞｰｽに入れますか？？

ﾍﾟｰｼﾞの内容をﾏﾙっと取っておきたいだけだったら､どっちでも｡
件数が多くなってくると､ﾃﾞｰﾀﾍﾞｰｽを使いたくなるような気がします｡
検索したり､ﾊﾞｯｸｱｯﾌﾟが楽だったり｡
ﾃﾞｰﾀﾍﾞｰｽを使わないとできない､というわけじゃありませんが｡

ｽｸﾚｲﾋﾟﾝｸﾞは､取ってくる先のﾍﾟｰｼﾞの構造に大きく左右されるので､一般化はあまり気にしなくても良いと思います｡
やるとしたら URL から中身を取ってくるところまでのｴﾗｰ処理とかくらいでしょうか｡
でも､その辺りは open-uri がやってくれているので｡

動いているｺｰﾄﾞなので､このままでも良いと思うんですけど､以下の件は､

 /(?<=<h3 id="id_0a172479">歌詞<\/h3>)(.*?)(?=<h3)/m =~ html
 lyric = $1
 if (lyric == nil)
 next
 end
 lyric.gsub!(/<div>|\n/m, '') #divﾀｸﾞと\nを取り除く
 ...
 sleep 1

こういうふうに書くと思います｡

 if (/(?<=<h3 id="id_0a172479">歌詞<\/h3>)(.*?)(?=<h3)/m =~ html)
 lyric = $1
 lyric.gsub!(/<div>|\n/m, '') #divﾀｸﾞと\nを取り除く
 ...
 sleep 1
 end

それか､こう｡

 unless (/(?<=<h3 id="id_0a172479">歌詞<\/h3>)(.*?)(?=<h3)/m =~ html)
 next
 end
 lyric = $1
 lyric.gsub!(/<div>|\n/m, '') #divﾀｸﾞと\nを取り除く
 ...
 sleep 1

この直前の｢?見つかりません｣と同じような形になってないと､気持ち悪いな､ってだけですが｡

ruby使いじゃないのでrubyでのお決まりはちょっとわかりませんが､補足的＋αで書いてみます｡

･今回URLは｢?page=｣のあとにﾀｲﾄﾙつければ繋がることが偶然わかったのでそうしています｡そういう仕組みではないｻｲﾄでも平気な方法はありますか｡

仕組みもですが､元にするﾃﾞｰﾀも色々なので､その都度調べて法則を見つけたり､一覧をｽｸﾚｲﾌﾟしてみたりです｡
ｽｸﾚｲﾋﾟﾝｸﾞってのが元々そういう感じです｡
ただ､それだと大変なんで､ってことでﾌﾟﾛｸﾞﾗﾑで読み書きするために出来たのがWebAPIで､これがあれば楽が出来ますし､別途ﾏﾆｭｱﾙが用意されていたりします｡
ただWebAPIが用意されているかが､ｻｲﾄによるわけで､それも含めて｢このﾘｽﾄからあのﾃﾞｰﾀを得るにはどうしよう？｣と毎度調べるしか無いですね｡

･｢Nokogiri｣はわかんなくてあきらめてしまったけど､それを使ったほうがよかったのでしょうか｡

今回は無しでOKだと思います｡
Nokogiriだとﾀｸﾞで取ってくる感じなので､たとえば作者名だとか､ﾆｺﾆｺのﾘﾝｸだとか､ﾘﾝｸから作者情報も得るだとかになるとNokogiriが便利になるかもしれません｡
今は正規表現を使っていますが､Nokogiriを使うとCSSのｾﾚｸﾀやXPathが使えます｡これは､どっちが分かりやすいか､書きやすいかという話で､ｽｸﾚｲﾋﾟﾝｸﾞだとﾃﾞｰﾀさえ取れれば使いやすい方で良いです｡

･最後にばらばらのﾃｷｽﾄﾌｧｲﾙに書き出してるけど､ふつうはﾃﾞｰﾀﾍﾞｰｽに入れますか？？

用途によります｡
この後､Rを使ったりということですが､そのRで使いやすい方を選べば良いです｡
今後､作者名とか製作時期とか付加情報も得るならﾃﾞｰﾀﾍﾞｰｽが扱いやすいかもしれませんが､ﾃｷｽﾄﾌｧｲﾙがあるならその時にﾃﾞｰﾀﾍﾞｰｽ化するのも難しく無いですし｡

･その他

URI.escapeはobsoleteとありますし､曲名に｢+｣や｢?｣があるとURI.escapeではﾀﾞﾒなんじゃないかと思います｡
CGI.escapeかURI.encode_www_formを使うとかで､下記のどちらかのようにするのが良いのではないでしょうか？
(ruby使いじゃないので外しているかも？)

url = "http://www5.atwiki.jp/hmiku/?page=" + CGI.escape(title)
url = "http://www5.atwiki.jp/hmiku/?" + URI.encode_www_form({"page"=>title})

上記の関連で曲名に｢:｣｢/｣が有ると､ﾌｧｲﾙ名としてどうなるんでしょう？
曲名のような自由な文字列を元にするときはﾁｪｯｸや正規化をしたほうが安心できる気がします｡
ﾗｲﾌﾞﾗﾘにそういうのもあったりしませんかね？
(ruby使いじゃないのでよくわかりません)

ﾃﾞｰﾀの取得に失敗してif文でnextした場合､sleepなしで連続して試みています｡
何らかの原因で連続して失敗する場合､続けざまに行ってしまうので､最後にsleepじゃなく､openの前にsleepとかで､確実にsleepしたほうが良い気がします｡
今どきはこの程度どうって事無い気もしますけど｡

上記関連で､失敗した時はﾒｯｾｰｼﾞ出しておくと､なんかおかしいな？って時に早めに気が付きます｡
(なんとなく例外使っても良い気がしますが､ruby的にはどうなのでしょう？)

あと､一時的な問題で失敗したとか､途中で例外が発生して､再度取り直すとかの場合でも､最初のﾘｽﾄを修正しないと全部取り直しをしてしまいます｡
最初にﾌｧｲﾙがあるかﾁｪｯｸして､無いときだけ取り直すようにすると､失敗した時とか､増やした時とかに対応し易いかもしれません｡
さらに､別ﾌｫﾙﾀﾞなどにhtmlそのものを保存したり､それを自動で行うようなﾗｲﾌﾞﾗﾘを使う､つまりｷｬｯｼｭしておくと､ちょっと取る範囲を変えてみたとか､そういうのもやりやすくなります｡
(逆に失敗した時のｷｬｯｼｭが残っていて……ということもありますが……)

とは言っても､自分だけが使うこういうﾂｰﾙは､ようはﾃﾞｰﾀが取れれば良いので､使って行って気が付いたところを修正改良していけば十分なんじゃないですかね？