Rubyでｽｸﾚｲﾋﾟﾝｸﾞ方法｡http://q.hatena.ne.jp/1455811321など何度か質問を続けて続いている関連｡上記では質問終わって無事解決できています､ありがとうございます…

人力検索はてな

ﾓﾊﾞｲﾙ版を表示しています｡PC版はこちら

Rubyでｽｸﾚｲﾋﾟﾝｸﾞ方法｡http://q.hatena.ne.jp/1455811321など何度か質問を続けて続いている関連｡
上記では質問終わって無事解決できています､ありがとうございます｡

例えば､今回は関西電力の停電情報です｡久しぶりですが他も何とか挑戦しようかと｡
http://www.kepco.co.jp/energy_supply/supply/teiden-info/index.php?ScreenName=RK00

ここで､一番右の｢発生件数｣を左側と合わせて抜き出して他のﾃﾞｰﾀと同列にする方法はどうしたらいいでしょうか｡
発生件数のﾘﾝｸ先URLが0から加算されているから､何かをｶｳﾝﾄすればいいのかな､と思うところはあるのですが｡当然固定ではなく変動しているのでﾙｰﾌﾟをどう調整しようか､､

よろしくお願いします｡

●質問者: FREEz
●ｶﾃｺﾞﾘ:ｲﾝﾀｰﾈｯﾄｳｪﾌﾞ制作
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

▽1 ● a-kuma3
●100ﾎﾟｲﾝﾄ

ﾍﾞｽﾄｱﾝｻｰ

前の回答のｺｰﾄﾞを､

質問にあるﾍﾟｰｼﾞをｽｸﾚｲﾋﾟﾝｸﾞするように変更
一行分のﾃﾞｰﾀをﾀﾌﾞ区切りで標準出力に出力

というふうに変えてみました｡

require 'open-uri'

class RowData
 def initialize
 @first_line_mode_ = true
 @data_ = []
 @rows_ = []
 end
 def push data, rows
 if @first_line_mode_ then
 @data_ << data
 @rows_ << rows
 else
 i = @data_.index(nil)
 @data_[i] = data
 @rows_[i] += rows
 end
 end
 def clear
 is_remain = false
 (0...@data_.length).each { |i|
 @rows_[i] -= 1
 if @rows_[i] == 0 then
 @data_[i] = nil
 else
 is_remain = true
 end
 }
 unless is_remain then
 @data_ = []
 @rows_ = []
 @first_line_mode_ = true
 else
 @first_line_mode_ = false
 end
 end
 def to_a
 @data_.dup
 end
 def empty?
 @data_.empty?
 end
end


def treat_data data
 puts data.join("\t")
end

#
# ここまでは､前回と同じです
#

def extract_blackout_information(uri)
 # get HTML

 txt = ""
 http_options = {}

 open(uri, http_options){ |io|
 txt = io.read
 }


 data = RowData.new

 iter = txt.split("\n").to_enum
 loop do
 line = iter.next

 # 通常のﾃﾞｰﾀ
 if line =~ %r|<td([^>]*)>(.*)</td>| then
 td_attr = $1
 txt = $2
 rowspan = 1
 if td_attr =~ %r|rowspan="(\d+)"| then
 rowspan = $1.to_i
 end
 data.push txt, rowspan

 # 地区
 elsif line =~ %r|<td>\s+<span class="nowrap">| then
 txt = ""
 while line =~ %r|<span class="nowrap">(.+)</span>|
 txt += $1
 line = iter.next
 end
 data.push txt, 1

 # 発生件数
 elsif line =~ %r|<td rowspan="(\d+)"><a .* class="modal">| then
 rowspan = $1.to_i
 txt = ""
 while line !~ %r|^\s*</td>\s*$|
 if line =~ %r|<p class="count">(.+)</p>| then
 txt = $1
 end
 line = iter.next
 end
 data.push txt, rowspan

 # 行の終わり
 elsif line =~ %r|</tr>| then
 unless data.empty? then
 treat_data data.to_a
 end
 data.clear
 end
 end
end


# 2016-9-6 分
extract_blackout_information("http://www.kepco.co.jp/energy_supply/supply/teiden-info/index.php?ScreenName=RK20160906")

ﾃﾞｰﾀのﾊﾞﾘｴｰｼｮﾝがあるので､2016年9月6日の分を解析するようにしてます(最後の行)｡

こんな感じで､標準出力に表示されます

00:01?00:02 和歌山県日高郡日高町大字池田雷の影響約-軒
00:03?02:36 和歌山県日高郡美浜町大字和田雷の影響約290軒
00:03?02:36 和歌山県日高郡日高町大字荊木､大字小池､大字小中､大字志賀､大字高家､大字萩原雷の影響約290軒
00:06?00:07 和歌山県有田郡湯浅町大字青木､大字別所､大字湯浅雷の影響約-軒
00:06?00:07 和歌山県有田郡広川町大字名島､大字東中､大字広雷の影響約-軒
00:06?00:07 和歌山県御坊市塩屋町北塩屋調査中約-軒
00:06?00:07 和歌山県日高郡美浜町大字吉原調査中約-軒
00:06?00:07 和歌山県日高郡印南町大字印南原調査中約-軒
...

前回のﾍﾟｰｼﾞとは違って､TABLE のひとつのｾﾙに入ってる情報が HTML のｿｰｽでは複数行にまたがっているので､ﾙｰﾌﾟが二重になっている､というのが構造的に一番変わっているところです｡

追記です｡

Ruby にも外部ｲﾃﾚｰﾀがあることをさっき知ったので(遅い)､ｺｰﾄﾞをちょっとだけ書き直しました｡

｢何行目｣を表す i を順次増やして配列から取り出していたところを､外部ｲﾃﾚｰﾀ(Enumurator)で行をずらしながら行を取り出すようにしています｡

FREEzさんのｺﾒﾝﾄ
早々なご回答ありがとうございました｡私事から対応遅れていますが､あちらのｿｰｽｺｰﾄﾞとこちらのｺｰﾄﾞと､前のｺｰﾄﾞと､､いろいろ見て回っています｡ｺﾚ大変だなと思ったので見事でした｡しかし､ﾃﾞｰﾀのﾊﾞﾘｴｰｼｮﾝがあるということは､日付ごとに異なるということですか？｢停電履歴情報はございません｡｣の場合と､都道府県･市区町村･停電原因の処理が何が理由なのか個別とまとめと別れますね｡全体を疑う感じ､全てで同じようになりうる､と想定する方が筋が通りそう｡これは､例えば全てを同一の規格にするより､そのままｺﾋﾟｰを対応できるようにして元ﾃﾞｰﾀそのままの方がやり方としては普通ですか？前のように最初にid入れてｶｳﾝﾄすると少し目線が変わるかなとも思ったのですが､きっと何かの優先順位でこうなっているからそれを探しています｡一番規模が大きくなりがちな地名が中心にあるかと思ったら､時間な気がしています｡上下内容同じでも時間のずれで別れているような､､

a-kuma3さんのｺﾒﾝﾄ
>> しかし､ﾃﾞｰﾀのﾊﾞﾘｴｰｼｮﾝがあるということは､日付ごとに異なるということですか？ << 回答を書いたときの最新日 9/7 は､行方向のぶち抜き(rowspan > 1)が無かったので､9/6 のﾃﾞｰﾀで検証しました｡想定して作ったわけではないですが､ｺﾒﾝﾄを書いている時点の最新日 9/15 が｢停電履歴情報はございません｡｣ですが､空振りしてくれました <tt>:-)</tt> >> 一番規模が大きくなりがちな地名が中心にあるかと思ったら､時間な気がしています｡上下内容同じでも時間のずれで別れているような､､ << ｽｸﾚｲﾋﾟﾝｸﾞは､取り込むﾍﾟｰｼﾞのﾃﾞｻﾞｲﾝが変わると､作り直しってｹｰｽもよくあるので､目に見えてないﾊﾞﾘｴｰｼｮﾝまで想定してきっちり作り込むか､今､目の前に見えているﾍﾟｰｼﾞが解析できれば十分だと割り切るかのﾊﾞﾗﾝｽはあると思います｡今のﾃﾞｰﾀだけ取れれば良い､とか､毎日起動してﾃﾞｰﾀを貯めたい､とか､使い方にもよります｡ >> これは､例えば全てを同一の規格にするより､そのままｺﾋﾟｰを対応できるようにして元ﾃﾞｰﾀそのままの方がやり方としては普通ですか？ << ﾃﾞｻﾞｲﾝに合わせて解析の仕方を複数種類そろえて切り替える､ってことですよね｡ふたつ目以降は重複する部分が多いけど､ｺﾋﾟﾍﾟで作っちゃえ､と｡ｱﾘだと思いますよ｡自分で使うものだし｡ただ､ｺﾋﾟｰした部分に手を加える必要が出てきたときに､同じことを複数回やらなくちゃいけなくなります｡この｢同じことを複数回やる｣ってのが､またなかなかできないもので､注意深くやっているつもりがひとつだけ修正漏れがあってきちんと動かなくなる､なんてことはよくあります｡前の質問では､どれくらいのﾊﾞﾘｴｰｼｮﾝがあるのか分からなかったので､素直に td 要素の rowspan 属性を見て解釈するようにしました｡面白そうだった､ということもあります(後々の自分でも使えるかも､というのもちょっとあった)｡

FREEzさんのｺﾒﾝﾄ
回答ありがとうございます｡以前の例と合わせて自分でもいろいろ試してみようと思うのですが､結局はﾃﾞｰﾀまでどう辿るか､どう処理するか､ですよね｡自分としてはこういうので根幹の処理の法則がどうなっているのか､に興味を持ちました｡ﾃﾞｰﾀを作って配信する側が仕様を変えてそれまでの方法で処理できなくなるというのは普通にあると見聞きしているのですが､そのために処理を簡易にして変更を容易にするか･作りこむか､という判断では前者と本で読みました｡そういう意味で今回の例は､かなりｲﾚｷﾞｭﾗｰ？にも見えたのですが､それで突き詰めすぎてわかりづらいといけないなとふと思いました｡こういうのは､ﾃﾞｰﾀを得られることを最優先とするのか･ある程度法則を見抜くべきか､という点では､時と場合によるんでしょうか､､

a-kuma3さんのｺﾒﾝﾄ
ｽｸﾚｲﾋﾟﾝｸﾞなので､ﾃﾞｰﾀが得られないと始まりません <tt>:-)</tt> まず､それが第一｡ただ､この質問にある停電情報を定期的に取得してずｰっと貯めこむ､というようなことを考えると､毎日ｽｸﾘﾌﾟﾄをいじるわけにもいかないので､想定できる範囲内で法則というか､ﾃﾞｰﾀのﾊﾞﾘｴｰｼｮﾝには対応しておかなければならないだろうと思います｡最初に法則を見抜く､といってもなかなか難しいよなあ､という話をひとつ｡ぼくが使ってるｽｸﾚｲﾋﾟﾝｸﾞのｽｸﾘﾌﾟﾄで一番古いのは､人力検索の質問･回答状況を抜き出すもので､作ったのは 4年くらい前になります｡何かの質問に回答する為だったか､はてなﾊｲｸに投稿するﾈﾀにするためだったか､きっかけは忘れてしまいました｡最初にある程度動くものができた後､履歴に残しているやや大きめの変更だけで 25回手を入れてます｡最初は､直近一年くらいのﾃﾞｰﾀを抜いてたのが､全期間を対象にしてみると､昔のﾃﾞｰﾀに対応できてなかった､とか､抜いたﾃﾞｰﾀを集計してみたら､妙な数字が出てきて､実はﾃﾞｰﾀの抜き出し方が間違っていただとか｡匿名質問ができたときの対応は､一般質問用のﾒｿｯﾄﾞをｺﾋﾟﾍﾟして､一部を修正して対応したんですが､その後の修正で同じことを2回やらなくちゃいけないので､一本にまとめたりとかしてます｡

FREEzさんのｺﾒﾝﾄ
あれ､Enumerator てどこかありますか？ﾘﾝｸ先でどう使うのかを見ているのですが､､

a-kuma3さんのｺﾒﾝﾄ
>> あれ､Enumerator てどこかありますか？ << 以下のｺｰﾄﾞで､String#split の戻り値が Array ｡ Array#to_enum の戻り値が Enumerator です｡ >|ruby| iter = txt.split("\n").to_enum ||< >|ruby| a = ["a", "b", "c"] a.each { |item| puts item } e = a.to_enum loop do item = e.next puts item end ||< これは､同じ結果になります(ｻﾝﾌﾟﾙとしては､つまらない)｡回答のｺｰﾄﾞでは､例えば､取得した HTML が 100行あったとして､外側のﾙｰﾌﾟで 100回まわすのではなくて､内側のﾙｰﾌﾟでもずらしたくて､外と内で合わせて 100回まわしたいので Enumerator を使っています｡ >|ruby| iter = ... # Enumerator loop do line = iter.next ... while ... # ここでも数回ﾙｰﾌﾟする line = iter.next ... end end # Enumerator#next は､合わせて 100回よばれる ||<

FREEzさんのｺﾒﾝﾄ
ｺﾚ大変ですね､ﾃｰﾌﾞﾙごとに表示変わると､､､東電の時にも同じようなことはあったんだが､さてどうしていたかを確認して見比べていますw 今見たところ､なるほど以前は時間を基軸として別れたところは両方に記載し件数も二重に両方に計測していました｡都道府県や理由など文字ﾃﾞｰﾀはそれでいいんだが､よく見たら数字はｱﾚだ二重になってる､､最終的に内訳わからないのでそれはそれでいいんですけど｡関電の方がややこしいと思っていましたが数字は最後だから重なることもなく､文字を両方にすればいい､､と考えれば､､､まだいいのかな？w 以前のやり方でこの辺は対応できませんか｡どこが欠けるか､でどうしようかと随分まいってるんですが｡

a-kuma3さんのｺﾒﾝﾄ
関電の方も､複数行にわたって｢軒数情報｣のﾎﾞﾀﾝがひとつとかある(9/15 とか)ので､東電と同じですね｡ >> 以前のやり方でこの辺は対応できませんか｡どこが欠けるか､でどうしようかと随分まいってるんですが｡ << 東電のときと抜き出したﾃﾞｰﾀの形式は同じになっているつもりなんですが｡抜き出したﾃﾞｰﾀを､どう使いたいかで変わってくるかもしれません｡どう使いたいかは後で変わるかもしれない､とすれば､以下のどちらかでしょうか｡ - 見えてるままの形で保存しておく(DB にしづらい？) - ばらして保存して(今回の回答ように)､必要があれば後でくっつける情報量を落としてしまうと､後で復元することが難しくなるので｡ざっと見た感じでは､発生･復旧時刻が同じで､別の行になっているﾃﾞｰﾀはなさそうなので､後でくっつけるとしたら､それを使うか､別にひとつの行だったという情報を加えておくか｡きっと､元のﾃﾞｰﾀは｢停電の案件｣でひとつのﾚｺｰﾄﾞになっているのだと思います｡･停電情報 |停電案件ｷｰ|発生日時|復旧日時|発生件数|原因| <br> ･ｴﾘｱ情報(ひとつの停電案件に､複数のｴﾘｱｺｰﾄﾞ) |停電案件ｷｰ|ｴﾘｱｺｰﾄﾞ|ﾌﾟﾗｲﾏﾘｷｰ| <br> ･ｴﾘｱﾏｽﾀ(住所単位ではなく､送配電の設備の単位があると思います) |ｴﾘｱｺｰﾄﾞ|地区ｺｰﾄﾞ|市町村区ｺｰﾄﾞ|都道府県ｺｰﾄﾞ| <br> で､ｺｰﾄﾞと名称などと対応付けたﾏｽﾀがあるとか､じゃないのかなあと想像します｡ただ､ここまでばらす必要があるかなあ､という気がしなくもなく｡

FREEzさんのｺﾒﾝﾄ
以前同様に､＞ばらして保存して(今回の回答ように)､必要があれば後でくっつけるそのまま丸ごと保存よりはこちらで､ただし以前と同一にする必要はないため時間などはそのままでもいいかと､思ったのですが､丸ごと保存するとどういう風に考えるのでしょうか｡後でﾛｰｶﾙでｽｸﾚｲﾋﾟﾝｸﾞ？確かにいっそ丸ごとが楽ぽいですがﾍﾟｰｼﾞごと保存もしておいた方がいいってことなんでしょうか｡確かに今の段階で以前のように発生時と復旧時に分けることができれば便利ですね｡ただそこまでやれるなら丸ごと保存するような理由はなくなってしまいますねw 個人的に思うのは､住所以外の理由で細かく表示されているのだと思います｡例えば管轄の事業所の位置や､送配電網の都合です｡あれらは住所とは別ですので｡時代とともに土地の事情が変わっていってもｲﾝﾌﾗって変わらないですからw あとは停電の理由の大小や､社内ｼｽﾃﾑの影響じゃないでしょうかね､､

a-kuma3さんのｺﾒﾝﾄ
>> 丸ごと保存するとどういう風に考えるのでしょうか｡ << ｢丸ごと｣というか､｢見たまま｣を想定してました｡例えば､9/15 だとこんな感じで｡ |12:58?12:59|和歌山県|和歌山市|...|...|約-件| |16:01?16:02|和歌山県|西牟婁郡白浜町|...|...|約-件| | | |西牟婁郡すさみ町|...|...| | TD ﾀｸﾞがあるところだけ､ﾃｷｽﾄや数字を保存｡さすがに列がそろってないと後で使いづらいだろうと思うので､列だけは合わせて｡

FREEzさんのｺﾒﾝﾄ
失礼しました､以前と同じはこちらですね｡こちらのｲﾒｰｼﾞでした｡ﾍﾟｰｼﾞを丸ごと保存して後でﾛｰｶﾙ環境でも対応するのかと思っていました｡わざわざ丁寧に表示までして頂いたので違いがとても分かりやすく助かりました｡｡

FREEzさんのｺﾒﾝﾄ
rubyを一から勉強しています｡大変なことばかりですが楽しさを見出して頑張っています｡ある程度で一区切りできたので､改めて見直して整理していて､それぞれ区分けして保存までうまくいきそうなのですが､時間を分けようと思いまして､例えば｢13:24?13:25｣で｢?｣で分けるのはどうしたらいいでしょうか｡これUTF-8ではないというｴﾗｰになるのですが､そちらを対応してもどうもうまくいきません｡前歴を参考にして時間をそれぞれのﾃﾞｰﾀで保存するのはわかったのですが｡その後でSQLiteに書き込む段階でclass="archive_date"から日付と＋しようかと思っています｡一番下の隣のﾍﾟｰｼﾞにいってﾘﾝｸ先やるようにすれば､終点が1週間分なのでとりあえずできるかなとか思ったのですが､これ日付なんだな大変だ､､最新1日ずつ固定しかないか､､

a-kuma3さんのｺﾒﾝﾄ
>> 例えば｢13:24?13:25｣で｢?｣で分けるのはどうしたらいいでしょうか｡これUTF-8ではないというｴﾗｰになるのですが､そちらを対応してもどうもうまくいきません｡ << 実行環境は､Windows でしたっけ？ ruby のｽｸﾘﾌﾟﾄを UTF-8 で保存して実行するとどうなりますか？

FREEzさんのｺﾒﾝﾄ
お返事ありがとうございます｡Windowsです｡実は今ならMacもあるのですがそっちの方がいいのかな｡仮にｻｰﾊﾞで動かすならLinuxが多いためMacの方がよさそうですね｡ syntax error, unexpected tXSTRING_BEG, expecting keyword_end t = data[0].split /"?"/I となっているので文法として使い方を間違えているってことですね｡ invalid multibyte char (UTF-8)となってます｡

FREEzさんのｺﾒﾝﾄ
"?"で区分けるように使うにはどうしたらいいんだろう､､半角ならできるのだがこの文字は全角しかないので｡

a-kuma3さんのｺﾒﾝﾄ
文字ｺｰﾄﾞ周りのｻﾝﾌﾟﾙ｡ j.txt >|| 1?a 2?b 3?c 4?d 5?e ||< j.txt が Shift-JIS で保存されてるとして､以下のｽｸﾘﾌﾟﾄを(Windows でいうところの)Shift-JIS で保存｡ >|ruby| # -*- encoding: Windows-31J -*- open("j.txt", "r") { |f| while f.gets t = $_.chomp.split /?/ p t end } ||< もし､j.txt が UTF-8 で保存されていて､ｽｸﾘﾌﾟﾄが Shift-JIS だったら､こんな感じ｡ >|ruby| # -*- encoding: Windows-31J -*- open("j.txt", "r:UTF-8") { |f| while f.gets t = $_.chomp.encode("Windows-31J").split /?/ p t end } ||<

a-kuma3さんのｺﾒﾝﾄ
SQLite には UTF-8 で保存していると思うので､ｽｸﾘﾌﾟﾄを先頭のﾏｼﾞｯｸｺﾒﾝﾄなしで UTF-8 で保存したらいけると思います｡

▽2 ● tobeoscontinue
●100ﾎﾟｲﾝﾄ

<php
require 'open-uri'
require 'nokogiri'

def teiden_parse(html)
 doc = Nokogiri::HTML.parse(html)
 content = doc.css('#content')
 {'archive'=> content.css('p.archive_date').text.gsub(/ |\n|\r/, ''),
 'content'=> content.css("table > tr").inject([]) {|info, tr|
 td = tr.css('td')
 if 0 < td.size
 if td.size == 6 # td.attribute('rowspan').value
 info << [td[0].text.strip, # 発生･復旧時間
 td[1].text, # 停電地域(都道府県|市区町村|地区)
 [[td[2].text,
 td[3].text.gsub(/ |\n|\r/, '')]],
 td[4].text, # 原因
 td[5].css('p.count').text] # 発生軒数
 else
 info.at(-1)[2] << [td[0].text, td[1].text.gsub(/ |\n|\r/, '')] # 地区
 end
 end
 info
 }}
end

鋸でﾃﾞｰﾀの抽出をして配列で返すようにしてみました｡
停電地域の市区町村と地区が複数になることがあるようでこの部分は市区町村と地区のﾍﾟｱｰの配列としました｡
本来はrowspanを見て処理すべきですが面倒なのでtdの個数で判断するという手抜きをしています｡

停電履歴情報はありません｡には対応していません｡
htmlがどうなっているか分かりませんがteiden_parseが[]を返えすといいのですが｡

url='http://www.kepco.co.jp/energy_supply/supply/teiden-info/index.php?ScreenName=RK’+(ARGV.size == 0 ? '00' : ARGV[0])
kepco = teiden_parse(open(url).read)
p kepco['archive']
kepco['content'].each {|info|
puts info[0]
puts info[1]
puts info[2].map {|l| ' '+l[0]+':'+l[1]+"\n" }
puts info[3]
puts info[4]
puts " "
}

FREEzさんのｺﾒﾝﾄ
回答ありがとうございます｡ﾉｺｷﾞﾘでやってみたんですね｡phpの例もあると見比べられて考えられて楽しいので助かります｡しかしｾｵﾘｰ通りでできましたか？なんかﾍﾟｰｼﾞごとに違う表示になっているｹｰｽがあるので､まずはそこの根幹がどうなっているかを先に見抜かないといけないかなと四苦八苦してまして｡ rowspanとtdの両方使用して見分けられるかな､､どう辿っていけばいいんだろう｡

tobeoscontinueさんのｺﾒﾝﾄ
検索やﾏｯﾁﾝｸﾞの部分は鋸がやってくれるので記述量が減らせるのが大きなﾒﾘｯﾄでそれによる可読性の向上が期待できます｡しかし全体をﾊﾟｰｽしDOMを構築するのでﾘｿｰｽを多く消費します｡ﾒﾘｯﾄ､ﾃﾞﾒﾘｯﾄはありますが別の方法の提案ということで回答してみました｡ >しかしｾｵﾘｰ通りでできましたか？何のｾｵﾘｰのことなんでしょう｡鋸のｾｵﾘｰということでしょうか？ >なんかﾍﾟｰｼﾞごとに違う表示になっているｹｰｽがあるので具体的なﾍﾟｰｼﾞのｿｰｽがあれば対応可能かもしれません｡例えば東北電力や東京電力では以下のかんじになります｡ def teiden_tepco(html) doc = Nokogiri::HTML.parse(html, nil, "Shift_JIS") content = doc.css('table.bo_lv4') doc.search('br').each {|br| br.replace(',') } {'archive'=> doc.css('select[@name="day"] > option[@selected]').text, 'content'=> doc.css('table.bo_lv4 tr').inject([]) {|info, tr| td = tr.css('td') if 0 < td.size if td.size == 7 # td.attribute('rowspan').value info << [td[0].text, # 発生･復旧時間 td[1].text, # 停電地域(都道府県|市区町村|地区) [[td[2].text, td[3].text[0..-2] ]], td[5].text, # 原因 td[4].text] # 発生軒数 else info.at(-1)[2] << [td[0].text, td[1].text[0..-2]] # 地区 end end info }} end def teiden_touhoku_epco(html) doc = Nokogiri::HTML.parse(html, nil, "Shift_JIS") {'archive'=> doc.css('table.LayoutTable6 option[@selected]').text.strip, 'content'=> doc.css('table.LayoutTable5 tr').inject([]) {|info, tr| td = tr.css('td') if 0 < td.size if td.size == 5 # td.attribute('rowspan').value td[0].search('br').each {|br| br.replace('-') } info << [td[0].text, # 発生･復旧時間 td[1].text, # 停電地域(都道府県|市区町村|地区) [td[2].text.split(/\u3000/)], td[4].text, # 原因 td[3].text] # 発生軒数 else end end info }} end 関数の返す配列はどの電力会社でもほぼ同様になっています｡ rowspanは市区町村と地区が複数ある場合のためのものでしょう｡ rowspanを見て対処することは可能ですがrowspanが無い場合など本来の処理以外にも対処が必要となるのでteiden_parseではtdのｻｲｽﾞ6以外は市区町村と地区として処理しています｡

00:01?00:02	和歌山県	日高郡日高町	大字池田	雷の影響	約-軒
00:03?02:36	和歌山県	日高郡美浜町	大字和田	雷の影響	約290軒
00:03?02:36	和歌山県	日高郡日高町	大字荊木､大字小池､大字小中､大字志賀､大字高家､大字萩原	雷の影響	約290軒
00:06?00:07	和歌山県	有田郡湯浅町	大字青木､大字別所､大字湯浅	雷の影響	約-軒
00:06?00:07	和歌山県	有田郡広川町	大字名島､大字東中､大字広	雷の影響	約-軒
00:06?00:07	和歌山県	御坊市	塩屋町北塩屋	調査中	約-軒
00:06?00:07	和歌山県	日高郡美浜町	大字吉原	調査中	約-軒
00:06?00:07	和歌山県	日高郡印南町	大字印南原	調査中	約-軒