Ruby言語、HTML抽出での質問です。解決できなく困ってます。

Question

ねったろう

7

6もっと見る

200pt

ウェブ制作

Ruby言語、HTML抽出での質問です。解決できなく困ってます。

下記テーブルからデータ抽出したいのですが、解決できないのでお願いします。
したいことが。2点あります。

【HTMLの内容】
<table>
　<tr class="list">
　　<td>リンク１　タイトルＡ</td>
　　<td>リンク２　値Ａ</td>
</tr>
　<tr class="list">
　　<td>リンク３　タイトルＢ</td>
　　<td>リンク４　値Ｂ</td>
</tr>　
　<tr class="list">
　　<td>リンク５　タイトルＣ</td>
　　<td>リンク６　値Ｃ</td>
</tr>
</table>

リンク７
リンク８
リンク９
リンク１０

------------------
①　上記HTMLより、trタグclass="list"のリンクのみ配列データで取得したい
リンク１
リンク２
リンク３
リンク４
リンク５
リンク６

②
値A、B、C　を配列データで取得したい

------------------
mechanize をつかってリンクは下記でできますが、その先がわかりません。。。。

require 'mechanize'
agent = Mechanize.new

url_ary = Array.new
site_top_url = "http://www.xxxx.com/"
page = agent.get(site_top_url)

page.search("/html/body/div[3]/div/table/tr")
page.links.each do |link|

puts link

end

以上宜しくお願いします。

回答の条件

1人5回まで

登録：2012/09/13 18:59:37
終了：2012/09/15 10:25:56

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

質問者から

ねったろう2012/09/13 23:21:32

環境は

環境はWin７　

ruby 1.9.3p194

gems 1.9.1

mechanize 2.5.1

です。

規約違反として通知

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Cherenkov · Accepted Answer · 2012-09-14T06:55:31+09:00

<html>
<body>
<table>
  <tr class="list">
    <td><a href="1">リンク１　タイトルＡ</a></td>
    <td><a href="2">リンク２　値Ａ</a></td>
  </tr>
  <tr class="list">
    <td><a href="3">リンク３　タイトルＢ</td>
    <td><a href="4">リンク４　値Ｂ</a></td>
  </tr>　
  <tr class="list">
    <td><a href="5">リンク５　タイトルＣ</a></td>
    <td><a href="6">リンク６　値Ｃ</a></td>
  </tr>
</table>
<a href="7">リンク７</a>
<a href="8">リンク８</a>
<a href="9">リンク９</a>
<a href="10">リンク１０</a>
</body>
</html>

require 'mechanize'
agent = Mechanize.new
site_top_url = "http～"
page = agent.get(site_top_url)

#①
#htmlを取得
links = page.search('.list td a').map{|e| e.to_html}
#「リンク１　タイトルＡ」のテキストを取得
#links = page.search('.list td a').map{|e| e.inner_text}
#hrefだけ
#links = page.search('.list td a').map{|e| e['href']}
p links

#②
#質問と同じDOM構造なら以下のcssセレクタで
values = page.search('.list td:last-child a').map{|e| e.text}
#xpathなら
values = page.search('//tr[@class="list"]/td[2]/a').map{|e| e.text}
puts values

参考：RubyのMechanizeのよくある質問 - きたももんががきたん。

Cherenkov · Accepted Answer · 2012-09-14T06:55:31+09:00

<html>
<body>
<table>
  <tr class="list">
    <td><a href="1">リンク１　タイトルＡ</a></td>
    <td><a href="2">リンク２　値Ａ</a></td>
  </tr>
  <tr class="list">
    <td><a href="3">リンク３　タイトルＢ</td>
    <td><a href="4">リンク４　値Ｂ</a></td>
  </tr>　
  <tr class="list">
    <td><a href="5">リンク５　タイトルＣ</a></td>
    <td><a href="6">リンク６　値Ｃ</a></td>
  </tr>
</table>
<a href="7">リンク７</a>
<a href="8">リンク８</a>
<a href="9">リンク９</a>
<a href="10">リンク１０</a>
</body>
</html>

require 'mechanize'
agent = Mechanize.new
site_top_url = "http～"
page = agent.get(site_top_url)

#①
#htmlを取得
links = page.search('.list td a').map{|e| e.to_html}
#「リンク１　タイトルＡ」のテキストを取得
#links = page.search('.list td a').map{|e| e.inner_text}
#hrefだけ
#links = page.search('.list td a').map{|e| e['href']}
p links

#②
#質問と同じDOM構造なら以下のcssセレクタで
values = page.search('.list td:last-child a').map{|e| e.text}
#xpathなら
values = page.search('//tr[@class="list"]/td[2]/a').map{|e| e.text}
puts values

参考：RubyのMechanizeのよくある質問 - きたももんががきたん。

Ruby言語、HTML抽出での質問です。解決できなく困ってます。

質問者から

ベストアンサー

Cherenkov15044932012/09/14 06:55:31

その他の回答（0件）

Cherenkov15044932012/09/14 06:55:31ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）