スクレイピングでのXPathの使い方について質問です。

Question

robopit

35

32もっと見る

120pt

インターネットウェブ制作

スクレイピングでのXPathの使い方について質問です。

Web::ScraperでXPathを使って特定の要素を取り出し方はわかったのですが
たとえば

＜ｂｒ＞
＜ｂｒ＞
＜ｂ＞大きく＜/ｂ＞
＜ｂｒ＞
＜ｂｒ＞
普通に
＜ｂｒ＞
＜ｂｒ＞

このようなIDやクラスを使われていない場合に「普通に」部分だけ取り出す指定の仕方はどうやるのでしょうか？

具体的な例があれば解説は不要です。

回答の条件

1人5回まで

登録：2012/04/05 14:17:42
終了：2012/04/06 07:50:28

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

Lhankor_Mhy8142322012/04/05 15:47:19

20pt

'/html/body/text()'
http://jsfiddle.net/AZn6W/

robopit 2012/04/05 16:33:44

回答ありがとうございます。
ただ、やってみたのですができない状態です。

fontで囲まれた要素を引っ張ってきてしまい
fontと同じ階層にあるテキストはでてきません

親要素がtr[2]と指定してあるのですがなにか関係があるのでしょうか？
trを取り外してtext（）だけにしてみたのですがこれもまたなぜかfont
の部分だけしか引っ張りませんでした
Cherenkov 2012/04/05 16:49:29

HTMLとコードの提示が必要かと
Cherenkov 2012/04/05 17:07:08

.//font/text()[contains(.,"てすと２２２２")]
Cherenkov 2012/04/05 17:11:13

とか
var r = document.evaluate('.//text()', document, null, 7, null);
for (var i=0, l=r.snapshotLength; i<l; i++) {
if (/てすと２２２２/.test(r.snapshotItem(i).textContent)) {
alert(r.snapshotItem(i).textContent)
}
}
robopit 2012/04/05 17:11:49

ピンポイントで指定しないと取得できないってことでしょうか？
Lhankor_Mhy 2012/04/05 19:10:13

そのソースの構造で書くならたぶん
//body/font/text()
Lhankor_Mhy 2012/04/05 19:11:08

↑そのソースがbody直下にあると仮定してます。違うなら変更してください。
Cherenkov 2012/04/05 19:13:17

ピンポイントじゃなかったら、どのように相対的に指定したいのでしょうか。
Lhankor_Mhy 2012/04/05 19:14:09

あ、回答に追記があったのね……
robopit 2012/04/06 04:49:26

返答遅れてすいません
こういう構成のものがたくさんある場合

/html/body//tr/td[2]/br[5]みたいな感じで取り出せればな
考えていたのですが無理でしょうか
Cherenkov 2012/04/06 05:42:05

ケースバイケースなのでソースを提示してもらえれば…
Cherenkov 2012/04/06 06:55:47

//td/text()[not(normalize-space(.)="")]
でどうですか。tableの情報追加で補強したほうがいいかもしれないけど。
https://gist.github.com/2314469
Cherenkov 2012/04/06 07:16:08

/html/body/table//tr/td[2]/text()[not(normalize-space(.)="")]
robopit 2012/04/06 07:22:45

ありがとうございます！
できました。
なぜできたかは自分でもしれべてみたいと思います。
ありがとうございました。
robopit 2012/04/06 07:37:32

こちらがサンプルになりますhttps://gist.github.com/84958dbb49ecb3c9ebb9

//td/text()[not(normalize-space(.)="")]

でかいけつしました

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Cherenkov · Accepted Answer · 2012-04-05T16:06:20+09:00

/html/body/text()[contains(.,"normal")]

http://jsfiddle.net/cherenkov/pFsME/1/

jsfiddleで動作確認するために/html/body/とかいていますが、適当に//text()から始めたほうが汎用的ですね。一応。

contains(str1, str2)
str1の.はコンテキストノード自身。

参考：「ツイート」を「ツイート（笑）」に置換するブックマークレット - IT戦記

追記：
コメントに書いたもの
https://gist.github.com/2314469

参考：よしいずの雑記帳　 Web::Scraperを使ったPerlプログラムの例

Cherenkov · Accepted Answer · 2012-04-05T16:06:20+09:00

/html/body/text()[contains(.,"normal")]

http://jsfiddle.net/cherenkov/pFsME/1/

jsfiddleで動作確認するために/html/body/とかいていますが、適当に//text()から始めたほうが汎用的ですね。一応。

contains(str1, str2)
str1の.はコンテキストノード自身。

参考：「ツイート」を「ツイート（笑）」に置換するブックマークレット - IT戦記

追記：
コメントに書いたもの
https://gist.github.com/2314469

参考：よしいずの雑記帳　 Web::Scraperを使ったPerlプログラムの例

スクレイピングでのXPathの使い方について質問です。

ベストアンサー

Cherenkov15044932012/04/05 16:06:20

その他の回答（1件）

Lhankor_Mhy8142322012/04/05 15:47:19

Cherenkov15044932012/04/05 16:06:20ここでベストアンサー

コメント（15件)

この質問への反応（ブックマークコメント）