moon-fondu回答ポイント 2000pt

Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

スクレイピングについて、質問です。
こちら https://review-of-my-life.blogspot.com/2017/07/google-spreadsheet-information.html を参考にして、ふるさと納税の候補の情報→ http://f.hatena.ne.jp/moon-fondu/20181103203200
を、取得しようと思いました。

http://f.hatena.ne.jp/moon-fondu/20181103203905 にありますように、Google Chormeの検証ツールを使って、ちょうど"おせち"という用語に該当する場所のXPathを取得しました。

//*[@id="main"]/div[2]/div/div[1]/section[4]/div/ul/li[1]

しかし…スプレッドシートに正しい関数を入れているはずなのですが、エラーになってしまいまして。
http://f.hatena.ne.jp/moon-fondu/20181103204459
どうすれば正しく「おせち」という用語をスプレッドシート取得できるのか、お教えいただけますと幸いです。

よろしくお願い致します。

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

ベストアンサー

a-kuma32018/11/03 22:47:41
満足2000pt

「できません」という回答を書くのは、ちょっと躊躇したのですが、回答に書かせてもらいます。

Google スプレッドシートの関数名が IMORTXML とあるように、対象のページが XMLとして認識できないと、あの関数はエラーを返します。

HTML は XML っぽい感じですが、大きく違うところは、タグを閉じるところを省略できるところです。
HTML だと、IMG は、そもそも閉じるタグを要求しませんし、TABLE や LI とかは、閉じるタグを書かないことが普通にあります。
でも、XML では、文法として許されていません。

ブラウザは解釈してくれるのですが、スプレッドシートの INPORTXML は、その辺りを厳密に解釈しているようで、閉じるタグがきちんと書かれていないページの解釈では失敗してしまいます。

スター
- 5件のコメントを見る
- moon-fondu 2018/11/03 23:35:49
  
  そうだったんですか、回答いただきありがとうございます！
  ちなみに、こちら https://data.gunosy.io/entry/python-scrapy-scraping
  の方法ではいかがでしょう？
  
  最初は自分もこの方法で試みたのですが、
  「items.py」の編集で、
  
  class GunosynewsItem(scrapy.Item):
  title = scrapy.Field()
  url = scrapy.Field()
  subcategory = scrapy.Field()
  
  をどう直そうかと色々いじったり。
  $ scrapy genspider gunosy gunosy.com以降に出てくる
  「gunosy.py」を、いろいろ編集しても、コマンドプロンプトでは
  エラーばかりで全く歯が立たず。。。でもa-kuma3さんなら…もし気が向きましたら、よろしくお願い致します(^^;
  
  スター
- a-kuma3 2018/11/06 16:00:19
  
  少し試してみた（Python ではなく、Ruby ですけど）のですが、ふるさと納税のあのサイト、機械除けの仕組みがあるみたいで、なかなか手強いです。
  もしかすると、Google スプレッドシートの IMPORTXML 関数で取得できないのも、そのガードでエラーになっているのかも。
  
  もし、ふるさと納税のサイトが、あくまでも例として出しただけであれば良いのですが、本当にあのサイトから候補を抽出するのが目的であれば、一筋縄では行かないと思います。
  
  スター
- moon-fondu 2018/11/06 20:26:15
  
  a-kuma3さん調べていただきありがとうございます！
  お手を煩わせてしまい、すみません(^^;
  また、気が向いたらでお願いしたいのですが…コチラ https://www.amazon.co.jp/trends/ は、いかがでしょうか？1位から20位のランキングで、「クリスマスコフレ」などのフレーズのみをスクレイピングできたらと思いまして…自分でまたXpathを取得して、Google スプレッドシートに、
  
  =IMPORTXML(A1,"//*[@id="crown-trending-keywords"]/div/div/ul/li[1]/span/a/div/div[2]/span")
  
  と、入れてみたのですが…、やはり「#ERROR!」になってしまうようで。
  もし可能でしたら…よろしくお願い致します<m(__)m>
  
  スター
- a-kuma3 2018/11/06 21:07:01
  Amazon の方は行けました　:-)
  
  Google スプレッドシートではなく、Ruby のコードです。
  Mechanize というライブラリを使ってます。
  require 'openssl' require 'mechanize' agent = Mechanize.new agent.verify_mode = OpenSSL::SSL::VERIFY_NONE page = agent.get('https://www.amazon.co.jp/trends/') trend = page.search('.trending-keyword') trend.each { |item| puts item.text.strip }
  標準出力には、以下のように出力されます。
  クリスマスコフレルナソルスマブラクリスマスツリーヴェノムダウンジャケットメンズセグウェイカナダグースワークマンナマケモノクリスマスイルミネーションクリスマス飾りクリスマス www amazon com jp 冷却ファンゲームボーイミクロ twice yes or yes エリップス福袋エムピウ財布
  
   スター
- moon-fondu 2018/11/06 21:45:39
  
  ありがとうございます(^^;
  
  rubyはまだ自分のWindows10にインストールしていませんが、
  インストールして試してみます♪
  
  また、もしお時間ありましたらコチラの方もご教授いただけますと幸いです。
  http://q.hatena.ne.jp/1541508285
  よろしくお願い致します。
  
  スター

Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

ベストアンサー

a-kuma32018/11/03 22:47:41
満足2000pt

moon-fondu 2018/11/03 23:35:49

a-kuma3 2018/11/06 16:00:19

moon-fondu 2018/11/06 20:26:15

a-kuma3 2018/11/06 21:07:01

moon-fondu 2018/11/06 21:45:39

その他の回答

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

ベストアンサー

a-kuma32018/11/03 22:47:41 満足2000pt

moon-fondu 2018/11/03 23:35:49

a-kuma3 2018/11/06 16:00:19

moon-fondu 2018/11/06 20:26:15

a-kuma3 2018/11/06 21:07:01

moon-fondu 2018/11/06 21:45:39

その他の回答

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

a-kuma32018/11/03 22:47:41
満足2000pt