ローカルに保存したMT系のブログやCMS出力されたファイル(xhtml)からを
記事などを取得したいんですがうまく取得できません。
はまるポイントがあればご指摘いただけませんでしょうか?
ずばりのサンプルソースでもかまいません。
こういった情報があるサイトのご紹介もお待ちしております。
いわゆるやりたいことはスクレイピングだと思うのですが、
各サイトごとにゴリゴリやってしまってもいいといえばいいのですが
できれば構造化されたものをきれいに取り込みたいのでxpathを使用したいのです。
すでにこういったところをみながらcurlで取得したブログを保存(特にXMLに変換は行っていない)し、
vb6+msxmlにてサンプルを作成しておりましたが、Xpathの指定が間違っているのか
うまくノードを取得できないのです。
文書自体のロードではエラーはでていないので
XML Namespaces Recommendation [XML Names]
あたりが問題なのかと考えているのですが・・・