様々なサイトでPHPでスクレイピングをしたいと考えています。

Question

whiterdev

6

0もっと見る

ウェブ制作

様々なサイトでPHPでスクレイピングをしたいと考えています。

例えば
http://www.find-job.net/startup/10-js-css-compressors
や
http://www.ibm.com/developerworks/jp/web/library/wa-objectorientedjs/index.html?ca=drs-
のサイトなどです。

その中でも、そのページのコンテンツのメインとなる記事の文章部分を取得してきたいのですが、どうすればよいのでしょうか。

※記事の文章文＝フッターやサイドにある別のページへのリンクではなく、
そのWebページを読むときにメインで読むところの文章です

回答の条件

1人20回まで

登録：2013/10/30 17:23:23
終了：2013/10/31 20:29:52

質問者から

whiterdev2013/10/31 11:37:20

要素の調査まではできています。

しかしながら、各サイトで本文が書かれているところ（たとえばdiv class)が変わってしまうので、汎用性がありません。

汎用性を持ったスクレイピングはできないのでしょうか。

なお、構文解析にはsimple_html_dom.phpというパーサーを使用してはいます。

規約違反として通知

No.2

tak11361042013/10/31 10:41:17

http://www.mibel.cs.tsukuba.ac.jp/~ceekz/ExtractUniqueBlock/

教師情報を必要としないニュースページ群からのコンテンツ自動抽出

 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案

こちらをじっくり読んでください。

研究になったりもしているのですね。
参考にしたいと思います

2013/10/31 20:29:43

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

うぃんど · Accepted Answer · 2013-10-30T22:54:49+09:00

（１）はじめに

ウェブスクレイピングするならば…、
そのサイトの構成やページの構成を調べるところから始めます。

（２）ツール

昔はソースコードを目で追いかけたものですが、
最近はブラウザに便利な機能が備わっていて、
おおよその目安を付けやすくなっています。

たとえば、IEには「F12 開発者ツール」があります。
ツールメニューからも呼び出せますし、F12キーを押しても呼び出せます。
「開発者ツール」の検索機能（Ctrlキー＋Bキー）をスタートさせて、
構造を知りたい箇所をクリックすれば、
ソースコードの該当する箇所が反転表示されます。
http://msdn.microsoft.com/ja-jp/library/ie/gg589512%28v=vs.85%29.aspx

Firefoxには「インスペクタ」があります。
調べたい箇所を右クリックして「要素を調査」とするだけで、
ソースコードが表示され、該当する箇所が反転表示されます。
https://developer.mozilla.org/ja/docs/Tools/Page_Inspector

どのようなツールを使うのが便利なのかはその人によりますので、
現在使っている環境に合わせたものからやってみると良いでしょう。
（私はFirefoxアドオンのFirebugを今も主に使っています。）

（３）構造解析

実際にツールで探した箇所を抜き出してみたのが下記です。
※本文は長くなるので省略しています。

<div class="ctL">
    <div id="post-3102" class="post-3102 post type-post status-publish format-standard hentry category-1"> 
        <div class="title">
            タイトル
        </div>
        <div class="articleCt">
            本文（ソーシャルリンクも含まれる）
        </div>
    </div>
</div>

<div id="ibm-content-main">
    <div class="ibm-container">
        本文（ソーシャルリンクも含まれる）
    </div>
</div>

（４）phpプログラミング

私は回線の細かった時代（Kbps）の名残で、読み取りながらパーツを分離し、
正規表現で細かく抜き出すことが多いのですが、
パソコンも高速になり、回線もMbpsが当然の現代では、
構文解析のクラスを使う方が賢いでしょう。

phpにはいくつかのクラスがありますが有名どころは次の２つです。
・HTML、XML問わずに使えるDOMDocumentクラス
http://php.net/manual/ja/class.domdocument.php
・XMLに特化したSimpleXML
http://www.php.net/manual/ja/book.simplexml.php

さて、
「1人20回まで」となっていますが、
私の仕事ではないので、そこまでのお付き合いはできません。
あとは自助努力してください。

うぃんど · Accepted Answer · 2013-10-30T22:54:49+09:00

（１）はじめに

ウェブスクレイピングするならば…、
そのサイトの構成やページの構成を調べるところから始めます。

（２）ツール

昔はソースコードを目で追いかけたものですが、
最近はブラウザに便利な機能が備わっていて、
おおよその目安を付けやすくなっています。

たとえば、IEには「F12 開発者ツール」があります。
ツールメニューからも呼び出せますし、F12キーを押しても呼び出せます。
「開発者ツール」の検索機能（Ctrlキー＋Bキー）をスタートさせて、
構造を知りたい箇所をクリックすれば、
ソースコードの該当する箇所が反転表示されます。
http://msdn.microsoft.com/ja-jp/library/ie/gg589512%28v=vs.85%29.aspx

Firefoxには「インスペクタ」があります。
調べたい箇所を右クリックして「要素を調査」とするだけで、
ソースコードが表示され、該当する箇所が反転表示されます。
https://developer.mozilla.org/ja/docs/Tools/Page_Inspector

どのようなツールを使うのが便利なのかはその人によりますので、
現在使っている環境に合わせたものからやってみると良いでしょう。
（私はFirefoxアドオンのFirebugを今も主に使っています。）

（３）構造解析

実際にツールで探した箇所を抜き出してみたのが下記です。
※本文は長くなるので省略しています。

<div class="ctL">
    <div id="post-3102" class="post-3102 post type-post status-publish format-standard hentry category-1"> 
        <div class="title">
            タイトル
        </div>
        <div class="articleCt">
            本文（ソーシャルリンクも含まれる）
        </div>
    </div>
</div>

<div id="ibm-content-main">
    <div class="ibm-container">
        本文（ソーシャルリンクも含まれる）
    </div>
</div>

（４）phpプログラミング

私は回線の細かった時代（Kbps）の名残で、読み取りながらパーツを分離し、
正規表現で細かく抜き出すことが多いのですが、
パソコンも高速になり、回線もMbpsが当然の現代では、
構文解析のクラスを使う方が賢いでしょう。

phpにはいくつかのクラスがありますが有名どころは次の２つです。
・HTML、XML問わずに使えるDOMDocumentクラス
http://php.net/manual/ja/class.domdocument.php
・XMLに特化したSimpleXML
http://www.php.net/manual/ja/book.simplexml.php

さて、
「1人20回まで」となっていますが、
私の仕事ではないので、そこまでのお付き合いはできません。
あとは自助努力してください。

様々なサイトでPHPでスクレイピングをしたいと考えています。

ベストアンサー

うぃんど262511492013/10/30 22:54:49

その他の回答（1件）

うぃんど262511492013/10/30 22:54:49ここでベストアンサー

質問者から

tak11361042013/10/31 10:41:17

コメント（0件)

この質問への反応（ブックマークコメント）