▽1
●
Cherenkov ●200ポイント ベストアンサー |
1. http://q.hatena.ne.jp/1329309002 の回答のリンクから
2. http://q.hatena.ne.jp/1329309002 のベストアンサーのコメントより
<?php ini_set('user_agent', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)'); $keyword="前田敦子"; $url = 'http://ja.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=' . urlencode($keyword); echo $url; libxml_use_internal_errors(true); echo '<html><meta charset="utf-8"></head><body>'; echo '<pre>'; if($xml=simplexml_load_file($url)) { print_r($xml); } else { print_r(libxml_get_errors()); } echo '</pre>'; echo '</body></html>'; libxml_use_internal_errors(false);
3. PHP Simple HTML DOM Parserを使ってスクレイピングして本文だけ抜き出すサンプル
<?php include('simplehtmldom/simple_html_dom.php'); $keyword = "前田敦子"; $html = file_get_html('http://ja.wikipedia.org/wiki/' . urlencode($keyword)); echo '<html><meta charset="utf-8"></head><body>'; echo $html->find('.mw-content-ltr',0)->innertext; echo '</body></html>';
「サーバーに負担がかかるので、クローリングしないでください」と明記されている。
WikipediaのダンプデータをDBに投入する | Tokyo O life – ずばぴたテック