Wikipediaの「漫才師一覧」から
simple_html_dom.php を使用して
Wikipediaと、ほぼ同じように、漫才師一覧を表示させるプログラムを書こうとしています。
http://ja.wikipedia.org/wiki/漫才師一覧
1.$keyword (漫才師一覧)をエンコードし
2.<li>タグ の中の
<a>タグのURLとinnertextを抽出して一覧表示させたいです。
例えば、
アームストロング(栗山直人、安村昇剛)
の「アームストロング」の文字列の部分はリンクがある。
栗山直人、安村昇剛にはリンクがない。
次の行
相方不在(さな、吉野ももみ)
は、「相方不在」「さな」「吉野ももみ」
にそれぞれ別のリンクがある。
*要は、http://ja.wikipedia.org/wiki/漫才師一覧
の「あ」行から「わ」行までと、同じように表示しようとしています。
参考までに、僕が下記のプログラム書いてみましたが、
エラーになります。
下記コードを基に書き直していただけると助かります。
http://test01.1811way.com/archives/10
よろしくお願いします。
回答2をforkして。utf-8で保存してください。
<?php header('Content-Type:text/html; charset=UTF-8'); echo '<style>a.new { color: #BA0000; }</style>'; require_once("simple_html_dom.php"); $keyword = '漫才師一覧'; $url = 'http://ja.wikipedia.org/wiki/' . urlencode($keyword); $html = file_get_html($url); $items = $html->find('#mw-content-text li'); foreach ($items as $item) { if (preg_match('/href\=\"\/wiki\/|class=\"new\"/ui', $item->innertext)) { $link = preg_replace('/href="/ui', 'href="http://ja.wikipedia.org', $item->innertext); echo $link .'<br />'; } }