PHPについて質問です。


wikiの特定のページの特定のキーワードを抽出するモジュールってありますか?
たとえば下記のページにある邦画のタイトルだけ全て抽出するみたいな感じです。
http://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%8B%E3%83%A1%E3%83%BB%E6%BC%AB%E7%94%BB%E3%81%AE%E5%AE%9F%E5%86%99%E6%98%A0%E7%94%BB%E5%8C%96%E4%BD%9C%E5%93%81%E4%B8%80%E8%A6%A7

よろしくお願いします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2008/06/26 21:51:58
  • 終了:2008/07/03 21:55:02

回答(1件)

id:zero-uhura No.1

zero-uhura回答回数14ベストアンサー獲得回数32008/06/26 23:00:58

ポイント60pt

モジュールの回答でなく申し訳ない。


「邦画のタイトルだけ全て抽出する」は文書の「パターン」を見つけて preg_match() などで検索するしかないかと思います。

ただ、他のページでも抽出したいとなると、ページによって書き方が変わるかもしれませんのでこの「パターン」を定義することが困難かもしれませんね。


また、HTMLでの取得よりXMLでの取得のほうが解析しやすいと思います。


以下のようなリクエストでXMLデータをゲットすることができます。

これは、ウィキペディアの検索窓に「特別:Export/アニメ・漫画の実写映画化作品一覧」(もしくは「Special:Export/アニメ・漫画の実写映画化作品一覧」)を入力した検索結果です。

http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:Export/%E3%82%A2...

* 1954年11月10日 『[[あんみつ姫|あんみつ姫 甘辛城の巻]]』 監督:[[仲木繁夫]]

一行に一作品があるようです、また、以下のようなパターンになっていますね。

* {_公開日?_} 『[[{_リンクタイトル_}|{_映画タイトル_}]]』 監督:[[{_監督名_}]]

ウィキペディアのヘルプ

http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:Export

http://ja.wikipedia.org/wiki/Help:%E7%89%B9%E5%88%A5%E3%83%9A%E3...

id:taroemon

ご回答ありがとうございます。


>モジュールの回答でなく申し訳ない。

いえ。望み通りできればまったく問題ありません。

大変参考になりました。


こういうのってAPIというのを使わなくてもできるんでしょうか?

モジュールと併せて、念のため他の方からのご回答もお待ちしています。

2008/06/27 00:19:35

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません