人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PHPについて質問です。

wikiの特定のページの特定のキーワードを抽出するモジュールってありますか?
たとえば下記のページにある邦画のタイトルだけ全て抽出するみたいな感じです。
http://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%8B%E3%83%A1%E3%83%BB%E6%BC%AB%E7%94%BB%E3%81%AE%E5%AE%9F%E5%86%99%E6%98%A0%E7%94%BB%E5%8C%96%E4%BD%9C%E5%93%81%E4%B8%80%E8%A6%A7

よろしくお願いします。

●質問者: taroemon
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:PHP Wiki キーワード タイトル モジュール
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● zero-uhura
●60ポイント

モジュールの回答でなく申し訳ない。


「邦画のタイトルだけ全て抽出する」は文書の「パターン」を見つけて preg_match() などで検索するしかないかと思います。

ただ、他のページでも抽出したいとなると、ページによって書き方が変わるかもしれませんのでこの「パターン」を定義することが困難かもしれませんね。


また、HTMLでの取得よりXMLでの取得のほうが解析しやすいと思います。


以下のようなリクエストでXMLデータをゲットすることができます。

これは、ウィキペディアの検索窓に「特別:Export/アニメ・漫画の実写映画化作品一覧」(もしくは「Special:Export/アニメ・漫画の実写映画化作品一覧」)を入力した検索結果です。

http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:Export/%E3%82%A2...

* 1954年11月10日 『[[あんみつ姫|あんみつ姫 甘辛城の巻]]』 監督:[[仲木繁夫]]

一行に一作品があるようです、また、以下のようなパターンになっていますね。

* {_公開日?_} 『[[{_リンクタイトル_}|{_映画タイトル_}]]』 監督:[[{_監督名_}]]

ウィキペディアのヘルプ

http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:Export

http://ja.wikipedia.org/wiki/Help:%E7%89%B9%E5%88%A5%E3%83%9A%E3...

◎質問者からの返答

ご回答ありがとうございます。


>モジュールの回答でなく申し訳ない。

いえ。望み通りできればまったく問題ありません。

大変参考になりました。


こういうのってAPIというのを使わなくてもできるんでしょうか?

モジュールと併せて、念のため他の方からのご回答もお待ちしています。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ