phpMyAdminでデータを見ると
pageテーブルがレコード数約170万件、revisionテーブルが約150万件,textテーブルが約200万件です。
全部で51テーブルで他のテーブルにはほとんどデータは入っていません。
http://dumps.wikimedia.org/jawiki/20130530/
の
jawiki-20130530-pages-articles.xml.bz2
を使用。
mediawikiをインストールしたローカルな環境で
localhost/mediawikija01/
だと
「大久保佳代子」で検索すると
本文:
大久保佳代子(おおくぼ かよこ、1971年(昭和46年)5月12日 - )は、・・
が見えるのですが、これはどのテーブルに有るのですか。
ダウンロードしたデータをあるカテゴリーに小分けして加工しようと思っています。
私自身はスキルが低く、
mediawikiのインストール&importはfreelancerという英語の受発注サイトで発注しリモート操作でやってもらったものです。
データをカテゴリ毎に小分けするまでのステップとそれぞれの方法、参考サイトなど教えていただけると大変助かります。
自分でできなくても、アドバイスいただいた内容で発注もできます。
よろしくお願いします。
> データをカテゴリ毎に小分けするまでのステップとそれぞれの方法、参考サイトなど
少なくとも次の情報がないと適切な回答はつかないのではないかと思います。
・ダウンロードしたデータの形式
・分類したいカテゴリー
・完成データの形式(※使用用途なども・・・ウィキペディアのデータをインストール済みのローカルのMediaWikiに戻す?など)
>ダウンロードしたデータの形式
1)mediawikiのソフトは
http://www.mediawiki.org/wiki/Download/ja
の
mediawiki-1.21.1.tar.gz
をlocalhostにインストール
2)上記にimportしたデータは
http://dumps.wikimedia.org/jawiki/20130530/
の
jawiki-20130530-pages-articles.xml.bz2
3)MySQL5.5です。
---
>分類したいカテゴリー
1)日本の資格一覧
http://ja.wikipedia.org/wiki/日本の資格一覧
とできれば
2)東京都出身の人物一覧
http://ja.wikipedia.org/wiki/東京都出身の人物一覧
---
>完成データの形式(※使用用途なども・・・ウィキペディアのデータをインストール済みのローカルのMediaWikiに戻す?など)
上記のカテゴリの部分だけ、でローカルのMediaWikiに戻して使います。
例:日本の資格一覧だけを対象にしたMediaWikiを作成したい。
---
よろしくお願いします。