人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

Wikipedia日本語版から、記事データxml圧縮ファイルをダウンロードしてきました。このファイルから、記事本文を取り出そうと思っています。xmlをパースして記事部分を取り出すことはできたのですが、さらに、本文にwiki記法の記号がたくさん入っています。このwiki記法を取り除いて、プレーンテキストにするためのツール、手法などはありませんか?「mediawikiのソースの一部をこういうふうに利用して、、、」というマニアックな手法でも歓迎です。

●質問者: hiroshiykw
●カテゴリ:コンピュータ
✍キーワード:MediaWiki Wiki Wikipedia XML ソース
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● yamats
●5ポイント

http://mito.xml.gr.jp/log.html?MLID=xmldesign&N=2003

http://otndnld.oracle.co.jp/tech/xml/htdocs/xml_ts/xml_ts3.html

http://www.kazusoft.com/howtoexport/transxml.html


XMLはとりあえず、HTML形式に変換すると作業が楽です。

ある意味、HTMK形式に変換すると、テキストに変換したのも同値なので。最後は、その逆の作業を行います。

ご参考ください。

◎質問者からの返答

そこではなく、wiki記法を除外したいのです。

「xmlをパースして記事部分を取り出すことはできた」と質問に書いてありますので、そこから先をお答えください。


2 ● yamats
●5ポイント

http://www2u.biglobe.ne.jp/%7EMAS/soft.html

ご参考ください。


#HTMLに変換した時点でwiki記法は除外されます。

◎質問者からの返答

ありがとうございます。


3 ● tmasao
●100ポイント ベストアンサー

wiki2xhtmlというツールがあるようです。

MediaWiki用の書式をXHTMLに変換できそうですので、これでHTMLにして、通常のテキストに持っていくのが良いのでは?

◎質問者からの返答

まさにこれです!!

ありがとうございます。

こういう記事もありますね。

http://journal.mycom.co.jp/news/2007/06/26/003/index.html

さっそく試してみます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ