Wikipedia日本語版から、記事データxml圧縮ファイルをダウンロードしてきました。このファイルから、記事本文を取り出そうと思っています。xmlをパースして記事部分を取り出すことはできたのですが、さらに、本文にwiki記法の記号がたくさん入っています。このwiki記法を取り除いて、プレーンテキストにするためのツール、手法などはありませんか？「mediawikiのソースの一部をこういうふうに利用して、、、」というマニアックな手法でも歓迎です。

Question

hiroshiykw

17

17もっと見る

110pt

コンピュータ

Wikipedia日本語版から、記事データxml圧縮ファイルをダウンロードしてきました。このファイルから、記事本文を取り出そうと思っています。xmlをパースして記事部分を取り出すことはできたのですが、さらに、本文にwiki記法の記号がたくさん入っています。このwiki記法を取り除いて、プレーンテキストにするためのツール、手法などはありませんか？「mediawikiのソースの一部をこういうふうに利用して、、、」というマニアックな手法でも歓迎です。

回答の条件

1人2回まで

登録：2007/06/27 01:35:03
終了：2007/06/27 20:04:39

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

yamats24792007/06/27 01:52:23

5pt

http://mito.xml.gr.jp/log.html?MLID=xmldesign&N=2003

http://otndnld.oracle.co.jp/tech/xml/htdocs/xml_ts/xml_ts3.html

http://www.kazusoft.com/howtoexport/transxml.html

XMLはとりあえず、HTML形式に変換すると作業が楽です。

ある意味、HTMK形式に変換すると、テキストに変換したのも同値なので。最後は、その逆の作業を行います。

ご参考ください。

そこではなく、wiki記法を除外したいのです。

「xmlをパースして記事部分を取り出すことはできた」と質問に書いてありますので、そこから先をお答えください。

2007/06/27 02:21:59

No.2

yamats24792007/06/27 02:47:04

5pt

http://www2u.biglobe.ne.jp/%7EMAS/soft.html

ご参考ください。

＃HTMLに変換した時点でwiki記法は除外されます。

ありがとうございます。

2007/06/27 02:56:26

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

tmasao · Accepted Answer · 2007-06-27T18:02:09+09:00

Home – wiki2xhtml @ .::sourceforge.net/projects/wiki2xhtml/

wiki2xhtmlというツールがあるようです。

MediaWiki用の書式をXHTMLに変換できそうですので、これでHTMLにして、通常のテキストに持っていくのが良いのでは？

tmasao · Accepted Answer · 2007-06-27T18:02:09+09:00

Home – wiki2xhtml @ .::sourceforge.net/projects/wiki2xhtml/

wiki2xhtmlというツールがあるようです。

MediaWiki用の書式をXHTMLに変換できそうですので、これでHTMLにして、通常のテキストに持っていくのが良いのでは？

ベストアンサー

tmasao77202007/06/27 18:02:09

その他の回答（2件）

yamats24792007/06/27 01:52:23

yamats24792007/06/27 02:47:04

tmasao77202007/06/27 18:02:09ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）