Wikipedia日本語版から、記事データxml圧縮ファイルをダウンロードしてきました。このファイルから、記事本文を取り出そうと思っています。xmlをパースして記事部分を取り出すことはできたのですが、さらに、本文にwiki記法の記号がたくさん入っています。このwiki記法を取り除いて、プレーンテキストにするためのツール、手法などはありませんか?「mediawikiのソースの一部をこういうふうに利用して、、、」というマニアックな手法でも歓迎です。

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2007/06/27 20:04:39
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:tmasao No.3

回答回数77ベストアンサー獲得回数20

ポイント100pt

wiki2xhtmlというツールがあるようです。

MediaWiki用の書式をXHTMLに変換できそうですので、これでHTMLにして、通常のテキストに持っていくのが良いのでは?

id:h1r05h1

まさにこれです!!

ありがとうございます。

こういう記事もありますね。

http://journal.mycom.co.jp/news/2007/06/26/003/index.html

さっそく試してみます。

2007/06/27 20:03:12

その他の回答2件)

id:yamats No.1

回答回数247ベストアンサー獲得回数9

ポイント5pt

http://mito.xml.gr.jp/log.html?MLID=xmldesign&N=2003

http://otndnld.oracle.co.jp/tech/xml/htdocs/xml_ts/xml_ts3.html

http://www.kazusoft.com/howtoexport/transxml.html


XMLはとりあえず、HTML形式に変換すると作業が楽です。

ある意味、HTMK形式に変換すると、テキストに変換したのも同値なので。最後は、その逆の作業を行います。

ご参考ください。

id:h1r05h1

そこではなく、wiki記法を除外したいのです。

「xmlをパースして記事部分を取り出すことはできた」と質問に書いてありますので、そこから先をお答えください。

2007/06/27 02:21:59
id:yamats No.2

回答回数247ベストアンサー獲得回数9

ポイント5pt

http://www2u.biglobe.ne.jp/%7EMAS/soft.html

ご参考ください。


#HTMLに変換した時点でwiki記法は除外されます。

id:h1r05h1

ありがとうございます。

2007/06/27 02:56:26
id:tmasao No.3

回答回数77ベストアンサー獲得回数20ここでベストアンサー

ポイント100pt

wiki2xhtmlというツールがあるようです。

MediaWiki用の書式をXHTMLに変換できそうですので、これでHTMLにして、通常のテキストに持っていくのが良いのでは?

id:h1r05h1

まさにこれです!!

ありがとうございます。

こういう記事もありますね。

http://journal.mycom.co.jp/news/2007/06/26/003/index.html

さっそく試してみます。

2007/06/27 20:03:12

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません