http://goo.gl/D1zuhV
をやってみようと、wikipediaのダウンプデータを持ってきて、コマンドラインで叩いたのですが、画像のようなエラーがでます。
どうすればよいのでしょうか?
ロケールの問題だと思います。
Windowsだと標準がcp932になっていてutf-8のファイルをそのまま扱えないのでしょう。
なんとなく
import re
の前に
import locale locale.setlocale(locale.LC_CTYPE, 'ja_JP.UTF-8')
とでも挿入すればデフォルトが変更されて解決しそうな気がします。
もしくは、
with open('jawiki-latest-stub-articles.xml','r') as wiki_stub_articles:
を
with open('jawiki-latest-stub-articles.xml','r', encoding='utf-8') as wiki_stub_articles:
など、3ヶ所の「with open(~) as ~:」を「with open(~, encoding='utf-8') as ~:」と、読み書きがutf-8となるよう指定してみてください。
参考:
http://d.hatena.ne.jp/kakurasan/20101103/p1
http://docs.python.jp/3/library/io.html#text-i-o
http://docs.python.jp/3/library/locale.html#locale.setlocale
ありがとうございます!
2015/07/25 23:28:20読み込みの部分は解決できたのですが、肝心のコードが動かないですね。。。
出力されるCSVに何も書き込まれていない状態です。。残念。。