▽1
●
TransFreeBSD ●100ポイント ベストアンサー |
ロケールの問題だと思います。
Windowsだと標準がcp932になっていてutf-8のファイルをそのまま扱えないのでしょう。
なんとなく
import re
の前に
import locale locale.setlocale(locale.LC_CTYPE, 'ja_JP.UTF-8')
とでも挿入すればデフォルトが変更されて解決しそうな気がします。
もしくは、
with open('jawiki-latest-stub-articles.xml','r') as wiki_stub_articles:
を
with open('jawiki-latest-stub-articles.xml','r', encoding='utf-8') as wiki_stub_articles:
など、3ヶ所の「with open(?) as ?:」を「with open(?, encoding='utf-8') as ?:」と、読み書きがutf-8となるよう指定してみてください。
参考:
http://d.hatena.ne.jp/kakurasan/20101103/p1
http://docs.python.jp/3/library/io.html#text-i-o
http://docs.python.jp/3/library/locale.html#locale.setlocale