今開発しているWEBアプリの内部コードをUTF-8にした方がいいのか迷っていますが、これまでEUC-JPで作っていましたが、どこかでこれまで通りの文字コードで作る方が無難なのではないか、という気持ちが強く、踏み切れないでいます。
UTF-8にしないことのデメリット、またUTF-8にする上での注意点などを教えてください。
たとえば、UTF-8にしたときにデータベースに入れない文字など制限を掛けたりするものでしょうか?
●UTF-8にしないことのデメリット
・JIS X 0213(JIS第3水準・第4水準)を扱うことができません。
・(将来的に)多言語対応にするのが困難です。
・XMLなどでデータの入出力をするのはUTF-8が標準になりつつあるので、内部コードに置換するためのオーバーヘッドや、コード変換不可文字(および変換ミス)が発生します。
●UTF-8にする上での注意点
・Linuxだと、古い外部コマンドはEUCにしか対応していないことがあるので注意が必要です。
・DBの設定をUTF-8にする必要があります。
・DBに入れる文字種の制限は、UTF-8に限らず、EUC-JPでも不正文字は入れられないようにチェックすべきです。
・UTF-8は不定長バイト列になります。DB設計などデータ長が関わってくる設計で注意して下さい。
●UTF-8にしないことのデメリット
・JIS X 0213(JIS第3水準・第4水準)を扱うことができません。
・(将来的に)多言語対応にするのが困難です。
・XMLなどでデータの入出力をするのはUTF-8が標準になりつつあるので、内部コードに置換するためのオーバーヘッドや、コード変換不可文字(および変換ミス)が発生します。
●UTF-8にする上での注意点
・Linuxだと、古い外部コマンドはEUCにしか対応していないことがあるので注意が必要です。
・DBの設定をUTF-8にする必要があります。
・DBに入れる文字種の制限は、UTF-8に限らず、EUC-JPでも不正文字は入れられないようにチェックすべきです。
・UTF-8は不定長バイト列になります。DB設計などデータ長が関わってくる設計で注意して下さい。
回答ありがとうございます。とても参考になります。
JIS X 0213はEUC-JPwinでも扱えると思っていましたが、いかがでしょうか。
それと「不正文字は入れられないようにチェックすべきです。」とのことですが、不正文字とは具体的にはどのような文字のことなのでしょうか。
UTF-8にした場合の注意点を2つ。
Webで利用される文字コード、UTF-8がもうすぐ50%を突破 (2010年)
デメリット:
回答ありがとうございます。とても参考になります。
2013/04/10 13:36:00JIS X 0213はEUC-JPwinでも扱えると思っていましたが、いかがでしょうか。
それと「不正文字は入れられないようにチェックすべきです。」とのことですが、不正文字とは具体的にはどのような文字のことなのでしょうか。