※text型の制約でバイト単位でカットされ末尾に不完全な文字列が発生しました。
【環境】
MySQL 5.0.87(Tritonn 1.0.12)
データ型textに65,535バイト以上のマルチバイト文字列をINSERTしたレコードが大量にある。
ujisで格納されている。
【やりたいこと】
ujisで格納されているレコードをcsvでエクスポートしNKFでutf8変換しインポートしたい。
エクスポートの際、となりの文字列と繋がって文字化けが発生してしまう。
・漢字エリア
上位1バイト 0xa1~0xfe
下位1バイト 0xa1~0xfe
・半角カナエリア
上位1バイト 0x8e
下位1バイト 0xa1~0xdf
http://charset.7jp.net/euc.html
最終のバイトが0xa1~0xfeの時だけそれが切れたものかどうかを判断して
切れたものならそのバイトを捨てる
回答とは関係しないのでポイントは不要で結構ですが。ujisをutf-8に変換するとビット長が長くなりますから、かえってデータを失うことになりませんか。
ご確認下さい。