いわゆる地雷文字の一覧。世界中にいろいろとありますなぁ。
非ユニコードな英語版のプログラムを、サードパーティーのバイナリパッチ系のリソースエディタで無理矢理日本語化した場合、0x5cを含むキャラクタ(例:能)がデータに含まれていると、予期しないプログラムのクラッシュを含めて問題が起こります。結局のところ非ユニコードのプログラムはローカルの環境でコンパイルし直さないといけません。運がいいと大丈夫ですけどね。
本文中でリンクされているギリシア文字の”σ”U+03C3についての話はいろいろと考えさせられます。そして日本語の場合は問題がもっと複雑です。
文字列のソートは日本語の場合かなりセンシティブで、文字コードベースの比較、WindowsのNLSでのコレーションによる比較、SQL Severでの各コレーションでの比較の場合いずれも違う結果が得られます。そしてそれぞれ問題があります。日本語でのソートの問題については16日にPASSJアフタースクールでおがわみつぐさんの講義があるので、興味のある方は参加してみてはどうでしょう。
PASSJアフタースクール 6月16日
http://blogs.sqlpassj.org/afterschool/archive/2007/06/07/23572.aspx
コメント