TungstenCで改善を期待(1) 〜UTF-8の表示

UTF-8で文字化け

TungstenCを気に入って毎日弄っていますが、不満な点がいくつかあります。TungstenCの(あるいはPalmやPalmwareの)ココが改善されたらいいのになぁ、ということについて書いてみたいと思います。ただし、そういった不満は簡単に解決できるのに私が知らないだけだったり、私の思い込みで機能を使いこなせていないだけかもしれません。もしご存知の方はコメントなどいただけますと幸いです。

UTF-8なサイトが表示できない

無線LAN環境でTungstenCのXiinoを使ってウェブ巡回をしますが、文字化けするサイトがあります。いわゆるUTF-8なサイトです。ホームページのほとんど全部が読めない場合があって、巡回の楽しみが半減してしまいます。XiinoがUTF-8表示に対応するか、Xiino以外の正規のブラウザが発売されることを期待しています。
こういった“文字化けの悩み”については、PocketPCリナザウでは経験した記憶がありません。なので、TungstenCを使い始めた当初は、何が起きたのかよく理解できませんでした(笑) Xiinoのインストールを失敗したかな?とか思ったり。クリエなどの日本語版Palmだとこういった文字化けの問題はないのかもしれませんね。

それでも、表示する方法

Hearts and Bonesのkyoさんのところで、いいエントリを読ませていただきました。

基本は「ぱむあん J-OS版」経由でアクセスをすること。ここを経由すれば、S-JIS変換用CGIを通るので、他の文字コードでも問題なく読むことができる。

これは私も実践していました。TungstenCのXiinoでもサイトが文字化けしないので、ほんと有り難いです。問題は「ぱむあん J-OS版」さんに登録されていないサイトでした。しかし、、、

ぱむあん J-OS版経由で遷移した先のサイトのリンクから次のサイトに遷移すると、そこがUTF-8のサイトでも読むことができます。

これは知りませんでした。さっそく試してみますとバッチリ読めました!私の場合は、「ぱむあん J-OS版」→「cooldadのアンテナ」→UTF-8なサイト、の順でタップしていくことで文字化けしませんでした。自分が巡回したいブログサイトは、はてなアンテナに登録しているので、これでほぼ問題ありません。

UTF-8とは?

ちょっと調べますと、「8-bit UCS Transformation Format」の略で、「ユーティーエフ はち」と呼ぶようです。
http://e-words.jp/w/UTF-8.html

UCS-2やUCS-4(Unicode)で定義される文字集合を用いて記述された文字列をバイト列(数値の列)に変換する方式の一つ。UTF-8では1文字を1〜6バイトの可変長の数値(バイト列)に変換するようになっているが、現在定義されているUnicode文字をUTF-8で表現した場合、最長で4バイトのバイト列に変換される。

http://www.ffortune.net/comp/develop/data/utf.htm

UTF-8とは要するにUnicodeの世界をASCIIの世界に押し込むための仕様である。Unicodeがそのまま使用できると(BMPの)全ての文字が16bitで取り扱うことができて、ひじょうに便利なのだが、どうしても8bit単位で考えたい場面も多いし、そもそも現在数字や英字などを8bit単位で処理できているものをわざわざ16bitにしてしまうとコンピュータの処理速度も大幅にダウンする。そこで極めて不愉快なこういうコードが生まれてしまったのである。

http://mlang1.osaka-gaidai.ac.jp/~tagengo/link_faq/faq.html

UTF-8 とは、ユニコード Unicode (世界中の文字を重複することのない単一の記号で指定することにより、異なる環境でもデータが共有できるようにする文字コード) の表記方法の一つです。世界のさまざまな文字を混在させるための、標準的文字コードとなっています。

意味が分かったような気になりますが、やっぱりよく分かりません(笑)