ページ

2016年3月10日木曜日

◆UTF8

ユニコード、UTF16、UTF8の概要はとりあえず判っているつもり。

ただ、実際にUTF8がどうエンコードされるのかは良くわかっていなかったのでちょっとメモしておく。
ネットで調べても意外と詳しい説明は無い。
まぁ、市町村業務などをやらないとあまり文字コードにこだわりはなかったりするのよね。

以下の様な説明があった。
http://i.yimg.jp/images/tecblog/2014-1H/Unicode/Unicode-001.jpg
image

そんなに詳しくなるひつようも無いので、日本語が主に使われるであろう3バイトのパターンを考える。

image

3バイト文字の場合、先頭バイトが1110で始まり2バイト目3バイト目は10で始まる。
ん~、それは解る。

ただ、「0800」のコードポイントが、
image
となるのはよく解らない。

色々考えてみて、こういうことかととりあえず理解した。
image

0 件のコメント:

コメントを投稿

私が最近チェックした記事