文字コード、文字セットとエンコードの調査

ただのメモ書きです。

文字コード、文字セット、エンコードはややっこしい。

もともとWebを多言語対応させる為の話から始まった。対象言語は日本語、英語、中国語(繁体字、簡体字)、韓国語だ。ISOでも表示出来るがUTF-8でのエンコードが必要など、何だか判らない話なので、自分でも調べ始める。

この話は単純に静的なHTMLで中国語とか韓国語を表示する話ではないので面倒です。既に大型コンピュータに蓄積されているデータもHTMLに含んでの表示、更新もあり、ブラウザーからの入力もあります。
つまり本格的な多言語でのエンコードの混在の問題です。

定義
1.文字セットとは
当用漢字とか常用漢字とかの文字の集合体の定義のようです。ここは本来はコンピュータ以前のようです。
2.文字コードとは
要するに、文字をコンピュータで扱うための文字・記号に割り当てられた数字の規則のようです。ASCIIとかJIS X 0201だそうです。確かにJISコードと言いますね。
3.エンコードとは
文字符号化処理(方式)。文字セット中にある文字 ("A" や "あ") を、文字コード ("0x41" や "0xA4 0xA2") に対応させる処理でSJISとかEUCとかだそうです。

参照 http://www.studyinghttp.net/charset


下記が主な情報源。これから情報の整理に入ろう。整理できるのかな?

文字コード、文字セット、エンコードの説明
http://www.siisise.net/charset.html

複数の文字コードをformからCGIへ送信する方法
http://www.hicat.ne.jp/home/tomcre/search/zatu/charset.html

日本語と文字コード
http://www.kanzaki.com/docs/jcode.html

小塚 敦さんのmikeneko.ne.jpの記録
あちこちからリンクされて文字系の情報が沢山ありますが、ご本人が亡くなられてサイトを閉じされたようです。現在ではGoogleのキャッシュから参照できます。
Unicode のエンコーディング
http://www.google.co.jp/search?q=cache:XAjBR3utoCEJ:www.mikeneko.ne.jp/~lab/kcode/uni-encode.html++%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%89+site:www.mikeneko.ne.jp&hl=ja

文字セットの種類
http://www.google.co.jp/search?q=cache:-fdlhwHMLqUJ:www.mikeneko.ne.jp/~lab/kcode/jiskanji.html+site:www.mikeneko.ne.jp+%E6%96%87%E5%AD%97&hl=ja

文字コードリンク
http://www.google.co.jp/search?q=cache:cTd2ZBLK9SkJ:www.mikeneko.ne.jp/~lab/kcode/link.html+site:www.mikeneko.ne.jp+%E6%96%87%E5%AD%97&hl=ja

文字コードのはなし(大阪外語大の
http://mlang1.osaka-gaidai.ac.jp/~tagengo/multi/char_code.html

加藤弘一氏の素晴らしい文字コードの解説。歴史的な流れが判る。
http://www.horagai.com/www/moji/2000a.htm
[PR]
by maida01 | 2004-10-05 11:16 | IT系
<< 1つのPCで複数のブラウザで正... ネットでのVODサービス >>