Charset

1. 基本情報

説明 文字エンコーディング
語源 CHARacter SET
根源型 CDATA
使用属性 charset

2. 解説

2-1. 概要

Charsetデータタイプはそのまま読むとキャラクタセットですが、実際には文字エンコーディングとか、文字符号化方法などと呼ばれるものを記述します。

厳密には、キャラクタセットは使用する文字をひとまとめにしたものを指します。エンコーディングは、数値表現しかできないコンピュータで、どの文字とどの数値を対応させるかという事をまとめた規則の事です。

2-2. 値の候補

一般的に有名で、よく使われるエンコーディングを挙げておきます。なお、将来性を鑑みて、UTF-8かUTF-16で文書を記述する事をお勧めします

UTF-8

8-bit Ucs Transformation Format。Unicodeを表現する手法の内の一つです。様々な言語を一つのキャラクタセットで扱える上、ASCII文字との親和性が高く、#x0から#x7Fまでの文字が1バイトで表現できる反面、日本語などの文字が3バイトや4バイトなどになってしまう欠点があります。

UTF-16

16-bit Ucs Transformation Format。Unicodeを表現する手法の内の一つです。日本語などが含まれるUCS2の文字は全て2バイトで表現する事ができます。この為、英数(#x0から#x7F)以外の文字を多く含む文書ではUTF-8より効率が良いですが、英数が多い文書ではUTF-8に劣ります。

Shift_JIS

Shift JIS。JIS (Japan Industrial Standard)規格を、Micsoroft社が拡張した、日本語用の規格です。WindowsやMac OSなど、多くのパソコンのOSで標準として使われています。ASCII文字との親和性も高く、日本語も常に2バイトです。

XHTML文書を書く分には気になりませんが、バックスラッシュ(#x5C)が含まれる文字があり、エスケープシーケンスが有効になる場面では厄介なキャラクタセットです。

EUC-JP

Extended Unix Code - JaPanese。UNIX系OSで広く使われている日本語用の規格です。ASCII文字との親和性も高く、日本語も常に2バイトです。

EUCでは日本語以外にも各国語の文字が使えるようで、EUC-JPはそれの日本語版です。

[Charset]
Published : 2006-03-26T09:00:00+09:00
Last Modified : 2007-02-10T09:00:00+09:00
Table of Contents : データタイプ目次
Index : データタイプ索引
Verified with : Valid XHTML 1.1
Copyright © 2006 - 2007  E+X.