見出し画像

データ通信の歴史#10

2-1 デジタル信号

 コンピュータはデジタル(0と1)で表させれている

図のようにLED消灯(OFF:0)、点灯(ON:1)のように
LED1個(1ビット)では2つ状態を表すことができる
 上記図のようにLED 2個では2ビット(4通り)を表すことができる、
位(1ビット目は、2ビット目は2)を付けて表現する(1ビット目X1、
2ビット目X2すると0,1,2,3)

 数字(0-9:10通り)1桁を表すには左記表のように4ビット
(16通り)が必要になる
 数字2桁(0-99:100通り)には7ビット(128通り)が必要
になるように大きな数値を表すには多くなビットが必要になる

※ コンピュータでは8ビット=1バイトを単位として扱われる

 コンピュータで数値を表現するのと別に文字情報を伝達するには、
情報を符号化することが必要です。
 そして大切なことは、この符号化は、どんなコンピュータでも共通に
情報を伝送できるように、統一されていなくてはならないということです。
 国際的に統一された符号を、標準符号といいます。
 標準符号とはいうものの、その用途や使用する各国によっていろいろな
種類がありますが、もっとも一般的なものにはISO(国際標準化機構)や
CCITT等の勧告をもとに符号化の方法が設定されています。
 わが国でも国際勧告を基に、JIS (日本工業規格)において、
 7単位のコードと81単位のコードを定めています、
7単位とは、7ビットを使って一文字を表し、
 8単位とは8ビットを使います。
例えば、7ビットなら2の7乗で128ですから、128種類の文字を表す
ことができます。
 8ビットなら2の8乗で256ですから、256種類の文字を表す
ことができます。
 8ビットでは(数字(10)、英小字(26)英大字(26)、カナ(469、
記号(通信制御記号を含む)(43))表すことができる

 コンピュータでは8ビット=1バイトを単位として扱われる

 漢字を表現するには16ビット2バイトが必要になる

 JISでは漢字の始めと終わりに制御コードをつけて1バイト文字と区分
していましたがSiftJISではキーボードの1バイト文字に使われて
いない、コード「81~9F」と「E0~EF」を2バイト文字の1桁目に使い、二桁目は「40~FC(7Fを除く)」の組み合わせで決められています。
1桁目のコードが「81~9F」と「E0~EF」なら続くもう一桁を結合させ漢字に変換し、そうでなければ1バイト文字として処理します。そのため漢字の始めと終わりに制御コードが不要になりました。
2バイト目にはキーボードの1バイト文字に使われていない部分があるので一部の文字があると文字化けをすることがあります。

UTF-8とは
UTF-8は、Unicodeで定義された符号化文字集合をバイト列に変換する方式の一つです。
JIS8単位Iコードと互換性をもたせた規格となっているので、
多くのソフトウェアで使われています。

UTF-8の仕組み
UTF-8の最初の128文字は、JIS8単位Iとまったく同じです。
JIS8単位は1バイトで表現されますが、漢字や仮名文字は3バイト、
もしくは4で表現されるので、データサイズはUTF-16(2バイト表現)より大きくなります。

「Unicode は、コンピューターでテキストを表現するための業界標準です。テキスト、絵文字、記号など、世界中のすべての文字を単一の文字コードでエンコードします。
これにより、さまざまな言語やプラットフォーム間でテキストを簡単に共有できます。

この記事が気に入ったらサポートをしてみませんか?