文字化けの原理 (豈取律譌･險倥ｒ譖ｸ縺 ??7譌･逶ｮ??)

2023年10月17日 05:45

DCX縺ｧ縺吶?ゆｻ頑律譁咏炊繧偵＠縺ｦ縺?◆繧峨?∫?縺上↑縺｣縺滄豪縺ｮ闢九?豺ｵ繧定ｧｦ縺｣縺ｦ縺励∪縺??∝承謇九?隕ｪ謖?ｒ轣ｫ蛯ｷ縺励※縺励∪縺?∪縺励◆縲ら坩閹壹′逋ｽ縺上↑繧九⊇縺ｩ縺ｮ轣ｫ蛯ｷ縺ｯ蛻昴ａ縺ｦ縺ｧ縺吶?ゅ★縺｣縺ｨ菫晏?蜑､繧呈焔縺ｫ蠖薙※縺ｦ縺ｾ縺吶′縲∝ｰ代＠縺ｧ繧る屬縺吶→邨先ｧ狗李縺?〒縺吶?ゅ＠縺ｰ繧峨￥髻ｳ繧ｲ繝ｼ縺ｧ縺阪↑縺?ｺｫ菴薙↓縺ｪ縺｣縺｡繧?▲縺溘?縺医?

お使いのブラウザや端末は正常です。あえて文章を文字化けさせて入りを書いてみました。

文字化けとは、コンピュータ上で、文字をコンピュータに理解できる数値に変換する方法の不一致によって発生するものです。

文字をコンピュータに理解できる数値にする方法は複数あって、有名なものはUTF-8、Shift-JISの2種類です。文字を数値に変換するときと復元するときで別の方法を使った場合、うまく復元できず文字化けが生じるというわけです。

上の文字化けした長い文は、

DCXです。今日料理をしていたら、熱くなった鍋の蓋の淵を触ってしまい、右手の親指を火傷してしまいました。皮膚が白くなるほどの火傷は初めてです。ずっと保冷剤を手に当ててますが、少しでも離すと結構痛いです。しばらく音ゲーできない身体になっちゃったねえ。

という文を本来UTF-8の形で書いたものを、Shift-JISで復元したことで発生した文字化けです。以下のサイトで作成しました。

ところで、文字化けしたときにかなりの頻度で見かける文字があります。「縺」とか。ちなみにこれは「縺れる」と書いて「もつれる」と読むらしいです。どうしてこの文字が多くみられるのでしょうか？

ちょっとだけ技術的な部分を説明します。まず前提として、UTF-8は全角文字1つを3バイトで表します。対するShift-JISは全角文字1つを2バイトで表します。

例えば、UTF-8の「あ」は内部の表現では「e3 81 82」となっています。これが文字「あ」に対する値です。一方、これをShift-JISで復元する場合を考えます。コンピュータは数値で表された「e3 81 82」を持っているので、Shift-JISのルールに従ってこれを全角文字に変換しようとします。Shift-JISでは1文字は2バイトで表されるので、最初の2バイトの「e3 81」をまず見て、全角文字に変換します。すると、Shift-JISで「e3 81」に対応する文字は「縺」になりますので、「縺」を復元します。

こちらのサイトなどで、文字コードの種類と、それがコンピュータ内でどのような数値として扱われるかを調べられます。

https://www.ahref.org/mojicode.php

これで調べると、日本語のひらがなはすべて「e3 81 〇〇」という形式になっています。これをShift-JISで復元する場合、最初の2バイトの「e3 81」をまず復元するため、「縺」が復元されます。つまり、

日本語のひらがなはすべて、復元したときに「縺」が出てくる

ようにコンピュータによって変換されているのです。したがって、日本語の文章が文字化けしたときには「縺」が多く出てくるのです。

他にも、似た種類の文字(感じなら、同じ部首で部首以外の画数が同じ等)ならUTF-8でエンコードしたときの数値の最初の2バイト(さっきでいう「e3 81」の部分)が同じになっていることが多く、それと対応するShift-JISの文字が変換によって発生するため、「文字化けで出てきがちな文字」が存在するのです。

コンピュータの世界では、文字を数値として扱う方法が複数あるということに注意しないといけません。それではまた。

文字化けの原理 (豈取律譌･險倥ｒ譖ｸ縺 ??7譌･逶ｮ??)

いいなと思ったら応援しよう！