No214 「はしご高」という異体字

「はしご高」という俗語をご存知でしょうか?

これは「高」という漢字でありながら、少々書き方が異なっていて
なべぶたの下の部分が「口」ではなく上から下までつながった文字
のことを示します。

残念ながらメールではこの文字が表記できない(その理由は次回
以降に解説します)のですが、Googleで「はしごだか」で検索して
いただければ、実際の字形がご確認いただけます。

このように意味は同じだけれど字形(グリフ)が違っている文字の
ことを異体字と呼びます。数え方にもよりますが、異体字は数万
種類もあります。

ところが、ほとんどの異体字はコンピュータやネット上で正しく
表示できません。

どうしてこんなことになっているのでしょうか?

今回から数回に分けて、文字コードというものについて解説を
します。


1. 文字なんて情報セキュリティと関係ないでしょ?

確かに直接は関係しないのですが、それでも文字情報というのは
情報の中でも基本中の基本です。

その意味で情報セキュリティにも決して無関係とは言えません。

また、コンピュータやインターネット上で扱われる文字を知り
その使い方を知ることは、膨大な文字種を扱う日本人にはとても
とても大切です。

こういった文字の扱いに関しては非常に興味深い情報が多いのも
事実ですので、皆さんにも是非知っていただきたいと思います。


2. 情報処理上の文字の扱い

情報処理を行うためには、扱う全ての文字にコードポイントなどと
呼ばれる番号を与えます。
この一定のルールにそって、コードポイントを決めた文字グループ
のことを文字セットとか文字コードと言います。

文字コードの種類はいろいろとあり、日本語に関してはJIS(日本
工業規格)という団体が制定した文字コードが利用されています。

日本国内でも英数字やカタカナは比較的古く(1960年代)に規定
が行われましたが、漢字についてはあまりに膨大な量であるため、
誰も手が出せないでいました。

漢字のコード化は1978年になって日本のJISによってC 6226 という
規格が規定されました。これは世界初の快挙でした。
ここで決まったコードポイントのほとんどは、2021年現在も使われ
続けています。

また、国際的な文字コードとしては、現状ではUNICODE(ユニコード)
コンソーシアムが主導するUNICODEが事実上の標準規格です。
UNICODEでは、欧米の言語だけでなく、日本語、キリル文字(ロシア
語など)、アラビア文字など世界中で使われている文字を網羅しよう
とする文字コードです。

だからと言って無秩序に各国の文字コードを加えるわけにはいきま
せんので、各国の代表者がその国の標準規約を持ち寄って共同で
文字の採択を行っています。

と言いながら、UNICODEコンソーシアムの協議の場は決してきれいごと
だけで進むわけではありません。いわば外交と同じで、各国の思わく
がからんだ情報戦の場となっています。


3. 異体字というもの

そもそも昔は文字というのは手書きでした。
ですから、同じ文字でも人によって微妙に書き方が異なるのはごく
当たり前の話でした。(ある人は「止め」で書くが、ある人は
「はねる」で書く、ある人はしんにょうの点が1つだが、別の人は
2つである、など)
ですので、文字コードを決めるにあたっては、どの程度の違いまで
を同じ文字とみなすかのルールを作る必要があります。

そのルールのことを包摂と呼びます。
そして、この包摂によって結果的に異体字は同一視されることに
なります。

なんだか、乱暴な話ですよね。
だって、書き方が違う文字なんですから別の文字として登録でき
ても良さそうじゃないですか。

自分の姓名が正確に表示できないことに不満を持っている方は
非常に 多いのですから、全てを登録しておくことに何の問題も
なさそう に思います。

どうしてこんなルールになっているのでしょうか?


4. 異体字を認めると不都合が多い

異体字を認めてしまうとどうにも不都合が多いのがその原因です。

例えば、渡辺さんという名前があります。
この姓で使われている辺という字は異体字が多いことで有名です。
「渡邊」さんや「渡邉」さんという字を見たことがある方も多い
でしょう。
1970年代に電算化(当時コンピュータ化を進めることをこう言い
ました)を積極的に進めていた役所の戸籍係さん、渡辺さんの異体
字だけのために、何十もの外字(標準字体にないデザインの文字を
自分で作ること)を登録していたとか。

こんなのを全て別の文字として登録しちゃうと、データベースから
「渡辺」さんを探すのが恐ろしく難しくなります。
だって、何十ものパターンで検索しないといけませんから。

それに、登録する時だって大変です。
あんまり似かよった字がたくさんあれば、当人ですら間違った字で
登録しかねませんし、他人が代理登録するとなるとさらに誤登録率
が増えます。
そうなると存在しない人を登録してしまったり、当人が検索しても
出てこないなどと、不必要な問題が出てきてしまいます。

問題はこれだけに留まりません。

新しい異体字が見つかり、それが新たに文字として登録された場合
を考えてみます。

この場合、新しい異体字を使う渡辺さん(渡辺Aさんとしましょう)
は嬉しいですよね。
だって、今までは正しい字がなくって違うなぁ、と思いつつ似た
文字を使うしかなかったのですから。

ですが、本当にそれで万事解決、でしょうか?

「渡辺A」さんが「間違っている」と思いつつも今まで登録して
きた全データは厳しく言えば偽名になってしまいます。

だからといって、これまでに渡辺Aさんとして登録された全
データを修正するなんてできるはずがありません。

結局、「渡辺A」さんは登録時期によって間違った「渡辺」さん
のデータと正しい「渡辺A」さんのデータが混在することになら
ざるを得ないのです。

せっかく全ての人が正確な文字で登録できる環境を整えたのに、
実際には誤字だらけという悲しい結果にならざるを得ないのです。

文字コードというのは各個人のためにあるのではなく、社会基盤と
して情報共有が容易に行えることを第一に設計されています。
そう考えると、全ての異体字を別の文字として網羅することは
メリットよりもデメリットが大きいので、異体字は包摂するという
ルールが定められたのです。


5. でも旧字体(學、樂、圓)は使えるじゃない!

これを読んで異和感を持つ方もいるかと思います。

旧字体と呼ばれる文字は文字コードにちゃんと含まれているでしょ!
名前の漢字はダメなんて片手落ちだ!

おっしゃることはわかりますが、それは誤解というものです。

異体字というのは、上でも書いたようにもともと手書きが主体
だった時期の略字や別の書き方をする文字のことです。
異体字の多くは、印刷物には使われていなかった文字なのです。
いかにも昔から使われてきた印象の強い「はしご高」ですら
実際には印刷物で使われたことはほぼないのです。

一方で、旧字体は以前は印刷物に使われていたもので、かつての
公式な文字となります。

旧字体が新字体になったのは戦後の漢字政策の話になります。
1945年に敗戦となった後、日本国内では漢字制限論が広く主張され
ます。その中で「当面は用いてもいい漢字」という意味の「当用
漢字」が制定されます。

余談
 GHQは漢字撤廃を求めていたそうですが、「いきなり漢字全廃は
 国民の確実な反発を招く。だから当面は用いてもいい漢字を定め、
 時期を見て除々に全廃に持っていくべきだ」と主張し、それが
 認められた結果が当用漢字です。だから「当面は用いてもよい」
 なんですね。
 現在は当用漢字は廃止され、常用漢字に変わりました。
 こちらは「国民生活で常用する漢字の基準」ということになり
 制限色は全くなくなっています。
 現在も新聞に見られるひらがなまじりの単語(改ざんとかねつ造
 など)は当用漢字による漢字制限論の傷痕と言えます。
 この当用漢字という妙案のおかげで日本人は漢字を喪失すること
 がありませんでした。
 韓国では自らの判断で漢字を廃止し、一般国民は既に自国の古典
 が読めなくなっているそうです。
 漢字を覚えるのはホントに大変ですが、それでも日本人は賢い
 選択をしたと筆者は思います。

さらに、漢字学習の負担を減らすため、1949年には当用漢字字体表
というのが決められ、戦前からあたためられていた漢字の簡易化を
実際に行いました。これが現在の我々が日常的に使う漢字(新字体)
です。

余談
 この新字体の簡略化は実に安易なものであったため、逆に事態を
 複雑にしました。
 例えば、半という字があります。
 旧字体では上の2つの点を/\と書いていましたが、新字体では
 \/と書くようになっています。
 実際、「判」や「伴」はその通りに表示されます。
 ですが、絆(きずな)や襦袢(じゅばん)は旧い字形のままです。
 これは、上述の当用漢字字体表に含まれない文字が簡略化の範囲
 から外れていたためです。

ですので、旧字体は異体字ではなく別の文字として文字コードが
与えられているのです。もっとも、包摂基準によって同じコードと
なっている文字もありますが。


6. まとめ

「はしご高」と呼ばれる異体字というものがあります。
文字を手書きする時に、印刷の活字とは異なる字体でラクに書ける
ように工夫した文字などがその主体です。

ところが、現在のコンピュータではこういった文字が正しく表示
できないことが非常に多いのです。

その原因は文字コードを規定する時に異体字を包摂というルールで
除外(というか同一視)している点にあります。

異体字を別の文字として認めてしまうと、文字種が無制限に増え続
けてしまうだけでなく、正しい異体字を選択することの難しさや
検索でのヒット率の低下など、利便性の低さが問題となります。

文字コードとは社会基盤の一部ですから、個人の不便さ(正しい
文字が表記できない)よりも社会的なメリット(検索が容易)を
重視することになります。

一方、異体字と似たものとして、旧字体というものがありますが、
こちらは、以前は正式な文字として使われていたのものが、時代の
要請により新字体に変更した結果、旧字体となったものです。

異体字と異なり、旧字体の多くは異なる文字コードとしてコード
ポイントが割り当てられています。

さて、今回は異体字と旧字体の話だけで終わってしまいました。

次回はこの話をベースに、異体字を表示するための方法とその限界
について解説をします。

次回もお楽しみに。

このNoteは私が主宰するメルマガ「がんばりすぎないセキュリティ」からの転載です。
誰もが気になるセキュリティに関連するトピックを毎週月曜日の早朝に配信しています。
無料ですので、是非ご登録ください。
https://www.mag2.com/m/0001678731.html

この記事が気に入ったらサポートをしてみませんか?