見出し画像

よっこらしょ (もじもじ2)

もじもじ1の続きです。

さて、外字や文字について取り組もうということになったのですが、個人的に国語って教科が大嫌いで、漢字テストとか本当に嫌だったのですが、なんだか、行きがかり上、取り組まなければならなくなってしまいました。

そもそも、たまにコンピュータで表現できないからと必要になるギザギザの外字ってなんだよと思ってました。当時は、16×16のメッシュに白黒のオンオフで表現するので以下のようなイメージです。

外字イメージ

気の利いたコンピュータだと、この文字にスムーシングしてくれるので多少滑らかになるのですが、明らかにギザギザでした。

取り組みのスタート

そうはいっても現場最大の課題なので、年度が明けた2009年4月からぼちぼち検討を始めようとしました。でも、スタートからあまりの難解さから情報整理から始めなければいけませんでした。そもそも、外字ってどのくらいあって、どのような文字体系があるのか、今までどのような取り組みをしてきたのか、調べることがたくさんありました。昨年度の研究会で現場の苦労はわかったのですが、そのような全体像がつかめていませんでした。

また、取り組みを始めようとすると、今までたくさんの失敗の歴史があるからやめた方が良いとか、政治的にセンシティブだからやめた方が良いとか様々な助言があり、調べてみると、そのような情報もさまざまあることもわかりました。

長期的に必要で誰かがやらなければいけない

一方で、難しいからできないというのはどうなんだろうという思いもあり、検討を進めることにしました。

また、もう一つの大きな要因は住民基本台帳の存在です。この頃は、住基ネットにつなぐかどうか、カードをどうするかでもめており、国民ID反対のような批判をする人たちもたくさんいました。

しかし、行政のサービス向上や効率化のためにはいつか必ずIDの話が出てきます。その時に、個人に番号は一意でついているけど氏名は正しく表すことができなかったら、きっと今反対している人は「私には名前がある。番号ではない。」という声を上げるだろうと思いました。

そう考えると、2014年に国民IDという計画のある中で、それまでに何とか解決しなければならないという問題意識が強くありました。(その後、文字情報基盤ができたのが2011年10月ですので、2015年10月のマイナンバーの通知カード開始に十分に間に合っています)

ところで外字って何?

外字と一般に言われますが、機器によって外字の範囲は違います。その機器に標準もしくはオプションで搭載されていない文字が外字になります。

一般的な機器は最新のJISに従い1万文字くらいの文字が入っていますが、戸籍の氏名文字では6万文字使われています。この1万文字に入っていなくて、その機器に追加された文字を外字と言います。基本的に機器間の交換はできません。また、検索もできません。

国会議員は、外字が公開されているので、そこから推定すると国民の5%が氏名に外字を含んでいます。現在は戸籍の届け出で名に使える文字は制限されているので、将来的には2-3%の人が氏に外字を含むと考えられます。

外字の推計

ところで6万文字とか1万文字とか何?

もうマニアにしかわからない話題ですよね。みなさんは生活の中でどのくらいの文字を使っているのでしょうか。義務教育で習い、だれでも使えると言われる文字が常用漢字で約2400文字、古い機器で使われるJIS第2水準で約6000文字、文字JIS第4水準と言われる現在の一般的な機器で使用できる文字が1万文字です。ちなみに、漢字検定1級が6000文字と言われています。

じゃあ6万文字って何なのよという話になりますが、戸籍統一文字と言われる文字です。これは国内の主要漢和辞典のほぼ全ての文字の集合です(ほぼ全てというのは改定などもあるため)。戸籍統一文字といっても戸籍氏名に必ず使われているわけではありません。

戸籍文字例

さて、いくつ見たことがあるでしょうか?ここで意味深なのが上から2行目の北です。ヘンが少し違う北が2つありますね。一般の明朝体では左の北が出てきて、教科書体にすると右の北が出てきます。常用漢字表では左の北が使われますが、学校の試験でこの北を書くと×になることがあるそうです。学校の漢字のテストって上の横棒を長くとか細かく採点されるけど、実際には、このくらい文字には揺らぎ(デザインの差)があります。

文字の階層構造

同じ文字かどうかとか揺らぎという話をするには文字の階層構造w知る必要があります。文字には、「字種」「字体」「字形」という3つのレベルがあります。「字種」は音義が共通の「字体」のグループです。「字体」は、あーあの文字ねと人間が脳裏でイメージする抽象的な文字の形です。「字形」はフォントなどのデザインの差になります。

字形のイメージ

このデザインの差については常用漢字表の「(付)字体についての解説」に詳細に書かれています。

上記の「学」デザインはほぼ同じですが、先ほどの「北」のようにデザインの差をすべて収録すると非常に多くの文字を扱わなければいけないことになります。

戸籍の文字には、さらに、誤字や俗字が含まれるので全体が複雑になっています。

何が困るの

このように外字や文字の曖昧性があると何が困るのでしょうか。この議論をしていた当時は、その作成コスト、管理コストが大きな課題でした。また、違う文字で料金の請求をすると、それは自分ではないと請求書の受取を拒否することなども発生していました。そういうことへの対応コストもかかります。(最後は手書きで書いて解決していたところもあります。字が違うのではなく癖字の問題にしてしまう)

さらにデジタルガバメントの時代になると自動照合ができないという問題も発生してきます。申請書とデータベースの字が合わないといった問題が処理を遅らせることになりかねません。

あとは、誤字をなくしたりデザイン差の考え方が入ると、姓名判断が好きな人が困るという話もありますが、これはどうでもよい話ですね。

この記事が気に入ったらサポートをしてみませんか?