見出し画像

脱ヒューマンエラーは無理!ある前提で電子システム+非電子システム化せよ

 ヒューマンエラーは無くならない。熟練者も徹夜だとポカミスはするだろう。その確率を減らすのが電子システムでありDXなんだと思う。

<課題>

住所・氏名など4情報をAI-OCRで解決できるか?

 結論から言うと「ヒューマンエラーを少なくできる」だけであって、ゼロにはならない。ただ、今よりマシであるというのが私の意見である。
 ちなみに、私はAI-OCRは嫌いですね。AIでも何でもなく、統計学の領域を超えていないし、認識率あたりを変えれば何とでもなるし。そういう意味でも、なくならない。必ず複数の候補から人が選択する作業は強いられるデータは発生する。
 でも、手や目視作業が減れば、怪しいものは熟練度なども加味して、ある条件だけ他の人で見るとなれば、ヒューマンエラーは減ると思う。

日本の住所表記の正規化・名寄せがTwitter上で話題になっている。きっかけとなったのは河野太郎デジタル大臣がテレビ番組で発した「AIを使って表記揺れを判断することがあり得るかもしれない」という言葉。これに対し、ネット上ではさまざまな議論が巻き起こっている。
 Twitter上では「住所の揺らぎ程度のことでAIは不要」という意見が見られた。これに対して、ITエンジニアなどからは「住所の表記揺れはすぐ解決できる問題ではない」などと反論の声が上がり、「日本住所のヤバさをもっと知ってほしい」と訴えるユーザーも多数見られた。
(略)
そもそも住所の表記揺れとは「誤字ではないが、同じ意味、同じ読み方であるにもかかわらず使っている文字が違う状態を指す」(ゼンリン)という。具体例として、以下に3つの例を挙げた。
 1つ目は「丁目・番地表記の省略(ハイフンで表現)や半角・全角表記の違い」だ。例えば、住所表記には「1丁目1番1号」と「1-1-1」のように、丁目・番地表記と数字とハイフンで表す2つの表記がある。「1-1」と書かれている場合、それだけでは「1丁目1番地」の可能性も「1番地1号」の可能性も否定できない。
 さらに数字ならアラビア数字・漢数字の揺れ、半角・全角の揺れもあり、ハイフンなら伸ばし棒(ー)、横棒(━)、ダッシュ(―)などと混ざる。例えば、固有名詞の伸ばしい棒はそのまま、ハイフンにすべきところだけ適切に修正する必要がある。
 次に考えられるのが「読みは同じだが使っている文字が異なる」という場合だ。例えば「自由が丘」(じゆうがおか)の住所ならば、「自由ヶ丘」「自由ケ丘」などに表記が揺れている場合があるという。

ヤバいと話題の“日本の住所表記” 何がそんなに大変? ゼンリンに聞いた
https://www.itmedia.co.jp/news/articles/2306/13/news113.html

 あと外字問題もね。


この記事が気に入ったらサポートをしてみませんか?