見出し画像

OCRを自社開発しハガキ情報の入力時間を1/4に短縮

【課題】 ハガキ申し込みだと、申し込み受付までに時間がかかる

カタログギフトの商品交換をハガキで申し込む場合、投函から到着までにまず2−4日かかります。
さらに、届いたハガキの情報を人の手で入力して登録するのに、1−2日かかります。このため、ハガキを投函してからご注文が確定されるまでにどうしても時間がかかってしまいます。

※商品交換申し込みの仕組み※
カタログギフトの商品交換申し込みには、大きく分けてWEBからの申し込みと、ハガキでの申し込みがあります。WEB申し込みの方が手軽でミスも少ないのですが、インターネット環境が無い方や、パソコンやスマホに苦手意識があるご高齢の方からは、ハガキでの申込みが支持されています。

さらに、大口のお申し込みをいただくと、一度に大量のハガキが届き、ただでさえ時間がかかるハガキ申し込みのデータ化がより滞ってしまいます。今年度上期も1週間で最大およそ1900枚ほどのハガキが届いた週がありました。
ハガキに記載されたご注文情報をスムーズに登録できないと、結果的に商品のお届けも遅れてしまうという事態が発生してしまいます。

商品交換を申し込んだ方にスムーズに商品をお届けするため、少しでも早くハガキ申し込み情報をデータ化することが課題でした。

【解決案】OCRを自社開発する

この課題を技術の力で解決しようと導入したのがOCRです。(Optical Character Recognitionの略語で、紙に書かれた文字をスキャナなどで読みとり、デジタルデータに変換する技術のこと)
導入にあたり、自社で開発するべきか他社のOCRを導入するべきか悩みましたが、次の理由から、Google のAPIを使って自社で開発することを決めました。

理由1)他社サービスの利用に比べ、大幅なコストダウン
一番安いサービスでも月3万円、手書き情報読み取りに特化したサービスだと、月10万円以上かかりますが、Google のAPIを利用して自社開発すれば、かなりコストを抑えられます。

理由2)工夫の余地がある
自社で開発すれば、現在はCSVで一度ダウンロードしたものを注文管理システムにアップロードしているプロセスも、今後自動連携することも可能だし、その他様々な工夫を自社で試すことができます。

理由3)展開の余地がある
自社開発の経験をしておけば、ノウハウとして蓄積され、社内の他の用途にも技術を活かすことが可能です。

理由4)面白い
単純にサービスをただ買って使うより、自分たちで作る方が楽しいし面白いというのも理由の一つです。DIY精神ですね。

【試行錯誤】 1ヶ月でスピード開発

2022年6月にOCR開発に着手し、7月に導入を開始しました。1ヶ月でスピード開発した理由を、システム班の班長である堀野さんに聞きました。

理由1)1ヶ月でやれると思った
2年ごしの開発だったので、やりたいこととやるべきことのイメージが明確にありました。

理由2)他の開発が忙しかった
他の開発もあったので、1ヶ月でおさまる開発にすることを最初から決めていました。開発がもともと早かった若手エンジニアの金子くんに、丁寧に作り込む開発ではない経験もしてほしかったことから、金子くんをアサインしました。

理由3)やってみないとわからなかった
運用を開始してからボツになる可能性もあったし、全く違う機能をリクエストされる可能性もあったため、最初から時間をかけすぎるわけにはいかず、敢えて雑に作りました。

しかし、、、いくつかの問題が発生しました。

問題1)ハガキのズレ問題

開発から1ヶ月でスピード導入をとげたものの、運用を開始してから問題が発生しました。「ハガキのズレ」による読み取り不全です。

手書きによる位置のズレは想定済みで、項目と項目の間に敢えて少しのスペースをとり、1mm程度のズレずれなら読み取りできるようにしていました。

赤点線部分がハガキの切り取り線

ところが今回、申し込みハガキを冊子から切り取るタイプのハガキで、切り取り線自体に4mmほどの大幅なズレが発生してしまいました。切り取り線の印刷位置は正しかったのですが、実際の切込みだけがズレてしまっていました(ただし、品質には影響なし)。この結果、左上を基準とした読み取り位置がずれ、うまく読み込めないという事態が発生しました。

対策を考えた結果、ハガキを切り取ってもずれることのない左下を基準に読み取り位置を決めることで解決しました。

問題2)未記入などの不備ハガキ問題

当初は、未記入などの不備ハガキは発生件数が少ないと見込んでおり、不備ハガキがあった場合は電話などで問い合わせ、手入力をおこなうことを想定していました。

ところが運用を開始してみると、想定以上に不備ハガキが多く、対応が滞ってしまいました。このため、急きょ追加の開発をおこない、不備ハガキもシステム上で管理できるようにしました。

運用後に発生した問題は、運用を開始したからこそ把握できた問題でもあります。スピード開発と運用しながらの追加開発は、ある意味で狙い通りでもありました。

【結果】 

こうしてやっと本格的な運用(しかし1ヶ月で!!)にたどり着いた結果どうなったかというと・・・

結果1)はがきの入力時間を1/4に削減!

自社開発したOCRの導入で、大幅な時間短縮が実現しました。
OCRでデータ化したのちに、人の目で間違いがないか確認作業をする必要はありますが、それでも人の手でハガキ情報を入力する場合に比べると、かかる時間はおよそ約1/4に短縮。

1枚あたり2分かかっていたものが30秒で完了すると考えると、例えば1900枚のハガキをデータ化する場合、従来の手入力だと63時間かかっていたものが、およそ16時間に短縮できる計算になります。すごいことですね!

結果2)読み取り精度は76%〜87%

商品名、住所、電話番号など、それぞれの項目での精度の平均は87.8%ですが、例えば電話番号の精度は76.2%と、数字の読み取り精度が低いのが現状です。

↑スキャンしたハガキ画像
↑OCRで読み取った結果
項目別の読み取り精度

おそらくどのOCRでも言えることですが、特徴が多いと読み取りの精度が高まります。漢字は一文字ずつ単体で書かれることはなく、全体として文脈を作って書かれるため、識字率はあがりやすいと言えます。

たとえば、「住所」という項目名と一緒に住所を読み取らせると、識字率は上がります。おそらく「住所」の後に続く文字列が、日本国内の住所であるとAIが理解するからでしょう。

ところが数字の場合、文脈として捉えることが難しく、数字の並びを推測することは不可能です。これに加えて、Google の場合、向きの指定ができないので、たとえば「16」を逆さまに「91」と読み取ってしまうことがあるのです。

また、Googleは言語指定はできるのですが数字の指定はできず、どうしても「英数字」の指定になってしまうため、たとえば「1」が「I」と読み捉える可能性もあります。

精度の低さは、汎用性のあるGoogleを使っているからこその結果ともいえるかもしれませんが、Googleの他に使いやすくて安価なAPIがなかったという背景もあります。

【今後の課題】

ハガキ申し込みのデータ化にかかる時間を大幅に短縮したOCRですが、現段階ではいくつかの課題があります。

課題1)「スキャンのズレを減らす」

気をつけていても時々斜めにスキャンされてしまうことがあり、そうすると読み込みがうまくいきません。
「スキャンが斜めになるのを防ぐ」または「斜めにスキャンされても読み取り位置がずれないようにする」のいずれかの方針で対策を進めます。

課題2)精度をあげる

現在の精度は76%〜87%なので、人の目による確認がかかせません。精度をあげて、人の目の確認をゼロにしたいです。
結果2で、精度の低さはGoogleのAPIを利用していることも背景にあることに触れましたが、利用する私達が技術を使いこなすだけの経験と知識が十分にないことも原因の一つです。

本来は、ハガキ全体をひとかたまりとして一度に読み取ることができれば、コストも下がるし、文脈として捉える事もできるため、読み取りの精度は確実に上がります。しかし、そのために必要な知識が十分でないため、商品名、住所、電話番号、姓、名、など11の項目を個別に読み取らせるという方法をとっており、これが読み取り精度の低さに影響しています。

知識と経験の蓄積でより突き詰めることができる領域ではありますし、突き詰める面白さもありますが、他の開発や開発にかかるコストとのバランスを取りながら知識の習得も進めていきます。

世界中でサービスが使われれば使われるほどサービス自体の精度が上がっていくことにも期待したいとことろです。

課題3)はがきのデザインを変更する

2)とも被りますが、申し込みハガキのデザイン自体を変更することでも読み取り精度を上げていくことを目指します。(例えば、郵便番号のところに透かしの数字を入れるなど)

地元カンパニーでは、案件によってハガキの仕様が異なる場合があります。現在は一案件のみでOCRを導入していますが、改良を重ね、今後はハガキの種類が異なる他の案件にも展開することを目指していきます。

また、OCRの導入にとどまらず、様々な視点でご利用しやすさを追求し、地元のギフトの贈り主や受け取り手の皆様に満足していただけるサービスにする努力を続けていきます!


この記事が参加している募集

オープン社内報

この記事が気に入ったらサポートをしてみませんか?