見出し画像

音声入力アプリを作るつもりが、タップ入力アプリになってしまった反省談

テクノロジー戦略本部の瀬尾です。
プロダクトマネージャーをやっています。入社5年目で、これまでバイセルでは8つほどのプロダクト開発に携わってきました。
趣味は釣りです。船舶免許を持っておりまして、時折自分で操船して東京湾に出ています。

さて、多数プロダクト開発が進行中のバイセルですが、過去には思った通りに実現できなかったものもありました。
思い出深いのは、2020年夏〜2021年初頭にかけて動いていた、音声入力アプリの開発です。
最近入社してくれたメンバーにも「失敗談も聞いてみたい」という声をもらっているので、少し長くなりますが供養のためにも振り返りをまとめてみます。

現場課題:とにかく人手がかかる着物のささげを効率化したかった。

バイセルでは毎日1,000点以上の中古商品をECに出品しています。
中古品を出品する煩雑さは、個人でフリマアプリやオークションサイトを利用したことがある人ならなんとなく分かるのではないでしょうか?
すべての商品が1点ものなので、1点ずつにささげ作業が必要になります。
(※ささげ=採寸・撮影・原稿の頭文字です)

バイセルの代表的な商品である着物はロジスティクス内に専用のささげコーナーがあり、大きく「採寸・原稿」と「撮影」の2工程に分けてささげ作業を行っています。

2020年当時は、採寸・原稿においては着物1枚あたりに3人を必要としていました。
1人目:ささげ台に着物を広げて採寸、色や状態などチェック
2人目:着物を広げるのをサポート
3人目:チェックされた情報をキーボードでPC入力

次に撮影工程では、採寸・原稿チームからほつれやシミなどの特筆事項が手書きされたメモを受け取り、商品全体像とともに当該箇所をアップで撮影していました。
採寸・原稿を行うささげ台よりも撮影ブースの方が少なかったため、撮影待ちの商品が溜まりやすい傾向にありました。

撮影工程(2020年当時)

ささげ用に自社開発・導入されたプロダクトも一部あったものの、やはりロジスティクス全体で一番工数がかかっているのが着物のささげというのは一目瞭然。担当するEC事業部でもこのささげが事業拡大のボトルネックになってくることを感じており「ささげ処理能力のポテンシャルアップ」を目標に、さらなる効率化の検討が始まりました。

設計:音声入力と写真撮影の2つのアプリを開発することに。

現場に赴いて上記のささげ工程を確認し、改善すべきポイントを以下に整理しました。

①採寸・原稿にかかる人数を減らす
②撮影の効率化のため、採寸・原稿のタイミングでも一部撮影を行う

①にあたっては、スタッフ3人のうちPC入力する人は減らせるのではないかと、音声入力によりハンズフリーで採寸・原稿ができることを目指しました。
また音声の誤入力時もモバイル端末なら手元で修正できるので、iPadを導入することにしました。そして修正操作がどんな人でも簡単にできるように、日本固有の色を系統から入力できるようにしたり、部分入力から検索対応できたりといった機能も盛り込みました。
こちらのプロジェクト名は当時kasago(現在:SAIGEN(サイゲン))でスタートしました。

②にあたっては、撮影機能と共に2度に分けて撮影された画像がEC出品に最適な順番(全体→着物の柄→特筆事項)に自動で整理できるように設計することに。
こちらのプロジェクト名はhirame(現在:Pasha(パシャ))でスタートしました。

余談:なんでkasagoとhirameなのかというと、僕が釣り好きなことと、「ささげ」と「かさご」の語感が似ているからです。開発時のプロジェクト名だけのつもりが、そのままプロダクト名としても使われていました。しかし結局分かりづらいということで2022年になってkasago→SAIGEN、hirame→Pashaというプロダクト名に変わっています。

kasagoの開発の肝となる音声入力の技術としては、複数検討した上で、Googleの音声入力API「Speech-to-Text」を使用しました。
音声入力だけのデモアプリを作ってみて現場で動かしてみたところ、環境音の中でもしっかりと認識してくれて、現場で驚く我々の「おーすごい」なんて発言まで文字化してくれて、かなり精度高く認識してくれることが分かりました。

ただ、後から思えばこの初回の音声入力テストが甘かったんです…。

kasagoのUI

リリース前テスト:判明した衝撃の多数事実。

2021年1月、手慣れたアルバイトスタッフの方に運用テストしていただく機会を設けました。ここで、kasagoの音声入力機能まわりに想定できていなかった多数の事実が判明することとなります。

・音声を発する人はひとりじゃない

着物は広げるとかなり大きいので1人では全体をチェックできません。2人が協力しながら自分の近くの計測値やシミ等の特筆箇所を発言します。
1つのアプリに2人が喋りかけるとなると、マイクが音を拾う範囲は広くしないといけない、しかし隣には別のささげブースがあります。
回避策としてひとりにヘッドセットを付けて音声入力してもらいましたが、伝言ゲームのような形になってしまいました…。

・専門用語は適切に漢字変換されにくい

初回テストではテキスト化の精度が良かったので安心していたのですが、なんとリリース前テストでは理想の精度にはほど遠い結果になってしまいました。考えられる理由は2つ。
1つ目は”文章だからこそ”音声入力の精度が良かったこと。
例えば、着物に使われる「金糸(きんし)」は単語だけでは「禁止」と認識されがち。ただし「金糸が使われている」ならば思った精度でテキスト化される、といった具合です。

2つ目は、着物独特の専門用語には対応できなかったことです。「正絹(しょうけん)」も「商圏」や「証券」となってしまったり。
この対策として、1000種弱の対象単語を正しい単語に変換する音声辞書をスプレッドシートに書き出し、アプリから読み込んで自動変換するようにしましたが、誤変換を十分にカバーすることはできませんでした。

・テキスト化までの待ち時間が長過ぎる

音声入力を行うときは画面を注視していられないので、入力された音声をiPadからオウム返しさせて、ユーザー側で確認できる仕様にしていました。

取得した音声をインターネットを通じてGoogle APIに投げる
→Googleが文字テキストで返してくる
→kasagoの音声辞書にあてて誤変換を正す
→入力内容をiPadの音声読み上げ機能でオウム返ししてもらう

この処理はインターネットを介すので、オウム返しするまでに待ち時間が発生します。回線状況によって良い時/悪い時があり、正常に入力されて待っている状態なのか、認識されなかったのかがユーザー側で分からず、二度目の音声入力をしてしまうといった状況も見られました。
また、音声をGoogleに送るときに、どこからどこまでをGoogleに送るかをこちらで制御できないため、無音になったタイミングをAPIが区切りと判断して送ってくれるのを待つしかなかったことも待ち時間が長いと感じる原因の1つでした。

リリース:音声入力アプリでなく、タップ入力アプリになる。

2021年1月にkasago、2021年6月にhirameをリリースしました。その結果が以下です。

・採寸・原稿のスタッフは3→2人に削減
・撮影スタッフの負担を分担軽減
・ささげ処理枚数が1,300枚/月増加

撮影のhirameは想定していた通りに活用。kasagoも音声入力以外の機能は問題なく導入でき、入力補助が充実したiPadタップ入力アプリとして効率化に貢献。2022年現在も2つとも活用されています。

採寸・原稿工程(2022年現在)

音声入力は手法のひとつであって、我々が真に実現したかったことではありません。目的は「ささげ処理能力のポテンシャルアップ」。効率化が図れたので結果としてはOKです。
…がしかし、音声入力でハイテクにささげ作業をこなしてるロジスティクスを夢見ていたところは、正直ありました。EC事業部の皆さんも音声入力に期待を寄せてくれていたので申し訳無さもありました。

反省:現場検証の徹底・技術力の壁・目的と手段で迷子にならない

この件で得られた反省点は大きく3つです。

まず最大のポイントは、現場検証をしているつもりにならないことです。音声入力を利用するにあたっては、
・音環境
・インターネット接続環境
・利用時間帯
・ささげ対象商品
・現場オペレーション
・作業に要する人数
・ユーザーの性別年代やITリテラシー
などなど、もっと徹底して現場を再現する必要がありました。

2つ目は、やはり技術的な面で力不足だったのだと思っています。
当時調べていた中では、工事現場で音声入力に対応するプロダクトも世の中にありました。
APIで叩いて帰ってくる工程も、よりスマートな設計ができたのではないか、テックのメンバーも増えてきた今なら、工夫できたことがあるんじゃないかとも思っています。

3つ目は、目的と手段を見失わないことです。
目的は達成できた(ここ重要)のですが、やはり「音声入力してるロジスティクスってカッコいい…!」という憧れが先走っていたような気もしています。
実現させたいがために、盲目になっていた部分が無いとは言い切れません。

こういった反省もあって、いまはテック全体で現場ドリブンを徹底して事業部のメンバーと密に連携する姿勢を大切にしています。
新しいことを推し進めるにはアイデアも大事ですが、独善的になりすぎないようにするようバランスを意識しています。

***

今後はリユースプラットフォームという大きなサービス群を実現するために、まだまだたくさんのメンバーを募集しています。
現場ドリブンな開発をしたい、とにかく打席に立って経験を積みたい、そんな皆さんをお待ちしています。


この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?