五十音を認識するためには一人一人異なるモデルを作ったほうがいいと考える。

2022年1月9日 07:38

おはようございます。
わたしは音声認識システムを作るエンジニアになろうと考えており、そのために先日、エンジニアになるための目標を立てました。

その目標の中に大目標があって、その中の一つに

①本人の声なら「100%」認識する入力インタフェースを作る。
⇒滑舌が悪い人、発声に特徴のある方向け。

『音声認識エンジニア』になるための目標

というのがありますが、そのように考えるようになった経緯が長くなりそうでしたので、その内容を記事にしました。そのため、長くなりますが、もし、お時間・ご興味がありましたら読んでいただけると幸いです。

現在の音声認識アプリには、わたしにとっては使いづらいところもある。

現在、Google、Microsoft、Amazon、Appleなどの音声認識を使ったアプリ・AIが世の中に広く普及されていると思います。聴覚障害があるわたしも、その恩恵を受けており、健聴な人（耳が聞こえる人）とコミュニケーションを取るときに音声認識アプリを利用しております。

最近の音声認識アプリの精度・速度の向上は驚くべきものがあり、周囲に多少騒音があっても、発話者が明瞭に発音できていれば、誤字や脱字は多少あるものの、ほとんど意味が分かるくらいに認識することができます。

しかも、発話者がずーっと間を置かずに話し続けたとしても、音声認識はそのペースにも対応し、テンポよく音声認識を行い続けて、その結果を表示し続けます。

※以前は、音声認識を行うために、一つ話したら一度話を止める必要があったため、人間がAI（機械）の音声認識を行うペースに合わせなければなりませんでした。

しかし、わたしの場合は、周りが静かな環境であったとしても、音声認識がなかなかうまくいかない場合があります。
一応、幼い頃に発声訓練はある程度受けてはおり、わたしの発する五十音は苦手な「さ行」を除いて、家族や友達、知り合いであればそれなりに話が通じます。
また、知り合いでなくとも、スーパーでの買い物時のやり取りや、お店でメニューを注文するときはだいたい通じます。

それでも、音声認識アプリが相手だと、どうも通じないようです。
例えば、早口言葉などのよくあるフレーズであれば、
発声：「本日は晴天なり」　⇒　認識結果：「本日は晴天なり」
となって、この場合は上手くいきますが、
以下のようなちょっとした単語の場合、
発声：「音声認識エンジニア」　⇒　認識結果：「ケーズデンキ新座」
となり、んんん？となります。

この場合、耳が聞こえる人なら、まず、機械（AI）が上手く認識できるように、はっきり喋ってみるとか、アクセントやイントネーション等気を付けて細かく調整してみるなど、機械（AI）に合わせようと考えるのかなと思います。

ですが、わたしの場合、どのような発声ならば機械（AI）が認識しやすいのか不明ですので、そもそも機械（AI）に合わせるということが難しいのです。また、そもそも自分自身が発する声すらよく聞き取れていないので、アクセントやイントネーションといったものはわたしからすると細かすぎてわかりません笑
方言に、関西弁とか津軽弁とかあると思いますが、それらの違いは、わたしにとっては未知の世界です笑

若干、話が逸れましたが、自分の声を聴きながら調整する（フィードバックする）ということ自体が難しいので、わたしにとっては自分の声を入力するための用途に使おうとすると、現状の音声認識アプリでは使いづらいものではないかなあ、と思います。
もしかすると、わたしが知らない、調べ足りないだけで、そのような問題にも対応するツールがもしかしたら既にあるのかもしれませんが。

そういう意味で、以下の問題にも対応できる音声認識システム・アプリがあればありがたいなと思いました。
・ある程度五十音の発声はできて、人間相手なら通じるものの、機械（AI）相手には上手く認識させることができない。
・（自分の声が聞こえていない等事情があって）自分の発声を調整させること自体が難しく、機械（AI）の認識に合わせて発音することができない。

事前に個人の声を学習しなくても、すぐ音声認識できるのは確かに便利ではある。

もし、わたしのような声や滑舌にも対応できる、そのような音声認識システム・アプリがなかったとして、今後そのシステム・アプリを開発するならば、「大企業や研究機関に任せるのではなく、小さくても継続可能なビジネスとして自分で開発していったたほうがいいかなあ」と思いました。

なぜかというと、何となく世の中には、今の音声認識アプリにおける開発の方向性というのが、できるだけ「多くの人に通用するような汎用性のある音声認識モデルを作ろうとしている」ように感じており、そうであるならば、わたしのような特殊な発声には対応しにくいのではないのかなと考えているからです。

「多くの人に通用するような汎用性のある音声認識モデルを作ろうとしている」とはどういうことかというと、例えば、「あいうえお」「かきくけこ」などの五十音を認識させるとき、
【「五十音には共通する"絶対"的なパターンがあり、それはどんな人が発声しようと変わらない」という仮定のもとに、その共通したパターンを捉えて認識させようとしている】
ということです。

その仮定が成り立つならば、人によって認識するパターンを変える必要がないため、実際に音声認識を行うときに、汎用的な音声認識モデルを一つ用意できれば、事前に各個人の音声データをいちいち学習する必要がないため、いつでもどこでも直ちに認識できる、というわけです。
（※実際の音声認識では1つの音声認識モデルではなく、男女とか年齢とかでもう少し複数の音声認識モデルを持って、場面に応じて自動的に使い分けているのかもしれませんが。）

そのように音声認識を使うことができれば、様々な場面で使いやすいので、自然と"汎用性のある"音声認識モデルを開発する方向に向かうのは当たり前のことかもしれません。

人それぞれに五十音を発声する特徴が異なるのでは？

ですが、わたしは「五十音には共通する"絶対"的なパターンがあり、それはどんな人が発声しようと変わらない」という仮定は正しいのだろうか？とも思います。

わたしが発声する言葉は、音声認識アプリ相手だと上手く認識できない場合が多いのですが、わたしの家族や知り合いであればほとんど通じますし、知り合いでなくとも短い言葉であれば十分に通じます。

このことから、
「音はもっと多様なもので、人それぞれに五十音を発声する特徴が異なるのではないか？」
「人間の耳はもっと複雑で、とても高度な感覚を持っており、"絶対"的に音を捉えるのではなく、"相対"的に音を捉え、そして覚えているのではないのかな？」とも思います

そう考えると、もしわたしが音声認識に取り組むならば、「五十音は多様なものであり、人によって"相対"的に認識パターンを変えた方がよい」という考え方で作りたいなと思いました。図にすると以下の通りです。

しかし、"相対"的に音声認識パターンを変えていく場合、五十音を認識させるためには人によって、毎回発声データを事前に学習させる（AI・機械にパターンを覚えさせる）必要があり、その分だけ利便性は失われると思います。

そして、その利便性が失われることは、音声認識を扱うアプリ・サービスを提供する企業にとっては、敬遠したいことではないのかなと思います。利便性が失われる分、アプリ・サービスを使ってくれる人は減りますし、それに応じて利益も減っていくだろうと思いますので。

"利便性"は失われるかもしれないが、"柔軟性"が得られるならば、"自分"で作ってみたい。

それでも、やる意義はあると思います。利便性は失われますが、柔軟性は向上するかなと思います。
最初は学習する手間がかかったとしても、一人一人異なる音声を最終的には「100%」認識するモデルを作ることができるならば、わたしのように発声が特殊であり、自分自身で発声を調整するのが難しい人々でも、十分に音声認識ができる可能性があるのかなと思います。

それならば、一人一人異なる音声認識モデルを作ったとしても、利益をある程度出すことができ、その利益を元手に、開発・ビジネスを継続/向上できたなら、やること自体に大きな意味があるように思いました。

そして、その開発・ビジネスを継続/向上させることは自分でやっていきたいと思いました。なぜなら、大企業や研究機関にとっては取り組みにくいことだけれども、確実なニーズが存在するならば、個人事業主のわたしでも取り組めるのではないかなと考えたからです。

一人一人異なる音声認識モデルを作るということを軸にすると、事前に発声データを学習する手間が発生する分、利便性が失われて、開発された音声認識アプリ・サービスは広く人々に受け入れにくいものになります。
そうすると、その分だけ利益を大きく獲得するのが難しくなることが予想でき、大企業などは積極的に手を出しにくい分野ではないのかなと考えております。

聴覚障害を持つわたしや他の誰かが、コミュニケーションにおける「自分軸」を確立させるためでもある。

また、わたしが聴覚障害を持っている、というのもあります。
わたし自身が耳が聞こえない、だからこそ、"音"とはどういうものか知りたいという内発的動機付けなものもあります。

そして、自分たちの問題は自分たちで解決できたほうがよいのではないか、という思いもあります。
今までの世の中は、"障害"を持つ当事者がいて、その"障害"ゆえに困っていることがあれば、当事者以外の頭の良い誰かがその問題を考えていく流れが主流だったかと思います。

そうではなく、これからの時代は"障害"ゆえに起こる問題でも、誰かに頼るのではなく、まず、自分たちで考え始めて、工夫しながら解決に向かって前に進んでいく、そうした流れを作っていったほうがいいかなあと思います。

そうすることによって、"障害"を持つ人々は助けられる側ではなく、同じ人間であり、助ける側にも助けられる側にもどちらにもなれるという認識がより深く社会へと世界へと広まり、一人一人が真の意味で自立していけるのかな、と思っています。

それに、誰かが解決するのを待つ"他人軸"でいる必要がなく、自分たちで解決する力を持っていく"自分軸"ができるようになるので、とってもいいかなあと思います。

（頭の良い誰かさんや会社などにお願いしようとすると、たいていお金がかかったり、忙しかったり、そもそもその問題を解決することに興味・関心が薄かったり、色々あると思います。そのような問題に縛られながら進めるのは気持ちよくなさそうなので、それはなるべく避けていきます。）

そう思ったので、聴覚障害の当事者でもあるわたしが【一人一人異なる音声を最終的には「100%」認識するモデルを作っていくこと】は、当事者である自分たちで問題を解決していくための将来の足掛かりにもなるかなあと思いました。

そして、わたしを足掛かりにして、他の当事者の誰か、または当事者でない誰かにとっても、何かに「挑戦」できるきっかけになれば、とも思いました。

長くなってしまいましたが、上で述べた、「大企業や研究機関に任せるのではなく、小さくても継続可能なビジネスとして自分で開発していったほうがいいかなあ」と思ったのは、色々考えてのことでした。

（補足）手話ができなくても、ブラインドタッチができなくても、自分の"声"で入力できるということ。

ここまで読んで、それでもわざわざ"声"で入力する必要があるのかと、そう思う人もいると思います。

声で入力せずとも、手話ができるならば、手話でカメラなど画像や動画を使って認識するアプリ・サービスを使えばよいでしょうし。（今のところまだ世の中には出ていないようですが、研究レベルでは既に開発されているようですし、実用レベルでもこれから世に出てきそうな雰囲気があります。例えば以下のsuretalkとか。）

https://www.suretalk.mb.softbank.jp/

https://www.suretalk.mb.softbank.jp/technology/

また、素早くブラインドタッチ（キーボードを見ないで素早く文字を入力）できる人なら、"声"や"手話"と同じようなスピードで、文章を入力していけると思います。

わたしもブラインドタッチが可能なので、わざわざ"声"で入力する必要があるかと言われたら、正直なところ、強くは言えないところがあります。（手話もスムーズではありませんが、ある程度できます。）

ですが、この開発を行っていくのは「自分のため」でもありますが、「手話やブラインドタッチができないけども声を頼りにするしかない誰かのため」でもあります。

例えば、聴覚障害者が自分の想いや考えをブログやSNS等で発信するときやチャットで文字をやり取りするとき、
①スマホやパソコンから文字を打って入力する
②手話をカメラに撮ってもらいながら手話を認識して文字を入力する
③声を発してマイクに拾ってもらい、声を認識して文字を入力する
などの手段があると思います。

①でスムーズに文字を入力できる人は①を利用すればよく、②はまだ実用化されたアプリ・サービスはなくとも、今後そのようなアプリ・サービスが普及されたなら、そのアプリ・サービスを使えばよいと思います。

ですが、スマホやパソコンを使って文字を打つのが苦手でな人もいます。それだけでなく、手話もできない聴覚障害者もいます。そうすると、①と②のどちらの方法を利用しても、スムーズに文字を入力するのが難しいため、③を利用したほうがよい場面もあります。

また、わたしの身の回りではまだ出会ったことはありませんが、指にケガ・障害があったり、腕そのものが欠損している・動かせない聴覚障害者もいるかもしれませんし、いるのだろうと思います。

そのような人は、①と②を利用すること自体が難しいのでしょうし、そうするとスムーズに文字を入力するためには③を選ぶしかないという状況もあることが考えられます。

※なお、声を発声することも難しい場合は③も難しいですが、視線の動きや瞬き・注視で文字を入力するという方法もあります。
参考：http://www.itsapoot.jp/disability/shienkikifujiyu.html）

そのように考えていったら、「自分のため」でもあり、「手話やブラインドタッチができないけども声を頼りにするしかない誰かのため」にも、声の特徴・滑舌に左右されることなく、本人の声なら「100%」認識する入力インタフェースを作りたいなと改めて強く思っております。

この記事が気に入ったらサポートをしてみませんか？