人間の声を自動でテキストに！

2021年11月26日 21:41

皆さん、以前の記事では「顔認証」についての話をしました！
顔認証については理解していただけましたか？

↓記事はこちら。

今回は、PLEN Cubeの持つもう一つの機能「音声認識」についての話をしたいと思います！

まず音声認識とは

音声認識とは、人の言葉をテキスト化し、それによってコンピューターが理解し行動する技術のことです。

皆さんの身近なところだと、「Siri」や「アレクサ」にも音声認識技術が使われています。

また、ときどきYouTubeの動画で自動生成された字幕が使われていることがあります。
これもまた音声認識の技術により、人が話した言葉を自動的に字幕に起こしています。

こういった音声認識の技術ですが、どんな仕組みで出来ているのでしょうか。

まず人間が声を発してからテキストになるまでに、大きく分けて4つのステップがあります。

最初のステップは、マイクが拾った音声のデジタル化です。
コンピューターが理解しやすいように音声データを整理します。

次に音声分析で特徴量を採取し、音声を文字にマッチングさせます。

(特徴量というのはデータを分かりやすく数値化したものです。
例えば人間でいうと、身長・体重・年齢なども特徴量です！)

続いて単語辞書との照合を行います。
音声がどの単語に近いかを照合し、単語ごとに置き換えます。

最後に単語をつないで文章にします。
このとき文章の学習データを大量に蓄積しておくことで、正しい文脈で文章を作ることが出来ます！

ですがここで問題があります。
人が使う言葉には「曖昧な表現」が含まれているのです。

なので大量の会話データから構文や意味を理解し、人の言葉を処理する技術である「自然言語処理」という技術を使います。
こうして人間が話す言葉をだんだんと学習していくことで、人工知能は言葉を理解できるようになっていきます。

ここで膨大なデータを基に分析をおこない、決まったパターンを発見し、正確な予測を立てるために使われる技術が「ディープラーニング」です。
ディープラーニングとは、人の神経細胞の仕組みを真似たシステムを用います。

こうしてディープラーニングは、音声認識はもちろん、顔認識などの技術の向上にもつながりました。

近年、ロボットの活躍が工場やオフィスに広がってきましたが、サービス業である接客はまだまだ人手に頼っています。

ですが、実は接客の仕事には定型化されたものが多い場合もあるんです。
そういったものは自動化できると私たちは考えています！

例えば、飲食店での注文受付。

PLEN Cubeは一問一答式の対話ができるので、人間の代わりに注文を受け取ることができるんです。

PLEN Cubeの写真

また注文を受け取るだけでなく、顧客名簿を作り注文履歴も作ってくれます。
こうすることでお客様個人に向けたサービス、つまり常連さんの対応が出来ます！

実際にPLEN Cubeが注文受付をする様子はこちらからご覧ください！

実は音声認識にも難点があるんです。
一連の動作をするには音声を正確に聞く必要があるので、ザワザワしたところだと読み取れなくなる場合があります。

ですが、普段のカフェなどであれば問題なくPLEN Cubeが働いてくれます！
また、これから技術もさらに向上していくと考えています！

これからPLEN Cubeは、サービス業の人手不足の救世主のような存在となるかもしれません。
個人的にはPLEN Cubeが、私はどんなメニューが好きなのかを分析し、新しいメニューをおすすめしてくれたら面白いなと思いました。

顔認識による出欠確認のときと同様に、今の問題をどんどん解決していってほしいです！

いかがでしたでしょうか！
最後まで読んでいただきありがとうございました。

この記事を気に入っていただけた方は、スキとフォローをお願いします♪

YouTubeの動画もご覧ください。いいねとフォローもお待ちしています！