見出し画像

音声認識技術、やってます

オンキヨー開発部の河村です。
 
暑い日が続いていますね。当社は在宅と出社のハイブリッド勤務を実施していますが、出社するときは暑さに負けないように気合いを入れて出社しています。といっても、電車で通勤していると歩く距離は少ないので、そんなに大した覚悟ではありません。


さて、今回ご紹介する当社の事業は、コールセンター事業に関連するサービスです。
 

コールセンター


コールセンターは非常に大変な職場、というのはご存じかと思います。お客様からの商品の問い合わせ、クレーム、など様々な種類の問い合わせが入電します。この多種多様な問い合わせに、電話を受けるオペレーターの皆さんは、商品知識や過去の問い合わせ、などの各種情報、はもちろん、お客様を怒らせないよう、丁寧な話し方の習得、など大変な努力をされて日々研鑽をされています。それでも、お客様は困って連絡してくるのですからオペレーターの方が悪くなくても、場合によっては怒られる、という矢面に立つことになります。本当に頭が下がります。なので、私はコールセンターの方々にはやさしくお話ししています(知らんて)。
 
せめて、単純作業や定型業務は簡略化できないか、と考え、開発したのが当社のコールセンターソリューションです。中でも特徴的なのが当社独自の音声認識技術「Onkyo Speech」です。
 

音声認識技術「Onkyo Speech」


音声認識技術というのは、話した言葉を文章に落とし込む、という技術です。Appleさんの”Hey, Siri”やGoogleさんが提供している”OK, Google”などは体験したことはあるのではないでしょうか。そういう大手の技術の方が、性能がよいだろうから、それでいいのでは、と思いますよね。一般的な声の認識であればその通りです。
では、当社の音声認識「Onkyo Speech」が何がそのような技術と違うのか。

1.    電話越しの音声、特にシニア層の声を学習させている
2.    業界特有の言葉を事前に登録が可能
3. 軽くて、様々なプラットフォームに利用可能

ここが特徴です(ここ大事です、テストに出ま、、、せん)。
 
少し話がそれますが、皆さんは何か製品やサービスで困りごと、修理依頼などがあった場合、メーカーに対し電話されますか、それともホームページから問い合わせ窓口よりメールされますか?
私の印象では若い方はメール問い合わせが圧倒的に多く、年配の方は電話のほうが多い傾向です。当社も以前、オーディオ事業を行っていた際、自社製品用のコールセンターがありましたが、電話をかけてこられる方は年配の方が多かったです。オーディオ製品を購入される方が年齢層が高い、ということもあるかと思いますが、30代、40代のお客様はメールが多く、60歳代以上のお客様はお電話をいただく方が多かったです。

コールセンターではどこもそうだと思いますが、お問い合わせいただいたお電話は録音していたので、録音した音声を音声認識技術(AI)のモデルに学習しました。そのおかげで、電話越しの年配の方の声の他の同様のサービスと比較して認識率が非常に高くなり、当社の音声認識技術の特徴の一つになりました。年配の方の方が電話が多いのですから、それが強みになっています。何が強みになるか分かりませんね。
 
次に、2つ目の特徴である、業界用語の登録について説明します。ここは少し技術的になりますが、分かりやすいようにざっくりと説明します。(不正確だ、と怒らないでください。)

音声認識には二つのモデルがあります。


音声認識技術のフロー
  • 音響モデル・・・発話された音がどういう音で表されるか(「音素」と言います)を作り出すモデル

  • 言語モデル・・・その文字を単語、文書として作り上げるモデル

方言を含む話し方、周囲の環境、通信環境、性別による声の違い、などを学習し、最適な音素に変換するのが、「音響モデル」です。音素は音波の最小単位と言われています。例えば、私の名前だと「かわむら」、ですが、音素だと「k-a-w-a-m-u-r-a」が音素になります。ただし、人によって発音が変わったり、イントネーションが変わりますし、電話越しの声はわかりにくくなったりしますが、そういう違いを事前に学習させることによって、文字に代えることができます。
 
それに対して、「言語モデル」は、出てきた文字がどういう単語、文章になるのかを作り上げる部分になります。元の音素である「k-a-w-a-m-u-r-a」が「かわむら」と認識できるのは、この言語モデルに「かわむら」という言葉(苗字)が含まれているからです。私の名前はよくある名前なので通常の音声認識でも、珍しい名前だと普通は間違えて出力されることが多いです。メーカーの方の製品名は、有名な製品では無ければ一般名詞ではないので、認識されることは少ないでしょう。
ちなみに、当社が以前、開発、販売した「グランビート」という名前の製品は、一般的な音声認識技術では「ぐらん尾藤」になりました。あまり売れなさそうな芸人の名前みたいです。。。
 
このような特有の言葉を事前に「言語モデル」に登録できるようにしているのが当社の音声認識の特徴です。製品名や業界特有の言葉を事前にご提供いただき、その会社用にカスタマイズすることで、認識精度を向上します。
この音声認識技術を中心として、お客様からの電話に対しての自動受付システム(IVR)を顧客様ごとに作りこみ、提供しています。すでにサービス提供済みで、いくつかのお客様にはご利用いただいています。

3つ目の特徴は、音声認識エンジンとしては軽いことです。当社ではWebAPIを使ってのご提供がメインですが、それ以外にもオンプレミス環境などいろいろな環境でご提供が可能です。ご要望に応じてカスタマイズします。

この音声認識技術「Onkyo Speech」を利用して、自動応答システム(IVR)も構築し、お客様のお名前や住所、電話番号、簡単な問い合わせを先にお話しいただき、必要に応じてその後、お客様に返電する、という仕組みを提供しています。音声認識技術だけ、とかIVRだけ、回線だけ、も大丈夫です。


この音声認識を含むコールセンター事業について、興味を持たれた方はぜひご連絡ください。詳しくはこちらを。
https://onkyo.net/ivr1/

同様のサービスと比較しても安価で提供していると自負しています。


最後に、これまで説明してきた、当社の音声認識技術は、お客様の電話音声、というデータがあったから実現できました。しかし、電話音声だけではAIの学習はできません。実際の音声と、それにラベル付け、という、音声がどういうデータに当たるのか(言葉なのか、助詞なのか、それとも不要なのか)、を行う必要があります。これ、めちゃくちゃ地道な作業ですが、これを当社で行ったからこそ実現できています。AI技術、というのは、イメージは華やかな技術っぽいですが、実は地道な業務を繰り返し行うことで実現されているのです。もちろん、今でもやっています。こういう技術を支えてくれる裏方さんがいるってことを知っていただければ、世の中のAI技術の見方が変わるのかと感じます。
 

今回はここまで。また、皆さんに興味を持ってもらえそうなネタを準備していきま~す。