見出し画像

音声認識システム比較!

こんばんは、くつばこのりこです!なんの味もない炭酸水が好きです。今日はちょっと真面目なお話。

☆音声認識のアプリってたくさんあるけど…

アプリのストアで「音声認識」みたいに検索すると、大量に出てくる音声認識アプリ。似たようなものもあれば、いろいろな機能がついているものもあります。これらは何が違うのでしょう。見た目?使い勝手??

☆使っている音声認識システムが違う

まず、使われている音声認識システムが数種類あります。音声認識とはそもそも、声の波から、音の最小構成単位である「音素」を見つけ出し、言語として読み取るシステムです。世界に音声認識システムはたくさんありますが、有料で簡単には手が届かないものもチラホラ。そこで今回は、無料で使うことができ、私たちが今使っている音声認識システムを3種類ご紹介します。
音声認識の実験として、以下の創作文『白雪太郎』を同じテンポ読み上げました。(誤差はあしからず)

むかしむかしあるところに、おじいさんとおばあさんがいました。えー、するとどんぶらこっこ、どんぶらこっこと桃が流れてきて、あっというまにリンゴになりました。そのリンゴは毒リンゴで、食べてはいけないと気付いたおばあさんは「こまっちゃうねぇ、まったく」といい、生ごみに捨てました。


☆Googleの音声認識

GoogleはGooglehomeなどでも音声認識を使っているように、大量の言葉のデータを蓄積し、音声認識の精度を高めています。私たちが使うときは、Googleドキュメントの音声認識、あるいはあるいは人によってはアンドロイドのスマホなどで使っています。認識の精度が高いですが、改行などはしてくれません。

認識結果は以下の通り(太字部分は間違い)

昔々あるところにおじいさんとおばあさんがいましたえーするとどんぶらこっこどんぶらこっこと桃が流れてきてあっという間にリンゴになりましたある空りんごは毒りんごで食べてはいけないと気づいたおばあさんは困っちゃうねまったく(抜け)いいなら(抜け)ゴミに捨てました

☆Amiボイス

Amiボイスは日本の老舗音声認識システム。昨年12月にAmi Voice Cloudを発表し、精度がどんどん上がっています。私たちは「UDトーク」というアプリを使うときに利用しています。日本語専門なので、「あー、」や「えー」に強い(らしい)です。

認識結果は以下の通り(太字部分は間違い)

昔々あるところにおじいさんとおばあさんがいました。
すると、どんぶらこっこたんぶらこっこどもが流れてきて、あっという間にリンゴになりました。
そのリンゴは毒リンゴで食べてはいけないと聞いていたおばあさんは困っちゃうよね全く(抜け)いいといい、あのゴミにしてました。

☆iOS

iOSはつまり、iPhoneやiPadのキーボードのところにある音声認識ですね。これらはiPhoneの人がGoogleドキュメントに音声を吹き込むときに使っています。「改行」「びっくり」などを変換してくれるのが使いやすいです。

認識結果は以下の通り(太字部分は間違い)

昔々あるところにおじいさんとおばあさんがいましたするとどんぶらこっこどんぶらこっこと桃が流れてきてあっという間にりんごになりましたそのリンゴは毒リンゴで食べてはいけないと気づいたおばあさんは困っちゃうね全くとい生米にしてました

iOSは「。」や「、」を認識してくれるので、それも読んでみたらこんな感じです。

昔々あるところにおじいさんとおばあさんがいました。えー、するとどんぶらこっこ、どんぶらこっこと桃が流れてきて、あっという間にりんごになりました。そのリンゴは毒リンゴで、食べてはいけないと気づいておばあさんは「困っちゃうね、全くと言い、生ごみにしてました。

☆そのほかの認識エンジン

そのほかにも、IBMのWatsonなど、大手の音声認識システムはたくさんあります。しかしそれらはいまいち使い方がわからず断念…(Watsonは精度が良いと聞きますよね)やはりアプリなどの形になっていると、多くの人が利用しやすいもの。今後の発展に期待です。

☆認識エンジン以外の、精度を上げるポイント

音声認識エンジン以外にも、音声認識の精度を左右する要素があります。まず一つ目が、話すスピードや言葉の選び方などの人間側の問題。当たり前ですが、これらはまず大事です。極端な話、同音異義語を連発すると認識は難しくなりますし、できる限り頭をフル回転させて、余計なこともしゃべらないようにしています。二つ目は、マイクです。音声認識に特化したマイクがあり、いろんな先生からおすすめいただくのですが、ちょっと学生には高い値段で、軽い気持ちでは試せていません。いつか必ず!

この記事が気に入ったらサポートをしてみませんか?