見出し画像

Amazon Transcribeの実際:残念でもあるけど未来でもある

Amazon Transcribeが日本語を含む7か国語に追加対応したよ、という英文発表が出たのが11月21日。1週間ほどたって、各所にニュース記事も出てるし使ってみたレポートも出てる。べた褒めしてるレポートもあるけど、実際のところ、そのままテープ起こしに使えるとかいった精度ではない。でもこれはエンジンとAPIであって、ここからこれを組込んだどんなアプリが出てくるかではないかな、というのが僕の現時点での感想だ。

Amazon Transcribeの各国語対応

Amazon TranscribeはAmazonの提供するクラウドサービス群「AWS」の一つで、音声をテキスト変換するサービスだ。以前から英語版が提供されていたが、今回の発表で日本語を含む7か国語がサポート対象に追加された。発表記事の冒頭を私的和約で引用する。

Amazon Transcribeは、アラビア語湾岸語、スイスドイツ語、ヘブライ語、日本語、マレー語、テルグ語、トルコ語の音声とビデオの文字起こしをサポートするようになりました。 Amazon Transcribeは、自動音声認識(ASR)サービスであり、音声からテキストへの機能をアプリケーションに簡単に追加できます。 組織は、Amazon Transcribeを使用して、オーディオファイルとビデオファイルのテキストトランスクリプトをすばやく作成できます。

対象はストリーミングとファイルで、ファイルの対応形式はMP3、MP4、WAV、FLAC。iPhoneでの録音でよく作られる拡張子m4aの音声ファイルは、形式としてMP4を指定することで処理できた。ただその方法は、AWSアカウントを作り、S3バケットにファイルを入れ、そのリンクをTranscribeジョブで指定するといった、ちょっとAWSの感覚が要求されるものだった。きれいにまとまったGUIはなく、アプリケーションやWebサービスに組み込むためのプラットフォーム(PaaS)と言える。

Amazon Transcribeの変換を試す

AWSをもし使ったことがあれば、AWSコンソールからAmazon Transcribeサービスを開き「Create Job」することで使ってみることができる。Job作成画面はこんな感じだ。「Language」で「Japanese」を選び、「Input file location on S3」でS3上の処理対象ファイルのパスを指定する。Formatは拡張子がmp3、mp4など標準のものではない場合、指定しておくとよさそうな気がする。その他の項目は、ひとまずデフォルトのままでいい。

画像1

作成されたJobは、即座に「In Progress(処理中)」のステータスになり、変換処理が行われる。音声ファイルで僕の試した範囲だと、実際の長さの1/5ぐらいの時間で処理されていた。1時間の音声なら、12分ぐらいという感覚だ。ステータスが「Complete」になれば完了で、詳細画面から処理結果をブラウザ上で見たり、JSON形式でダウンロードできる。

ここでは試しに、まず以下のニュースの音声を処理させてみた。

変換結果は次のようになった。僕が実際に聞き比べてみて、誤認識ないし欠落してると気づいた個所を太字にしている。

天皇 皇后 両 陛下 は 即位 の 礼 と 大嘗祭 が 終わっ た こと を 報告 する 信越 の 下 で 京都 市 に ある 明治 天皇陵 を 参拝 さ れ まし た 両 陛下 は 京都 市内 を 車 で 移動 し 午前 十 時 頃 明治天皇 の 陵墓 に 到着 さ れ まし た 参拝 の 前 に は 雨 が 降り 始め 傘 を 差し た 天皇陛下 が 祭壇 に 進み 玉ぐし を ささげ て 腰 を 深く 覆っ て 一 例 さ れ まし た つづ い て 皇后 さま が 祭壇 に 向かい 陛下 と 同様 に 拝礼 さ れ まし た 足 以後新月 野際 天皇陵 の うち 四 大 前 まで を 参拝 し ます 都内 に ある 大正 天皇 と 昭和 天皇 の 陵墓 に は 来月 日 に 訪問 さ れ ます 午後 に は 京都 御所 に 関西 の 各界 代表 者 ら を 招い て 茶会 が 催さ れ 陛下 が お 言葉 を 述べ られ ます

こうして見るとかなりの精度に見えるし、「大嘗祭」なんて言葉を認識しているところはすごくポイントが高い。時事的な言葉を認識させるというのは、かなり難しいことだ。

Amazon Transcribeでテープ起こしはできるか

ただ、そのままテープ起こし等がTranscribeで置き換えられるかというと、微妙だ。例えば「抜群の精度」で「破壊的な文字起こしのスピードと精度」などと評したレポートもあったが、これは英語ニュースを処理対象としたテストだった。第一に英語での提供は以前からされていてチューニングも進んでいるだろうし、第二にニュースの音声というのはゆっくりと丁寧な発話がきれいに録音された理想的な音声データだ。最大限の精度が出る、理想的な実験室データに近い。

僕たちが興味があるのは、今回サポート対象に加わった日本語で、会議やセミナー、パネルディスカッション、インタビューなどで自分で録音したような音声、フィールドデータでの有用性だろう。ちょうどフィンテックエンジニア養成勉強会#4というイベントに行ってきたばかりで、体調(もう体質?)の問題で前回は後半が聞き取れなかったこともあり、録音禁止とはなっていないのをいいことに個人用途で録音していた。この変換結果は、先頭ごく一部だがこうなっている。

パネルディスカッシ の 二 番 目 です ね ビジネス と 組織 名 の ツボ という こと これ は あのー あのー びん 敵 に 限ら ず 今 し て いる そう です ね 訳 です 今日 は あの お 集まり いただい て いる の です あり ます よ ね ベース の 不振 さん で それから フリー の 結局 です ね です うん そう 決め られ まし て です ね

実際に音声を聞きながら内容を起こすと、こういうことを話している。見比べてみると、よく頑張っているとは思うが、誤認識も欠落も結構ある。「フィンテック」や人名に限らず、一般的な言葉が並ぶ部分でも同様だ。

パネルディスカッションの二番目はですね、えー、ビジネスと組織運営のツボということで、わりとこれは、あのー、フィンテックには限らず、あの、ビジネスの本質的なところをですね、皆さんと議論してきたいなと思ってるわけです。で、今日はお集まりいただいているのはですね、こちらに書いてありますように、えー、あの、ベースのえふしんさん、それからFreeeの横路さん。で、お二人共ですね、上場を決められましてですね。

実はJobの作成画面に、多チャンネルとして処理させたり、話者を自動認識させるオプションがある。これらをうまく活用すると、もう少し認識精度や変換結果の使いやすさが向上するかもしれない。ただ話者の認識を、この日の登壇者数に合わせて「4人」と指定してやってみたところ、両音声ファイル合わせて3回試したが3回とも「Internal Failure」となった。AWS側で何らかのエラーが起きたという意味で、それ以上のことはわからない。

それでもTranscribeは未来である

Amazon Transcribeがいますぐに音声文字起こしのニーズをさらってしまうことはない。むしろ文字起こしする人たちが下処理に使うくらいではないかと思う。それでも、Transcribeは未来の破壊的な技術ではないかと思う。

一通り実験してみてすぐに、Facebook内で次のように書いた

・そのまま読める精度の文字起こしではない感じ。誤認識と、言葉を拾えてないケースと両方あり。
・でも単語と、アウトプットの後半に記録されている「何秒~何秒」を対応付けて歌詞表示みたいな感じで音声再生したら何か使えそうな気がした。

これ、精度は仕方ないとして、話者を認識してどこまでが一発話か分かるようにしてくれるとテープ起こしの下処理としてすぐに使えそうだと思ったのだけど、入力フォーマットの指定に「多チャンネル」があったので、多チャンネル録音された音声だとまた違うのかな。

これに対して、知人であるライターの青山さんからやはりこうコメントがあった

取材データでやってみましたが、おおむね同じ感想です。Speaker identificationは2人なら、ちゃんと認識しました。ただ、JSONなんで、ファイルの取り回しがめんどい・・・。one noteみたく、音声ファイルとリンクして再生したり、Confidenceが低いところを色分けとかしてくれる、ブラウザベースのエディタを誰か!

上の方にも書いたけど、Amazon Transcribeはそのまま使うアプリケーションではなく、アプリケーションに組み込むためのPaaSだ。

いまの精度であっても、僕と知人の一致した意見として、自動認識した言葉とその対象個所の音声が対応付けられて扱うエディタがあれば使いどころがありそうな気がする。つまり、自動と人力の組合せであれば、もう使い道がありそうだ。個人用途であればエディタということになるけど、例えばYoutube字幕のようなものであれば、サービスの利用者みんなに修正機能を提供して、クラウドソーシングでの自動と人力の組合せということもできる。

Amazon Transcribeは、いまの時点で破壊的じゃない。でもこれが破壊的アプリケーションを生み出すためのエンジンを提供する可能性は、現時点でも高いと思う。だからやはり「Amazon Transcribeは未来だ」と言いたい。Amazon Transcribeを見て僕らが抱いた期待は、きっとアプリケーション開発して事業化する人が近く出てくるんだろう。

この記事が気に入ったらサポートをしてみませんか?