Microsoft Azure SpeechRecognizerとPronunciationAssessmentによる英語弁論の発音精密審査

2022年5月25日 02:29

経緯と概要

英語発話によるスピーチのEnglish評価は、従来審査担当者の専門知識や経験に基づき行われてきました。私はこれが極力ファジーな指摘に終始しないよう、単語ごとに発話を確認し、必要に応じてコメントを1つずつ入れ、改善の提案を行ってきました。

しかし、内容審査や表現審査と並行してこの分析を行うことは、言うまでもく莫大な時間と労力を要するため、限界を感じてもいました。

そこで今回、東京工業大学の学部生、石川太陽さんにご協力を頂き、Microsoft AzureのSpeech SDKのSpeechRecognizerとPronunciationAssessmentを使い、原稿と音源を照合し、スクリプト中の全語を音素単位で分析し、全音素・全語・全センテンス・全文の評価点を算出するプログラムを開発しました。

"grade-pronounce for Azure Cognitive Services" (概要)[*1]

現在、日本国内で行われている学生英語弁論大会は、標準で最大約8分程度の長さがあります。これをあらかじめ用意された原稿テキストと照合し、非同期的処理による録音音声認識と発音分析により、1音素ごとにその発話精度を分析し、採点することを実現しました。

このプログラムは米国英語のみならず、英国英語を始め、各種英語を基準にした発話評価に対応することができます。のみならず、世界各国の言語にも対応することができます。[*2]

また、原稿がない音源でもSpeechRecognizerの言語認識機能により、録音された音声の発音精度について評価を行うことが可能です[*3]。つまりプリペアードスピーチのみならず、インプロやエクステンポ（即興スピーチ）の精密審査にも対応できることを意味します。

従来、私が手作業で音源を聴きながらプリペアドスピーチ原稿に注釈を入れた場合、800語レベルの1原稿で約80〜120項目程度でしたが、Microsoft Azure Speech SDKによる精密分析により、1原稿当たり約5000項目の分析が可能になりました。

これは尺度にもよりますが、単純な手作業での注釈量と比較すると、従来の30倍〜最大60倍程度の分量に相当します。

AIにより発音を分析し、改善の提案を行うアプリケーションーー例えばELSA SPEAKーーなどは存在していますが、あらかじめアプリケーション側で発話評価に使うテキストが用意されているため、話し手任意のテキストや発話を分析できるわけではありませんでした。

しかしこのプログラムを使えば、話し手が任意に用意した、いかなる原稿や、いかなる発話も認識し、分析することができます。

審査員としてのメリットは、限られた時間でも個々人により精密なフィードバックを行えること、出場者にとっては、自分の改善点をより細かく明確にし、科学的な分析に基づく精度の高い学習ができることにあります。英語弁論のEnglish評価、発音学習は革新を迎えます。新しい地平が拓かれたと言えるでしょう。

[*1] 動作にはMicrosoft Azure Speech SDK並びにPythonの実行環境が必須。
[*2] 発音評価は米国英語での一般公開が発表されており、他の言語はプレビューで利用可能。
[*3] grade-pronouceの動作はテキストとの照応を前提としているため、原稿照応を行わない場合はカスタマイズが必要となる。

この記事が気に入ったらサポートをしてみませんか？