新しい日本語大規模音声コーパス

2023年1月27日 17:23

0. この記事から理解できることは？

ReazonSpeechとは何か

1. ReazonSpeechとは

ReazonSpeechは、レアゾン・ヒューマンインタラクション研究所によって開発され、2023年1月に公開された、世界最高レベルの高精度日本語音声認識モデルおよび世界最大（19,000時間）の日本語音声コーパスです。

「ReazonSpeech」の特徴として以下が挙げられます。

・ReazonSpeech音声認識モデル：
OpenAI Whisperと同精度の日本語音声認識モデル。（商用利用可）

・ReazonSpeechコーパス作成ツール：
TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。
（商用利用可）

・ReazonSpeech音声コーパス：
世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス

　　　　　　　　　　　　　　　　　　　　　　　　いずれも無償にて公開

以下それぞれの特徴について詳しく見ていこうと思います。

1.1 音声認識モデル

表1は「ReazonSpeech」コーパスを用いて構築した音声認識モデル（ESPnet）と、他の主要な音声認識モデルである OpenAI Whisper, LaboroTVSpeech との精度比較結果を表しています。
CERは文字誤り率を意味し、以下の計算式で計算可能です。

$${文字誤り率＝（挿入語数＋置換語数＋削除語数）／正解語数}$$

表1に出てくるReazonSpeech以外の音声コーパスは全部で3つです。

JSUT Basic5000：クラウドソーシングプロジェクトとして集められた音声をまとめたコーパス。録音用ので文章として、5000文用意されている。参加者は任意の番号の分を録音することが可能。

Common Voice：クラウドソーシングプロジェクトとして集められた音声をまとめたコーパス。多言語の音声があるのが大きな特徴の一つ。

Laboro TV：ワンセグTV録画から抽出した約2,000時間の音声データから構成される音声コーパス。

表1に出てくるReazonSpeech以外のモデルは2つです。

OpenAI Whisper : ChatGPTなど最先端のAIプロダクトを次々に発表している米国の人工知能研究所OpenAIが2022年9月に公開した音声認識モデル。

ESPnet : E2E音声処理のためのオープンソースツールキット。渡部晋治氏をリーダーとして、様々な大学や研究機関、企業に属する日本人が中心となって開発が行われたモデル。

表1から分かるようにReazonSpeechは他の高精度の音声認識モデルと比べても同等もしくはそれ以上の精度になっています。

精度の評価については、下記論文によると
話し言葉の音声認識の進展―議会の会議録作成から講演・講義の字幕付与へ河原達也

人間が見て意味が分かるレベルは75%~
議会の議事録レベルは85%~
アナウンサーの原稿読み上げレベル95%~

となっています。

従って、音声認識の精度は、最低限75%は必要であり、90%以上あればプロダクトにも反映できる可能性が高いです。
ただし、音声認識の精度はドメインや雑音量によってかなり変わるため、表1の結果からだけではどのようなシチュエーションでは応用可能かの断言は出来ません。

また、一般に音声認識モデルのパラメータ数と精度はトレードオフの関係にあります。つまりパラメータ数が多いほど高い精度になりやすいがパラメータ数が多いとその分処理時間がかかる。
従って、パラメータが少ないが精度が高いモデルは価値が高くなりやすいです。

「ReazonSpeech」＋「ESPnet」は、少ないパラメータ数で「OpenAI Whisper」の最大サイズモデルであるlarge-v2と同等の精度を達成しています。

1.2 音声コーパス

ReazonSpeechの音声コーパスは以下の流れで作成された。

ワンセグTV録画データ等から音声発話部分を切り取る
Mozilla Common Voiceを基に作成した音声認識のモデルを用いてアラインメント処理を行う
2の作業で得られた音声コーパスを元にして再度アラインメント処理を実行する
2,3を繰り返し行う

発話内容の一例は、以下のとおりである。

・「ニュースナイトＪ」
・「地元メディアによりますとこの法律の発動は１９８８年の制定以来、初めてで警察の権限を強化して、危険な抗議活動を、より厳しく取り締まれるようになるなどということで実際に事態の打開につながるのかが焦点となります。」
・「両方に責任があって請求できると思うんですよね。」
・「こんなこんな小さいのよ。」
・「それからこの部分かすれて読めなくなっていた文字を復元したところ。」
・「ただですね、トルコがフィンランドとスウェーデンの加盟に否定的な姿勢を示しています。」
・「うん確かに困りましたなあ。」
・「販売から２か月ほどで、２２８０万枚を出荷。」
・「焼け跡から見つかったのは、船戸秋雄さん７３歳。」
・「ウクライナの軍隊にとって、確実に力を与えます。」
・「プリンセスチームに上がってほしかったって言われたときはやっぱり正直、本当に悔しかった。」
・「例えば、いつもと様子が変わったり、急に連絡が取れなくなったりしたら、すぐに声をかけてあげてくださいということでした。」
・「そうだな。」

発話内容の種類は豊富であり、句読点も含まれた形のデータとなっているが予測時には句読点は出ない模様。

サンプリングレートは16Kで、音声データによっては雑音が乗っているものもあった。
音声の長さも短いものは2~3秒だが、長いものは20秒以上の音声データも存在していた。
音声データは拡大していく予定のようです。

2. まとめ

今日は先週発表されたReazonSpeechについてまとめました。
今まで、日本語の音声コーパスで無料で使えるものが多くはなかったので、ReazonSpeechは研究でもかなり有益なコーパスです。

今後、ReazonSpeechのデータの解析やReazonSpeechを用いた実験などを行いさらに理解を深めたいと思います。
ReazonSpeechについては以下のリンクからより詳細なことについて知れます。
ReazonSpeech/reazonspeech/data at master · reazon-research/ReazonSpeech (github.com)

この記事が気に入ったらサポートをしてみませんか？