VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

Ikemen Mas Kot

2024年4月12日 11:52

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究は、医療領域におけるベトナム語音声認識データセットであるVietMedについて述べています。この研究では、16時間のラベル付き医療音声データ、1000時間のラベルなしの医療音声データ、および1200時間のラベルなしの一般領域の音声データを含むVietMedデータセットを提案しています。VietMedは、総時間、話者数、疾患、録音条件、話者の役割、医療用語、アクセントの7つの側面で世界最大の公開医療音声認識データセットです。また、ベトナム語の音声データセットとしても、総時間の面で世界最大です。さらに、本研究では、ICD-10の疾患グループと国内のすべてのアクセントをカバーした初の医療ASRデータセットを提供しています。さらに、ベトナム語のASRのための最初の大規模な事前学習モデルであるw2v2-VietとXLSR-53-Vietの公開も行っています。また、医療データを使用しない事前学習でも、最も優れた事前学習モデルXLSR-53-Vietは、テストセットでのWERを51.8％から29.6％に減少させることで、医療領域において非常に優れた汎化性能を示しています。すべてのコード、データ、モデルは公開されています。
本研究の目的は、医療領域におけるベトナム語音声認識のためのデータセットであるVietMedを提案することです。VietMedは、医療領域でのベトナム語音声認識のための大規模なデータセットであり、総時間、話者数、疾患、録音条件、話者の役割、医療用語、アクセントの側面で世界最大です。また、ICD-10の疾患グループと国内のすべてのアクセントをカバーしています。さらに、ベトナム語のASRのための最初の大規模な事前学習モデルと、医療ASRのための最初の大規模なファインチューニングモデルも提供しています。これにより、医療領域におけるベトナム語音声認識の研究を促進することを目指しています。
本研究で使用されたデータは、VietMedと呼ばれるベトナム語の医療領域の音声認識データセットです。このデータセットには、16時間のラベル付きの医療音声データ、1000時間のラベルなしの医療音声データ、および1200時間のラベルなしの一般領域の音声データが含まれています。VietMedは、総時間、話者数、疾患、録音条件、話者の役割、医療用語、アクセントの側面で世界最大の公開医療音声認識データセットです。データの利用可否については、論文中に明示的な記述はありませんが、論文の最後にはコード、データ、モデルが公開されていることが記載されています。
本研究で使用された手法は、ベトナム語の医療領域における音声認識のためのデータセットであるVietMedを作成するために使用されました。具体的な手法については論文中には詳細な説明はありませんが、データの収集にはYouTubeからの音声データのクロール、非音声要素の削除、自動生成されたトランスクリプトの手動修正などが行われました。また、医療領域における音声認識のための事前学習モデルやファインチューニングモデルの開発も行われました。詳細な手法については、論文のコードやデータの公開先で確認することができます。
本研究によって明らかになったことは、以下の通りです。

VietMedは、医療領域におけるベトナム語音声認識のための世界最大の公開データセットであり、総時間、話者数、疾患、録音条件、話者の役割、医療用語、アクセントの側面で他のデータセットを上回っています。
VietMedは、ベトナム語の音声データセットとしても、総時間の面で世界最大です。
VietMedは、ICD-10の疾患グループと国内のすべてのアクセントをカバーした初の医療ASRデータセットです。
本研究では、医療領域におけるベトナム語音声認識のための最初の大規模な事前学習モデルとファインチューニングモデルも提供されています。
事前学習モデルXLSR-53-Vietは、医療データを使用しない事前学習でも、医療領域での性能が非常に優れています。テストセットでのWERが51.8％から29.6％に減少し、40％以上の相対的な改善が見られました。

以上が、本研究に関する内容の詳細な説明です。

この記事が気に入ったらサポートをしてみませんか？