見出し画像

音声合成・歌声合成のコーパス まとめ

音声合成・歌声合成のコーパスをまとめました。

1. 音声合成のコーパス

主に「テキスト → 音声」「音声 → テキスト」「音声 → 音声」のモデルの学習に利用します。

◎ JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)
1人話者10時間の日本語音声コーパスです。

次のような、音声コーパスが含まれています。

・basic5000 : 常用漢字の音読み・訓読みを全てカバー
・utparaphrase512 : 文の一部を読み替えたもの
・onomatopee300 : 日本語オノマトペ
・countersuffix26 : 助数詞
・loanword128 : 外来語由来の動詞・名詞 (e.g., ググる)
・voiceactress100 : 声優統計コーパス (プロ女性声優のフリーコーパス) とのパラ音声
・travel1000 : 旅行ドメインのフレーズ
・precedent130 : 判例文
・repeat500 : 繰り返し発話された音声 (100文 * 5回)

◎ JVS (Japanese versatile speech)
100人話者100発話の日本語音声コーパスです。

次のような、音声コーパスが含まれています。

・parallel100 : 話者間で共通する読み上げ音声100発話
・nonpara30 : 話者間で全く異なる読み上げ音声30発話
・whisper10 : ささやき声10発話
・falsetto10 : 裏声10発話

◎ つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)
JVSに準拠したコーパスです。

◎ 声優統計コーパス(JVSコーパス準拠)の収録&配布者リスト
JVSに準拠したコーパスの一覧です。

◎ JSSS (Japanese speech corpus for summarization and simplification)
1人8時間の日本語音声合成コーパスです。

次のような、音声コーパスが含まれています。

・summarization : 時間制約付き音声要約
・simplification : ”やさしい日本語” 音声
・short-form : 短文読み上げ
・long-form : 長文読み上げ

◎ J-MAC (Japanese multi-speaker audiobook corpus)
39人話者によるオーディオブックの日本語音声コーパスです。

◎ ITAコーパスマルチモーダルデータベース
3人話者424発話の日本語音声コーパスです。

次のような、データが含まれています。

・音声データ
・音声の境界などが入ったラベルデータ
・口の動きの画像データ
・口の動きの座標をまとめたデータ

◎ Japanese Single Speaker Speech Dataset
夏目漱石の明暗を朗読したデータセットで、6841個の音声ファイルが含まれています。

◎ VOICEROID
コーパスを作成するツールとして利用できます。

◎ The LJ Speech Dataset
1人13,100発話の英語音声コーパスです。

◎ Nancy corpus
1人の英語音声コーパスです。

2. 歌声合成のコーパス

主に「楽譜 → 歌声」「歌声 → 楽譜」「歌声 → 歌声」のモデルの学習に利用します。

◎ JUST-song
1人歌唱者27曲の日本語歌声コーパスです。歌声合成エンジン「NEUTRINO」でも利用されています。

◎ JVS-MuSiC
100人歌唱者2曲の日本語歌声コーパスです。

◎ 東北きりたん歌唱データベース
1人歌唱者50曲の日本語歌声コーパスです。歌声合成エンジン「NEUTRINO」でも利用されています。

◎ PJS
音素バランスを考慮した日本語歌声コーパスです。

4. 参考



この記事が気に入ったらサポートをしてみませんか?