東北イタコを語りたい！データベース制作プロジェクト

2020年7月22日 21:21

イタコ姉さまは東北家の中で一番お気に入りのキャラクター。とてもかわいいそして大人っぽい美しさもある。そんなイタコ姉さまが歌唱データベースを製作するということで私もわずかながら支援している。

このデータベース制作プロジェクトの話を聞いて「思い切ったことをしたなぁ」と驚きまた「ものすごくありがたい」と思った。
イタコ姉さまが好きということもあるが、私も統計やAIなどを扱っている身として、データベースを作ることがどれだけ重要で大変な事かもわかっている。イタコ姉さまで作ってくれるのはとてもうれしい。

データベースの使い道

前例としては「東北きりたん歌唱データベース」がある。そしてきりたんデータベースを使って作られたのがNEUTRINOである。楽譜を人間っぽくリアルに歌ってくれるAIきりたんとして話題となった。

研究者に公開することが目的であるため実際何ができるかがわからない。少なくともAIきりたんと同じAIイタコはできると思っているがそれ以上に何ができるかが未知である。
ストレッチゴールの読唇データベースができれば、自分の口パクからイタコ姉さまの声が出るなんてできるかもしれないが結構難しそう。

歌唱データベース

このプロジェクトの目的は、「東北イタコ歌唱データベース」を作って研究者に向けて公開することである。
ここで、なじみがないと「データベースってなんだ？」って人がいるかもしれない。私も最初このプロジェクトの内容を見てやりたいことはなんとなくわかったが実際歌唱データベースがどんなものだかイメージがわかなかった。

歌唱データベースは3つの要素で出来ている。(きりたんはこうだった)
・歌唱データ
・楽譜データ(ラベル)
・音素境界データ(ラベル)

歌唱データ収録は東北イタコ(CV:木戸衣吹)さんが発声しそれを収録したものである。
楽譜データはその名の通り歌唱データをもとに作られた楽譜である。
音素境界データは音素に分解し発声データに合わせて発声に合わせた音素を当てはめたデータとなっている。
きりたんは音素境界データを聞いた感じ発声に合わせてピアノの音を合わせているようなものだった。

音素（おんそ、英: phoneme）とは、言語学・音韻論において、客観的には異なる音であるが、ある個別言語のなかで同じと見なされる音の集まり。
　ウィキペディア（Wikipedia）

読唇データベース

ストレッチゴールの「東北イタコ読唇スピーチ用データベース」は唇の動きとそこからわかる発話内容のデータベースである。

むしろストレッチゴールからがこのプロジェクトの本番である。
読唇データベースは日本人の公開データが少なく集めることは難しい。
この読唇データベースは研究者向けに公開されるため、データが少なく研究が進まなかった研究者が使うことができる。
つまりイタコ姉さまが読唇技術の基準となりうるのだ。

読唇データベースはwebページを見る限り2つの重要な基盤がある。
・ITAコーパス
・読唇用データ

ITAコーパス

ITAコーパスとはこのプロジェクトで制作されるコーパスである。

コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。
　ウィキペディア（Wikipedia）

コーパスで一般的に使われているのが「ATR503」というものがあるのだが、これはATR社の著作物であり、自由に使うことができない。
よってこのプロジェクトで研究者誰もが自由に使えるように新たに作ったコーパスがITAコーパスである。

読唇用データ

正直webページを読んだだけではどのようなデータセットになるかはわからない。私の解釈で言うとITAコーパスを読んだ時の口回りの映像データ、その時の音素データ、発声データ(これはあるかわからない)があると思われる。

一般的にはコーパスを読む時点で権利的に公開は難しく、映像データにもなると個人のプライバシーにもかかわるため公開が難しくなる。
よってこちらもこのプロジェクトで制作した読唇用データであれば、研究者が自由に使えるのである。

終りに

私はまだ駆け出しのデータサイエンティストであり、研究とかも全然わからないが、このデータベースそして東北イタコが今後のAI分野の発展に大いに貢献すると考えるとワクワクしてくる。

そして最後にこのクラウドファンディングは2020/7/31まで

この記事が気に入ったらサポートをしてみませんか？