Google Colab ではじめる NEUTRINO v0.400

npaka

2020年9月20日 06:35

「Google Colab」で「NEUTRINO v0.400」を試してみました。

【最新版の情報は以下で紹介】

1. NEUTRINO とは

「NEUTRINO」は、「楽譜」から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推論して、「歌声のwavファイル」を出力するツールです。

2. v0.400 の新機能

「NEUTRINO v0.400」は、歌声ライブラリ（東北イタコ）が追加、
各種モデルの品質改善、NSFのサンプリングレートの向上（24kHz -> 32kHz）が行われています。

3. NEUTRINO（オンライン版）の準備

「NEUTRINO(オンライン版)」をダウンロードして解凍してください。「NEUTRINO」フォルダが生成されます。

フォルダ構成は、次のとおりです。

・score : 入力ファイル
　・musicxml : 楽譜ファイル
　　・sample1.musicxml
　　・sample2.musicxml
　　・sample3.musicxml
・ouput : 出力ファイル
・model : 音声モデル
　・ITAKO
　・KIRITAN
・NEUTRINO.ipynb : ノートブック

「score/musicxml」フォルダに「楽譜ファイル」を配置した後、「NEUTRINO.ipynb」で変換を実行することで、「output」フォルダに「wavファイル」が出力されます。

「model」フォルダには利用可能な音声モデル（イタコ、きりたん）が同梱されています。謡子、JSUTを利用する場合は、「歌声ライブラリ」にある「model-YOKO.zip」「model-JSUT.zip」をダウンロードおよび解凍後、「model」フォルダ下に「YOKO」「JSUT」フォルダをコピーします。

4. 楽譜の準備

「NEUTRINO」で使う楽譜ファイル(*.musicxml)の作成は「MuseScore」推奨です。以下からダウンロードおよびインストールを行います。

・MuseScore

「MuseScore」の使い方は、以下で軽く解説してます。

・NEUTRINOで歌わせるために必要なMuseScoreの操作方法

今回は、サンプルとして提供されている「/score/musicxml/sample1.musicxml」を使います。

5. Google Colabの準備

「Google Colab」（Google Colaboratory）は「Google Drive」上で動くPythonの実行環境です。「NEUTRINOフォルダ」を「Google Drive」にコピーし、「Google Colab」のアプリを追加後、ノートブックを開きます。

◎ NEUTRINOフォルダを Google Drive にコピー
(1) 「Google Drive」にアクセス。
Googleアカウントでのログインが必要です。

(2) マイドライブに「Colab Notebooks」フォルダを作成し、先ほど解凍した「NEUTRINOフォルダ」をコピー。

◎ Google Colabのアプリの追加
(1) 右側の「＋」をクリック後、上側の「検索」（虫眼鏡）をクリック。

(2) 検索ボックスで「Colab」を検索し、「Colaboratory」を選択して追加。

◎ ノートブックを開く
「NEUTORINO.ipynb」をダブルクリックして開きます。

6. ノートブックの実行

(1) 1つ目のセルを選択し、セルの実行ボタンを押す。

「Google Colab」から「Google Drive」にマウント（ファイルアクセスできるように）します。

リンクが表示されたら、リンクをクリックします。認証コードが表示されるので、それをコピーして、下のテキストフィールドに貼り付けます。

(2) 2つ目のセルを選択し、セルの実行ボタンを押す。
「NEUTRINOフォルダ」に移動します。

(3) 3つ目のセルを選択し、セルの実行ボタンを押す。
ファイルが実行できるように権限を設定しています。

(4) 4つ目のセルを選択し、パラメータを確認（今回はそのまま）してから、セルの実行ボタンを押す。

・BASENAME : musicxmlフォルダ内のファイル名 (デフォルト:sample1)
・NumThreads : スレッド数 (デフォルト:0)
・SUFFIX : 楽譜ファイルの拡張子 (デフォルト:musicxml)
・ModelDir : 音声モデルのフォルダ名 (ITAKO, KIRITAN, YOKO, JUST)
・PitchShift : ピッチ (デフォルト:1.0)
・FormantShift : 声色 (デフォルト:1.0)

成功時には、「Google Drive」の「outputフォルダ」に「wavファイル」が生成されています。

・sample1_syn.wav : WORLD版 (パラメータをより忠実に再現)
・sample1_nsf.wav : NSF版 (人間の声に近くなるようにニューラルネットで補正)

(5) wavファイルをダブルクリックして歌声を確認。

6. 参考

この記事が気に入ったらサポートをしてみませんか？