見出し画像

Google Colab で はじめる NEUTRINO v0.400

「Google Colab」で「NEUTRINO v0.400」を試してみました。

【最新版の情報は以下で紹介】

1. NEUTRINO とは

「NEUTRINO」は、「楽譜」から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推論して、「歌声のwavファイル」を出力するツールです。

2. v0.400 の新機能

「NEUTRINO v0.400」は、歌声ライブラリ(東北イタコ)が追加、
各種モデルの品質改善、NSFのサンプリングレートの向上(24kHz -> 32kHz)が行われています。

3. NEUTRINO(オンライン版)の準備

「NEUTRINO(オンライン版)」をダウンロードして解凍してください。「NEUTRINO」フォルダが生成されます。

画像1

フォルダ構成は、次のとおりです。

・score : 入力ファイル
 ・musicxml : 楽譜ファイル
  ・sample1.musicxml
  ・sample2.musicxml
  ・sample3.musicxml
・ouput : 出力ファイル
・model : 音声モデル
 ・ITAKO
 ・KIRITAN
・NEUTRINO.ipynb : ノートブック

「score/musicxml」フォルダに「楽譜ファイル」を配置した後、「NEUTRINO.ipynb」で変換を実行することで、「output」フォルダに「wavファイル」が出力されます。

「model」フォルダには利用可能な音声モデル(イタコきりたん)が同梱されています。謡子JSUTを利用する場合は、「歌声ライブラリ」にある「model-YOKO.zip」「model-JSUT.zip」をダウンロードおよび解凍後、「model」フォルダ下に「YOKO」「JSUT」フォルダをコピーします。

4. 楽譜の準備

「NEUTRINO」で使う楽譜ファイル(*.musicxml)の作成は「MuseScore」推奨です。以下からダウンロードおよびインストールを行います。

MuseScore

「MuseScore」の使い方は、以下で軽く解説してます。

NEUTRINOで歌わせるために必要なMuseScoreの操作方法

今回は、サンプルとして提供されている「/score/musicxml/sample1.musicxml」を使います。

画像2

5. Google Colabの準備

「Google Colab」(Google Colaboratory)は「Google Drive」上で動くPythonの実行環境です。「NEUTRINOフォルダ」を「Google Drive」にコピーし、「Google Colab」のアプリを追加後、ノートブックを開きます。

◎ NEUTRINOフォルダ を Google Drive にコピー
(1) 「Google Drive」にアクセス。
Googleアカウントでのログインが必要です。

(2) マイドライブに「Colab Notebooks」フォルダを作成し、先ほど解凍した「NEUTRINOフォルダ」をコピー。

画像3

◎ Google Colabのアプリの追加
(1) 右側の「+」をクリック後、上側の「検索」(虫眼鏡)をクリック。

画像4

(2) 検索ボックスで「Colab」を検索し、「Colaboratory」を選択して追加。

画像5

◎ ノートブックを開く
「NEUTORINO.ipynb」をダブルクリックして開きます。

画像6

6. ノートブックの実行

(1) 1つ目のセルを選択し、セルの実行ボタンを押す。

画像7

「Google Colab」から「Google Drive」にマウント(ファイルアクセスできるように)します。

リンクが表示されたら、リンクをクリックします。認証コードが表示されるので、それをコピーして、下のテキストフィールドに貼り付けます。

画像8
画像9

(2) 2つ目のセルを選択し、セルの実行ボタンを押す。
「NEUTRINOフォルダ」に移動します。

(3) 3つ目のセルを選択し、セルの実行ボタンを押す。
ファイルが実行できるように権限を設定しています。

(4) 4つ目のセルを選択し、パラメータを確認(今回はそのまま)してから、セルの実行ボタンを押す。

画像10

・BASENAME : musicxmlフォルダ内のファイル名 (デフォルト:sample1)
・NumThreads : スレッド数 (デフォルト:0)
・SUFFIX : 楽譜ファイルの拡張子 (デフォルト:musicxml)
・ModelDir : 音声モデルのフォルダ名 (ITAKO, KIRITAN, YOKO, JUST)
・PitchShift : ピッチ (デフォルト:1.0)
・FormantShift : 声色 (デフォルト:1.0)

成功時には、「Google Drive」の「outputフォルダ」に「wavファイル」が生成されています。

画像11

・sample1_syn.wav : WORLD版 (パラメータをより忠実に再現)
・sample1_nsf.wav : NSF版 (人間の声に近くなるようにニューラルネットで補正)

(5) wavファイルをダブルクリックして歌声を確認。

6. 参考


この記事が気に入ったらサポートをしてみませんか?