ボカロに関連するアカデミックな取り組みをまとめてみる

2023年10月10日 19:17

ボカロに関係する学術的な取り組みを調べてみたら，面白いものが多かったので簡単にまとめてみました．

音楽情報処理に関する研究（産総研）

音楽情報処理とは，その名の通り音楽を対象とした情報処理技術の研究開発を行う分野である．音楽情報処理で取り扱われるトピックは，歌声合成，自動採譜，自動作曲，音楽情報検索，音楽鑑賞インタフェースなど多岐にわたる．

国立研究開発法人　産業技術総合研究所（通称: 産総研）の首席研究員である後藤真孝氏は，この音楽情報処理の研究に長年取り組み，創作活動やリスナー活動を支援する仕組みの開発を行っている．研究成果は実際にWebサービスなどとして公開しており，代表的な事例には，Songle（インターネット上にある音楽コンテンツの楽曲構造などの「楽曲の中身」を可視化するWebサービス）やKiite Cafe（そこに居るだけで「好き」がみんなに伝わる「音楽発掘カフェ」）などがある．サービスの詳細は下記のリンクから見ることができる．

これらのサービスは，初音ミクの権利元であるクリプトン・フューチャー・メディアやニコニコ動画を展開するドワンゴなどと連携しながら徐々にユーザーを増やしており，いまやボカロ界隈に不可欠な存在になりつつある．

ボーカロイド音楽論（東京大学）

人文科学の視点でボカロを論じる取り組みも行われている．最も有名な取り組みの一つとしては，ボカロPで音楽評論家の鮎川ぱて氏が，2016年より東京大学にて開講している「ボーカロイド音楽論」が挙げられるだろう．

この講義は，東京大学教養学部前期課程・主題科目として開講され，単位認定も行われるれっきとした大学の講義である．内容としては，具体的な作曲技術を取り扱ったものではなく，人文科学系の文脈において，記号論，ジェンダー論，精神分析などを用いて歴代のボカロ楽曲を批評することを通し，ボカロ文化や音楽そのものの本質を追求することを目的としている．

東京大学の学生を対象とした講義であり，講義自体は基本的に公開されていないが，その内容は書籍『東京大学「ボーカロイド音楽論」講義』に約500ページに渡ってまとめられている．はっきり言って容易に理解できる内容ではないが，注釈などで背景の解説も適宜されているので，読書の秋に是非ともチャレンジして頂きたい．

音声合成に関する研究（名古屋工業大学）

近年の（広義）ボカロ文化を下支えしているのは，音声合成技術の発展であるといっても過言ではないだろう．Synthesizer VやCeVIO AIといった人工知能技術を活用した合成エンジンが登場したことにより，素人には聞き分けられないほど人間らしい声を合成することも可能となった．これらの製品の登場は，これまでボカロ界隈への参入を躊躇していたクリエイター層が，参入を決意するきっかけを与えた．（実際に「Synthesizer Vがなかったら，この界隈には来なかった」というPさんの話を伺ったことがある）

その音声合成技術に関して顕著な成果を上げているのが，名古屋工業大学の徳田恵一教授をはじめとした研究者たちだ．彼らは，研究成果を論文として発表するのみならず，実際に商用製品やオープンソースソフトウェア（OSS; Open Source Software）として世に送り出す活動にも力を入れている．彼らが主要メンバーとなって設立された株式会社テクノスピーチは，CeVIO AIやVoiSonaなど，ボカロ界隈にとって非常にインパクトのある製品を開発している．テクノスピーチでは，他にもユーザーのオリジナルボイス音源を作成するサービスや，歌声合成ソフトウェア開発キットなど，興味深い事業を多く展開しており，今後の動向が注目される．

その他の取り組み

その他にもボカロやその周辺分野を取り扱う論文は多く発表されており，簡単に検索しただけでも九州大学や武蔵野大学などの事例が確認できる．また，非公開の卒業論文などでの取り組みも存在すると推測される．

書籍としては，VOCALOID開発メンバーである剣持秀紀氏による技術解説本『ボーカロイド技術論~歌声合成の基礎とその仕組み~』や，初音ミク周辺のユーザーコミュニティについてマーケティング上の実証研究から考察した片野氏・石田氏による書籍『コミュニティ・ジェネレーション　-　「初音ミク」とユーザー生成コンテンツがつなぐネットワーク』などが出版されている．

おまけ

当然ながら企業やオープンソースコミュニティにおいても，製品開発の取り組みが数多く行われている．タイトルの内容からは外れるかもしれないが，おまけとしていくつかピックアップして紹介する．

VOCALOID β-STUDIO

VOCALOID β-STUDIOは，ヤマハが2024年3月末までの期間限定で設立した『研究スタジオ』である．研究開発段階にある試作DAWプラグインであるVX-βを希望者の中から抽選で無償配付し，ユーザーからのフィードバックを製品開発に活かすという内容のプロジェクトである．

VOCALOIDの産みの親であるヤマハのプロジェクトであることはもちろん，β版ボイスバンクに，UTAUの人気音源であるゲキヤク，カゼヒキが採用されたことなどから，界隈からの反響は非常に大きく，今後とも要注目のプロジェクトであると言える．

CoeFont

AI音声プラットフォーム「CoeFont（コエフォント）」は，東京工業大学発のベンチャー企業である株式会社CoeFontが展開するサービスである．社名の由来は，文字のフォントのように，誰もが手軽に自由に使える「声のフォント」を目指したいという想いからだという．

皆さんが最もピンとくるのは，なんといっても「おしゃべりひろゆきメーカー」だろう．ブラウザ上で文章を入力すると，その通りにAIひろゆきが喋ってくれるサービスである．2022年9月5日に期間限定で公開されたと同時にTwitter上で大バズりし，1週間で4億文字を超える出力を記録した．

プロモーションとして大成功を収めた「おしゃべりひろゆきメーカー」だったが，やはりCoeFontを特徴づけるのはユーザー音声作成の手軽さだろう．同社によると，これまで50万円・10時間以上の収録を必要としていたAI音声を，CoeFontでは500円・15分の収録で行えるようにしたという．

「おしゃべりひろゆきメーカー」から1年，企業の導入事例も増え成長を続けている同社，今後の展開にも期待が高い．

OpenUtau

OpenUtauは，StAkira氏を中心にGitHub上で開発されている，UTAU音源が使用可能なオープンソースのエディタである．開発は主に英語で行われており，海外ユーザーをメインに意識していると思われるが，日本語対応も進んでおり，我々も特に苦労することなく使用できる．

モダンなUXや充実したコミュニティなど，DTMerにとって嬉しいことが多いらしい（が，私はリスナーなので詳細は他記事にお願いします）．UTAUの本体アプデは長年停止しているため，OpenUtauに期待感をもって移行するユーザーも増えているようだ．

VOICEVOX

VOICEVOXは，Hiroshiba氏を中心にGitHub上で開発されている無料のテキスト読み上げソフトウェアである．こちらはOSS版と製品版が用意されており，違いは主にキャラクターの有無である．キャラクターのライセンスにはOSSの定義と相反する内容が含まれる場合があり，そのような衝突を避けるためにこのような措置が取られている．（詳しくはこちらを参照）

利用は商用・非商用ともに無料であり，導入も容易で非常に使いやすい．また，ずんだもんや春日部つむぎなどの人気キャラクターが揃っており，ユーザーからの認知度も高い．OSSのため，有志による開発が日夜行われており，今後もトーク系動画界隈で確固たる地位を維持すると思われる．

おわりに

内容に誤り等あれば遠慮なく指摘お願いしますm(_ _)m

この記事が気に入ったらサポートをしてみませんか？