映像で伝える音楽ライブ

2020年12月18日 03:18

はじめに

これは、memex主催のアドベントカレンダー「VR音楽活動のススメ Advent Calendar 2020」、18日目の記事です。

こんばんは、じぇしか (https://twitter.com/jscmla1118)_です。VR上でライブやMVを撮影したり、してなかったり。自己紹介をしたいところですが、詳細はTwitterをご覧ください。

早速ですが、本題に入ります。2020/11/28にVRChatにて、VR音楽ライブイベント『memeと森と蚕』を開催いたしました。僕は隣町本舗と共同主催であるとともに、ライブオペレーターとして関わっています。

このライブ、去年2019/11/16にもclusterにて開催しており、約1年ぶりの公演です。とはいうものの、結構事情が異なります。clusterは出演者側から見えるお客さんの人数が制限はあるものの、会場の入室は500人まで可能ということで、実質的には無制限でした。しかしVRChatには同様の仕組みがなく、負荷の観点から入場者数を20人に制限しました。

このような背景があり、VRに慣れ親しんでいない人も含めた多くの人にライブを楽しんでもらいたく、初めてYouTube動画配信も同時に行ないました。昨今のコロナ情勢もあり、動画配信を活用したライブは一般的になってきていたので、この方針自体は特段変わったことであるとは感じていませんでした。その一方で、聴覚が主軸となる音楽を"視覚的"にも伝えるという話は意外と見かけておらず、もしかしてこのあたりの話って貴重なのでは？と思っていました。

そこで今回は、先のライブイベント『memeと森と蚕』を事例として、動画配信で音楽ライブの雰囲気を"視覚的"に伝えるために考えていたことや工夫について、語っていこうと思います。主にカメラの話ばかりで、VRChat特有の話もありますが、リアルライブオペレーションの観点に基づいているところはあるので、部分的にでも音楽ライブ配信の参考になればと思っています。

あ、先にお伝えしておきますが、読み進めていくうちに「VRライブの配信ってこんなに面倒なの...」と思ってしまうかもしれません。とはいえ、これはあくまで一例であって、ライブ配信のときにはカメラをポンッと置くだけでも大丈夫です。「VRライブ配信ではこんなことを意識していたよ！」ということを知ってもらい、少しでも参考にしてもらればと思う次第です。

当日の役割

突然ですが、動画をご覧になって僕の存在を検知できたでしょうか？動画に映るのは出演者と観客だけで、ライブオペレータといっても"表面的"には存在していません。「それじゃあ、一体何をしていたのか？」ということで、僕が行なっていた作業を洗い出しました。

VRChat
・カメラのモニタリング
・カメラの操作（切替とドローン操縦）
・音声（演奏）のモニタリング
・フレームレートのモニタリング
・オープニング、出演者紹介動画の再生

OBS
・画面切替（待機画面とVRChat画面）
・音声のモニタリング
・YouTube配信

YouTube
・配信のモニタリング（画面と音声）
・コメントチェック

その他
・タイムキーパー
・出演者の準備確認
・トラブルの報告

ざっくり、これらの作業を一人で行なっていました。出演者の方には極力演奏に集中していただきたいところではあるので、可能な限り雑務は僕が受け持ちます。とはいっても、VR会場にて参加される観客の案内までは手が回らなかったので、お手伝いをお願いしました。もちろん、オペレータの役割はもっと分割して、数人で回すべきだと思います。

ここから、主にカメラ操作と映像に落とし込むまでのオペレーションについて、自分の観点を交えながら掘り下げていきます。OBSを使ったYouTube配信の方法については主題と外れますし、いくらでも事例が出てくる話なので割愛します。また、運営に関するお話も今回は割愛します。

映像の画作り

技術の話に入る前に、まずは画作りについて考えていたことをお話しておきます。音楽はその名の通り、聴いて楽しむ印象が強いかとは思います。しかし、そこに視覚的な効果が交わることで音の印象を強めたり、その曲の背景にあるストーリーをより具体的に描写することも可能です。MVなんかは、まさにその曲がもつテーマやストーリを視覚的にも語るものが多い印象があります。

また一方で、ライブ映像はMVと比較するとまた性質が異なると思っています。これは個人的な解釈ですが、MVの映像はその曲のモチーフにもなる景色やモノを織り交ぜることで"文脈的"なニュアンスを伝えることに主軸を置いている一方、ライブ映像は演出で曲の表情を具現化させつつ、観客も大々的に映すなどして、その場の臨場感を伝えることに主軸を置いている印象が強いです。

今回のライブ映像でも、臨場感を主軸に伝えていこうという気持ちがありました。しかしVRChatの制約上たくさんの観客に来ていただくことが難しいという背景もあり、臨場感に重点を置くのは中々に厳しいと感じていました部分もあります。反面、物理的な空間では実現できないような迫力のある、VRならではの演出を用意していただくこともできました。そのため、演出がもつ大きな力と、出演者の表情や身体の動きとして表れている心情に着目し、会場の臨場感や曲が語る文脈を踏まえて、視覚的に伝えられる映像をイメージしていきました。

機材の整理

画作りの枠組みをある程度考えられたところで、それらを実現する手段となる機材を、オペレーションの観点も意識しながら整理していきます。今回用意したのは、大きく分けて2つの機材でした。

カメラ
まず絶対に必要なのは『カメラ』です。これがないと始まりません、画面は真っ暗闇のまま。一般的な音楽ライブのようなイベントでは、カメラ一台につき最低一人のカメラマンが配備されるかと思います。加えてカメラの構成によっては、クレーンやドリー（レールカメラ）の操縦者が配置されていたりもするようです。下記の動画が一例として参考になると思います。

今回のライブでは、クレーンやドリーをその場で、しかも一人で手動コントロールするほどの余裕はありません。そのため、これらのパターンをアニメーションとして事前に複数用意し、本番ではそれを切り替えるような手法を利用しました。ただしそれでも画としては既視感が生まれたり、対応しきれない画があったりもしたので、その場で自由自在にコントロールできるドローンカメラも配備して対応しました。

ライブスイッチャー
次に、カメラで撮影した各々の映像を一度集約させる必要があります。このとき使用されるのは、『ライブスイッチャー』というツールです。これは、各カメラが撮影している映像を画面に一覧化して表示するとともに、配信に送出するための映像を切り替える役割を担っています。切替のタイミングで、トランジションのエフェクトを加えることも可能だったりします。このスイッチャーを操作するオペレータも、最低一人は必要になってきます。

これに加えて、逐一映像を確認しながらカメラマンに指示を出したり、送出する映像とタイミングを指示するオペレータも必要になります。下記の動画、46:59あたりのオペレーションが該当します。

機材の準備

必要な機材はざっくり上記の2つなのですが、それをそのまま同じようなものを作ればよい、といわけにはいきません。不要なものはそぎ落としますし、逆に機能として必要なものは独自に準備する必要があります。

要件整理
モノとして機材を準備する前に、まずは要件を整理しました。音楽に視覚的な効果を加えて印象づけるためには外せない要件は、いくつかあります。

ひとつは「演奏に合わせて映像を切り替えられること」です。単純に、曲の展開に合わせて映像が切り替わるだけでも、納得感のあるメリハリと統一感が生じます。逆にタイミングの合っていないカメラワークになると頭が混乱し、かえって演奏に集中できなくなったりします (個人的な見解です) 。

次に「常に複数の映像を動的にモニタリングでき、意図した視点映像に切り替えられること」です。これは、出演者が伝えたいメッセージを汲み取って焦点をあてるためには必須です。これに関しては、事前に出演者からセットリストのオケを貰っておくことができるのであれば、あらかじめ用意したカメラワークだけでも対応は可能だったりします。過去にカメラを担当していた第2回アルテマ音楽祭では、本番前からセットリストが共有されていたこともあって、曲のストーリーに合わせる形で事前にカメラワーク設定をできました。下記動画のはるきねるさん (2:55:35付近) 、波羅ノ鬼さん (4:06:00付近)のカメラワークが該当します。

今回のライブではセットリストを事前に固めておくということが難しかったので、リアルタイムにカメラを操作できるような仕様にすることを決めました。ちなみライブでは出演者の心情によって表情や演出が変わってくることも多々あるので、その場で空気を読みながら適した映像を選択できるというメリットはあります。正直なところ、まさに"ライブ感"を伝えるという点ではリアルタイムオペレーションの方が適していると思います。

また上記と同様の話でもあるのですが「出演者の表情や動きを中心に捉えることができる」ということも必要でした。特に顔をズームで捉えるショットはリップシーンと呼ばれるもので、顔に現れている心情をグッと印象づけることができます。また画としてもコントラストが生まれるので、映像としてメリハリをつけるのにはうってつけです。

最後にもう1つ、これは映像表現になるのですが「切替のエフェクトとしてDissolve (フェード)を使用できること」も必要な機能であるとして盛り込んでいました。動画を見ていて気がついた方もいるかと思いますが、映像が滑らかに切り替わるシーンがいくつかあります。映像がパッと切り替わるのが基本的ではあるのですが、ややキリっとした、メリハリのある印象がありませんか？例えば、伸びやかなロングトーンやゆったりとしたバラードなどでパッとを切り替えてしまうと、聴覚と視覚の解釈がかみ合わずに違和感が生じてしまいます。その辻褄を合わせるために、滑らかに画面を切り替えられるようにしたいということで、この機能は必須だと判断しました。実際に、出演者である隣町本舗の『青い亡霊』(ライブ動画14:01~) 、memexの『Permitted Lives』(同40:20~) にて、積極的に使用していることがわかります。

実装
これらの方針が固まったところで、機材を"実装"していきます。普通、機材というとお金を出して揃えるものですよね。しかしVRChatの場合は、無料のUnityを使って開発してしまうことができます。裏を返すと機材が存在しないということなのですが。また、お金の代わりに時間が必要にはなるので「コストがかからない」と言うと、それも嘘になります。世知辛いですね。技術のお話は今回の主題から逸れてしまうので詳しくは語りませんが、VRCSDK2をベースに実装しています。なので、そこまで自由度のある実装ではありませんでした。

オペレーション

機材を用意したところで、それらの仕様とオペレーションについて話していきましょう。具体的な実装は気にする必要はないので省きますが、仕様に関しては参考になるかと思うので、詳細に述べていきます。

ライブスイッチャーの構成
先ほど述べた要件を盛り込んだものが、下記の画面のものになります。このライブスイッチャー画面は、VRChatのプレイ画面をオーバーライドする形で表示しています (いつのもプレイ画面は裏に隠れている状態です) 。

まず下に並んでいる4つの画面、それぞれワールドに設置されたカメラに対応している映像です。つまり、この時点で4つのカメラが存在していることになり、またそれぞれの映像は動的にモニタリングできるようになっています。

緑と赤のカーソルが見えますね。これはそれぞれ、Program (左上の画面) とNext (右上の画面) に対応しています。Programは動画配信へ送出する映像で、YouTubeで皆さんが観ていた映像はこれになります。その右隣にあるNextは、次にProgramとして映される映像です。当日はカーソルをキーボードで操作しながら映像を選択、曲に合わせて"リアルタイム"に切り替えて配信していました。正直、Nextに関しては下の小さな画面だけでもオペレーションは可能なのですが、視点を大きく動かさずに確認でき、また一目で選択されていることがわかるというメリットはあります。一般的なライブスイッチャーも同じような構成です。まぁ、何となくカッコイイという理由だったりもするのですが。

なお上記の通り、配信に乗せていたのは画面全体の1/4にあたる左上部分だけでした。といってもオペレーション時は4Kディスプレイを使用しており、Programに割り当てた画面だけでも、適切な配信解像度である1080pを担保することができています。裏を返すと、4Kディスプレイを使用できている環境であったため、このような仕組みを導入できているという背景があります。

また画面には表れていませんが、ショートカットキーを押すと先述のDissolveをON/OFFできるようになっています。加えてリップショットのために、出演者の顔にフォーカスをあてるためのショートカットも用意していました。とはいっても、フォーカスする位置にバミリをしておいて、そこに立ってもらうというアナログなやり方ではあるのですが。バミリもよくあるテープで貼り付けた感じと、遊び心も入れておきました。これは余談ですが、ギターソロでステージを飛び出そうになったmemexのぴぼさんを捉えきれなかった、というエピソードがあります。

ざっくりこんな感じなのですが、一般的なライブであれば複数人が連携して行う作業ではあるので、これを1人でこなすのは中々に大変でした。そこで今回のオペレーションでは特有の機能として、『ライブカメラガチャシステム』を実装しました (詳細は後述します) 。

カメラの構成
ライブスイッチャーの構成を説明したところで、次はカメラのお話をします。先ほどの画面からお分かりいただける通り、ライブスイッチャーで確認できる4台のカメラを用意しています。

画面下部、右側に3つ並んでいる映像を担当するのは、あらかじめ動作が設定されているプリセットカメラ群で、クレーンカメラやドリーカメラに相当するものになります。これらのプリセットカメラ群には、1台につき8パターンの動作が設定されています。ライブスイッチャー上ではカメラを選択するだけでなく、これらのパターンを切り替える機能も備え付けており、それによってプリセットカメラによる画のバリエーションを増やしていました。

次に、一番左の映像を担当しているのは、自由自在に操作できるドローンカメラ (通称JessiCam) です。これはVRChatワールド向けとして過去に開発したカメラで、その名の通り下記のような空撮映像を撮影できるものです。上記のプリセットカメラに加えて、自由度の高いドローンカメラを用意することで、制約のより少ない自由な画を映せるようにしていました。

さらに、ライブスイッチャーの画面には直接投影されてはいないのですが、ステージ中央のスクリーンに出演者の顔を常に映すためのカメラを、実はもう1台用意しています。これを含め、合計5台のカメラを"常時"稼働させていました。

この時点でお分かりの通り、ただでさえ負荷のかかるVRChatで複数のカメラを常時稼働させた上で、観客を含むアバターから派手な演出まで、全てを常に描画させて配信するというようなことをしていました。このライブのこともあり、実はかなり奮発してハイエンドGPUであるRTX3090を導入したのですが、使用率は常時100%周辺で性能は明らかに不足していました... (それはそう) 。「わざわざ5台も常時稼働させないで、配信に合わせてカメラをON/OFFすれば負荷を軽減できるのでは？」という意見もあるかとは思います。しかしカメラをON/OFFすると、そのタイミングで集中的に負荷がかかるようで、瞬間的に画面が固まってしまうという事象が発生してしまいます。平均的なフレームレートは下がってしまうのですが、映像が安定するというところに重点を置くとなると、常時稼働させておく方が吉でした。また既にご説明した通り、映像を常にモニタリングしながら、その場で判断しながら選択して切り替えできるようにしたかったという理由が大きかったです。

秘密兵器

ちらっとお話した通り、リアルタイムにライブオペレーションをこなしていくのは大変な作業です。そのため、少しでも負荷を下げるために2つの秘密兵器を投入したので、最後に紹介します。

秘密兵器①: ライブカメラガチャ
常時状況を確認しつつ、手でカメラを操作して切り替えるのは中々に大変な作業です。おまけに数秒間映像が流れている合間に、ドローンカメラもコントロールしなくてはなりません。こうなると当然、頭も身体もリソースが追い付かず制御することは困難を極めます。

そこで今回、初めての試みとして導入したのがライブカメラガチャシステムです。頭の悪い名前ですが、結構気に入っています。これは何かというと、ボタンを一つ押すたびにカメラの映像が切り替わる仕組みです。これを曲に合わせて押すだけで、映像がいい感じになるというものです。

この仕組み、一見すると表向きは単純なのですが、実は映像が破綻しないような工夫を施しています。単に映像を切り替えるといっても、複数用意したカメラパターンからランダムに映せばよいというわけにはいきません。というのも、画角や構図の同じ映像が続いてしまうと”既視感”による退屈な印象を与えてしまいます。それを回避するために、前後の映像で相対的にある程度のコントラストが生じるような仕組みを構築しました。

先述した通り、配置した3台の固定カメラにはそれぞれ8つの映像パターン、つまり全部で24パターンの映像パターンを用意しています。しかしカメラ単位では『広角』『標準』『望遠』と、ざっくりカテゴリを分けており、同じカメラの映像は画角がほぼ統一されています。つまり、あるカメラから別のカメラの映像に切り替えさえすれば、少なくとも画角のコントラストは担保されるということです。このルールを守りさえすれば、適当に映像を切り替えても、画としてはそれなりに成立するような仕組みなのです。またカメラが切り替わると同時に、各カメラに対して再抽選が行なわれ、8パターンのいずれかが再適用されます。この程度でも、映像としての”既視感”はそれなりに軽減されました。それぞれコントラストの弱い例と、強い例を置いておきます。上の並びと比較すると、下の並びのほうがメリハリのある印象になっているかと思います。

ただ、このライブカメラガチャを投入したからといって、全部これに頼っていたわけではありません。カメラをガシガシ切り替えつつも、モニタリングしながら曲の要所ではピンポイントにカメラとパターンを選択して切り替えていました。これが撮影者としての腕の見せ所で、とても重要なお仕事になります。

具体例を出すと、隣町本舗の『52Hzの鯨』では、演出として表れる鯨が会場を泳ぎ回る姿を映すために、ドローンカメラで会場全体を映すような構図にしています。memexのアランさんはとても表情豊かで、身体も大きく動かしながら歌い上げる姿が印象的だったので、リップショットのような寄りのショットを多用していました。キヌさんは演出が洗礼されているが故に、演出に対してピンポイントでショットをキメるのにかなり苦労しています。演出全体を映す構図が多い一方で、小さな身体を大きく動かす姿も印象的だったので、アランさんと同様に寄りのショットも挟んでいました。

秘密兵器②: StreamDeck
もう1つ、ハードウェアの秘密兵器を投入しています。それはStreamDeckというツールです。

これは何かというと、キーボードのショートカットキーやソフトウェアの機能をアサインできるスイッチデバイスです。特筆すべきは、それぞれのボタンが液晶画面になっており、画像を自由に差し替えられるという特徴です。これの何が嬉しいかというと、キーボードの組み合わせて実装していた操作を画像と紐づけたボタン操作に変換することで、ショートカットキーを記憶する必要がなく、直感的に操作できるメリットが生まれたです。このため、頭のリソースに余裕ができ、オペレーションミスも格段に減らすことができたかと思います。

といいつつも、本当はキーボードのショートカットではなくOSCやMIDIといった信号を投げるような仕組みにした方が、システマチックに構成できてオペレーションを簡略化できたかもしれないです。というか、この手法が一般的になりつつあります (たぶん) 。反面、万が一ソフトウェアに異常が発生しても、キーボードのショートカットであれば最悪手動対応が可能という点では、一応メリットはありました。大変ですが。

おわりに

ということで部分的につまみながらにはなってしまいましたが、音楽ライブを映像として伝えるため、VR音楽ライブイベント『memeと森と蚕』を例に考えていたことや工夫、機材等についてお話しました。

当然ながら「これと全く同じオペレーションをやってみてください！」なんてことは言いません。ですが、僕なりの観点は、このライブに限らなくても適用することはできると思っています。とはいつつ、僕は映像のプロでもないですし、何ならこれまでライブの現場に入ったこともほとんどありません。また本番では演出が映らなかったなど大きなミスも発生させてしまい、完璧とは言えない部分もたくさんありました。あくまで鵜吞みにはせず、あくまで参考としてお役に立てればと思っています。

最後に。音楽ライブを『映像』というかたちに落とし込む時点で、その場にある情報はどうしてもそぎ落とされてしまう部分もありますし、言ってしまえば撮影者の主観がそのままの印象として観客に届くことにもなります。半面、出演者のメッセージを正確に汲み取ることができれば、それをより強めるかたちで届けることも可能です。正直なところ、僕自身も映像として届けることの意味をほとんど理解できていないのですが、その場で観るのとはまた違った意味があるということは心の片隅にでも置いてもらえればと思います...という謎ポエムでした。それでは！

この記事が気に入ったらサポートをしてみませんか？