見出し画像

動画先行の原則について

私は作曲家、ギタリスト、アニメーション作家として活動している大柴拓(おおしば たく)と申します。

今回はアニメーション制作で音と映像のタイミングを合わせる際の「動画先行の原則」について書いてみたいと思います!



動画先行の原則とは

アニメーション映像と音のタイミングを合わせる(同期する)際に、物理的にぴったり揃えるより、映像を2~3フレーム手前(今回は 30fpsの映像として考えます)にすると良い。というもの。


なぜ?

体感として以前からあった

私は音と映像がシンクロする「音楽劇」というアニメーションを制作していて、2つのタイミング合わせには特に繊細に取り組んでいました。
〇〇のテンポで4分音符の長さの音の場合、〇〇fpsの映像の何フレーム分になるか?というのをすべて電卓で計算して物理的にぴったりになるようにタイミングを揃えていました。その為に 28fps という特異な設定でアニメーションを作ったりもしています。

ぴったりにする計算について書いた記事はこちら

しかし、そうして書き出した作品を見るとどうも映像が少し遅れて見える……初めは計算ミスか、PCスペックによる遅延か何かだと思っていました。ひとまず応急処置のつもりで映像を1~2フレーム早出しするように動かす、と期待したタイミングに仕上がる。この頃は「動画先行の原則」を知りませんでしたが、体感としては以前からありました。


「動画先行の原則」の存在を知る

ある日たまたまネットの記事で、冒頭に書いた「動画先行の原則」を知ります。「やっぱり既知の事実だったかーーー!」と思ったのと同時に、なぜこ
ういう現象が起きるのだろう?と疑問に感じて調べてみました。


人間サイドの仕様でした👀👂

電卓まで使ってデータ上では完璧にタイミングを揃えているのだから、
・再生機器(PC)の仕様
・受け取る人間側の問題
のどちらかだろうと思いましたが、調べてみると後者でした。


目・耳の反応速度の違い

ドイツの学者ペッペルの実験によると

音に対する人間の反射速度はおよそ 130ms(0.13秒)
光に対する反射はおよそ 170ms(0.17秒)
(もちろん条件により差はある。むしろ同じ被験者でも違う結果多)

という結果があるようで、これは
「音の速度を考慮しなくて良いくらい近くで光と音が同時発せられた場合、人間は音を先に感知し、そのあとに光を感知する」
ということを表します。

また、

人間の脳の識別・選択の処理速度はおよそ 1/ 30~40ms(1/ 0.03~0.04秒)
つまり1秒間の処理回数はおよそ30回程度。

また、最初の 30~40ms で識別と選択が両方成されることは少ない。
つまり感知したものをしっかり認識するのに60~80ms以上はかかるだろう。

ということで、これを映像制作に置き換えて考えると、
30~40ms = 約1フレームとなるため、
「映像が 30fps主流なのは人間の処理能力にちょうど合っている」
「映像と音を両方認識するには 60~80ms = 約2~3フレーム分必要」
となり、動画先行の原則が求めるものと合致していることがわかりました。


まとめ

動画先行の原則はディズニーの初期からあったようで、2~8フレームまでそのずれ方を試していたようです。反射速度の実験が行われるよりも前にやはり体感としてあったものを実践していたようです。
この話に関してはもう少し勉強して追加記事(又はこの記事に加筆)したいなと思っています。とりあえず一旦ここまで。

最後まで読んでいただきありがとうございました!
もしこの記事を気に入ってもらえたらイイねを押していただけたら嬉しいです(アカウント登録してなくても押せます!)。
YouTube や Twitter もやっていますので、こちらも登録していただけた際には……私が喜びます。

この記事が気に入ったらサポートをしてみませんか?