3DCGの終焉とAI生成レンダリングという未来
これは 画像生成AI Advent Calendar 2022 16日目の記事です。
2022年7月末頃、AIによるテキストからの画像生成が一気に広がって以降、あまりに急速な変化が日々続いています。こうした激動の中でも、日本ではアニメ調のイラスト生成への注目が強すぎて、AIの可能性や破壊力、未来などの話題が少なく感じています。
そこでAIがもたらしうる未来や応用などを考え、特に身近な人々へ向けて、わかりやすく紹介することにしました。AIの専門的な研究者ではなくSFのような未来予想ですがご容赦ください。
なおこの記事は、挿絵も含め全体をCC0 1.0で公開します。最大限自由な利用が可能で、転載や加工や販売も自由に行なえます。CC0として利用しやすいよう、引用や転載も含んでいません。
また挿絵は、解説用もお飾り用もすべて、素のStable Diffusionのみで生成しています。キャプションとして生成に必要なプロンプト等は全て掲載しているので、環境を揃えれば、手元のStable DiffsionやiPhoneのアプリ、オンラインサービスなどでも再現可能です。アーティストの名指しや、既存の知財権と対立するような表現も、プロンプトには含んでいません。
お問い合わせやお仕事のご依頼はTwitter(@koguGameDev)のDMで。
ゲームレンダリングの未来
最初に取り上げるのは、なるべく画があって入りやすく身近な所からと考え、「ゲームの視覚表現は3DレンダリングからAI生成レンダリングに置き換わり、3DCGは終わりを迎えるかもしれない」というものにしました。
挑発的で過激な予想ですが、AI生成の発展次第では十分ありうる未来のひとつだと考えています。
まずは記事のカバーアートや以下の画像をご覧ください。
これらはいずれもゲーム画面のキャプチャではなく、Stable DiffusionというAIで生成した画像です。Photoshopでゲーム風の疑似UI要素を追加し、色調補正や超解像処理を加えてはいますが、本質的な描写は標準のStable Diffusionの生成結果そのままです。
いわゆるダークファンタジーなRPGの戦闘を想定して生成したもので、当然どこにも存在しない架空のゲームです。もし2022年にリリースされていれば、少なくともグラフィックスはある程度評価されるでしょう。
静止画用のAIで生成したこれらは当然、単なるキャプチャっぽい静止画に過ぎません。しかも1枚生成するのに、私の貧弱な環境では30秒以上かかりました。ゲームに不可欠な連続性も制御性もありません。しかしそれでも、ここに途方もない可能性を感じます。
3Dレンダリングとコスト
さてAI生成は一旦置いて、しばらく3Dレンダリングの話を。
現在コンピューターゲームの大半は、3D技術に基づくレンダリングによって描画されています。一見そうでないゲームも、内部では3Dデータとして扱い、描画も3Dということは珍しくありません。2D専用のゲームエンジンであっても、3Dを想定した技術を基盤に用いたりもしています。
ゲームの視覚表現がこれほど3D技術に傾倒しているのは、近年のゲームの発展そのものが、3D技術の発展と対になってきたためです。新たな世代のゲームにおける大きな割合を3D技術による視覚表現の発展が占め、ハードウェアもソフトウェアもそれと共に歩んできたのです。
その結果、ゲームにおける主要な視覚表現は、3D技術の利用を前提とするようになってきました。そしてそこから外れると、表現力や性能で大きな不利となってしまうまでに至っています。こうした3D技術による寡占状態がゲームの視覚表現の現在です。
3Dレンダリングとは
最古のコンピューターゲームでは、視覚表現にオシロスコープが用いられたそうです。そこから長い2Dの時代を経て、ついにゲームは3Dレンダリングへたどり着きました。
レンダリングとは、コンピューターによる五感表現の算出処理であり、この記事では主に視覚に対するものを指します。そのレンダリングという処理を行うコンピュータープログラムが「レンダラ」です。
2Dだ3Dだといっても、最終的にゲームを描き出す先は画面という平面のデバイスです。ゲーム内容も描画方法も2Dであれば、直接画面のどこにどんな色を出力するのかイメージしやすいですが、3Dの要素を2Dの画面に落とし込む処理はもっと複雑です。
3Dレンダリングを簡単に説明すれば、次のような処理です。
「定義した3D空間に、描かれる対象を配置し、仮想のカメラから対象の見え方を計算しながら、出力先となる2D空間のピクセルカラーを決めていく」。
方式は色々ありますが、必要とする準備や考え方はおよそ共通しています。
描きたい対象の形状は様々な方法で事前に準備します。質感は計算モデルをベースに、画像なども使って事前に準備します。ライトや環境も事前に準備します。
こうして用意されたデータを、今度はレンダラが受け取ります。レンダリング時には、形状はそれを構成する三角形に分割されます。質感はシェーダーというプログラムで表現されます。レンダラーは受け取った形状と質感を元に、出力先である2Dの画面や画像用に、遮蔽の判定は照明の適用などをしながら各ピクセルの色を決定していきます。
このような流れで行われる3Dレンダリングですが、形状も質感もその他も、原則として描きたい対象を事前に準備する必要があります。この事前準備にかかるコストこそ、3DレンダリングがAI生成に取って代わられる可能性の、大きな理由のひとつと考えています。
形状制作のコスト
3Dゲームでは実に多数の形状制作が要求されます。キャラクターはもちろん、画面内に登場する環境や小物など、かなりの要素が個別に制作されます。モデリングと総称されるこれらの作業は、便利なツールが助け新しい手法が導入されても、そのコストは非常に大きなものです。
モデリングの基本は、ポリゴンと呼ばれる面を用いて、描きたい形状の表面を定義する作業です。プリミティブと呼ばれる基本形状を拡張したり、より抽象化された高次の操作から生成したりなど、手法は様々にありますが、最終的にレンダラに渡される三角形群の定義こそがモデリングの主目的です。
とはいえモデリングと呼ばれる作業には、表面的な形の定義以外の作業も色々と含まれています。たとえばキャラクターなら、アニメーションしても破綻しない構造、物理的解剖学的整合性、演出への応答性など、幅広い知見と考慮が必要です。更に完成したモデルには、制御用の骨構造を仕込み、その影響度を調整し、服飾品なども追加されるかもしれません。
形状だけでなく、質感をテクスチャという画像のマッピングで表現するために、画像を形状のどこに割り当てるかを指定するUV展開といった作業も欠かせません。
またゲームはキャラクターだけでは成立せず、書割でない背景や小道具も全て形状が必要です。AAAと呼ばれるようなクラスの大規模タイトルでは、それこそ気の遠くなるほど大量の形状が作られます。
どれだけ熟練のモデラーであっても、こうした作業は決して手軽ではありません。まして3D表現の性能向上に伴って、形状に求められる品質も上がり、それが更に負荷を増やします。
質感制作のコスト
形状と同等にその質感も重要です。
レンダリングされた形状の見え方は、当然モデリングによって形作られたポリゴンが元になって決定されます。しかしそれは土台であって、最終的な見え方は、さらに質感や照明、後処理などを加えていった末に決定されます。
質感の表現は、まず物体の見え方を計算に落とし込んだモデルを使って表現されます。そうしたモデルには様々なものがあり、計算量との兼ね合いを考えながら、なるだけ表現力の高いものを選びつつ、必要に応じて独自に開発したりもします。
さらにそうしたモデルに与えるパラメーターを、形状ごとにあわせたマテリアルと呼ばれるカスタムの表現で調整します。中でも特にテクスチャという、形状にマッピングされる画像は重要です。写真やイラストなどの画像をベースにしつつ、複雑に描き込んだり、光の表現を事前に焼き込んだりしたりして、求める質感を表現します。テクスチャは凹凸感や遮蔽度合い、光沢などの表現にも用いられます。
形状同様、ゲームの高度化は質感にも求められます。こうした作業の負担は膨大で、フォトグラメトリやストックアセットなどを活用しても、なお高コストです。
シーン制作のコスト
形状と質感が揃っても、それらを組み合わせたシーンを構築しなければゲームは成立しません。
たとえばオープンワールドなら、広大なレベルデザインが必要です。地形、植生、岩、生物、川、海。街を置き、家を配し、人を動かし、暮らしを感じられるよう雑多な物を散りばめ…。
小さなステージのゲームなら、配置する規模は小さくとも、むしろ効果やバランスにより苦心するかもしれません。
ゲーム性を維持し、負荷を範囲内に収め、世界設定を表現し、求められるリアルを追求する。こうした配置中心のシーン制作コストも、かなり大きなものです。
画作りのコスト
形状と質感が揃い、シーンとして構築できても、求める視覚表現にはさらに準備が必要です。
いわゆる実写的なリアルな表現は研究も盛んで、汎用のシェーダーで対応できるかもしれません。しかし絵画的だったり、意図的な歪さだったり、表現に求める固有性の実現には独自のシェーダーが必要でしょう。それはアニメ絵風かもしれないし、版画風かもしれません。幅広い表現に対応した汎用のシェーダー開発には大きなコストがかかり、専用シェーダーは数が必要になります。
また物理的に正確な表現ができていても、求める印象に合わなければ、ポストエフェクトで調整します。色が合わなければカラーグレーディングし、映画的な映像表現のため、ビネットを足し、フィルムグレインを乗せ、あえて色収差を付けるなど、ここでも事前に用意された様々なエフェクトを用います。
増え続ける事前準備
ゲーム制作にかかるコストの内、視覚表現に限っても、このように幅広く大きな事前準備が必要です。しかもこれらはかなり粗い単位であり、細部にはさらに多くの作業があります。
事前準備のコストはコンピューターゲームの誕生以来、一貫して増加してきました。2D時代であっても同様ですが、より現実的で詳細で高品質な描写を求め、ハードウェアの性能が向上するとともに、事前準備に求められる品質も高まってきたのです。
モデリングはより細部まで追求され、ポリゴン数も求められる水準も高まる。テクスチャは高解像度の写真をベースにしつつ、重層的な表現のディテール表現を行う。登場する物品やキャラクターの数も増え続け、エフェクトや照明も複雑化。
実際に画面に描き出されるより遥かに多くの創作が、その一瞬一瞬のため、気が遠くなるほど積み重ねられているのです。
このように増え続けてきたコストに対し、現実のゲームプロジェクトが破綻せず発展してこれたのは、ツールや技能の発展と市場規模の拡大という両輪によります。
同じ労力でより高品質且つ大量の生産が可能なツールは、複雑で大規模な仕事を可能にします。もちろんアーティストの技能もめざましく向上し、ひと世代前に皆を驚愕させたような技術や知見が、次世代では一流の全員に共有されるような発展を繰り返しています。
そうした高度なツールとアーティストをプロジェクトに投入し続けるには、ゲーム産業の巨大化がもたらす資金の力が欠かせません。ゲーム市場がグローバル化し、大きな収益が期待され資金が投じられる。それによって向上した品質が売上を生み、次の投資につながる。このような好循環が維持できているからこそ、肥大化し続けるゲーム制作は維持できているのです。
もちろん予算を抑え、効率を上げる努力は絶え間なく続けられますが、業界を代表するような巨大プロジェクトは、驚くほどの予算をかけ作られ続けています。そうしたトップオブトップの、ある意味浪費があってこそ、より低予算なゲームも発展の恩恵に与れるのです。
では、この拡大はいつまで続けられるでしょうか?
レンダリング時のコスト
さて次に、事前準備ではなく、実際にレンダリングのその場でかかるコストについて。
こちらは人手や費用といったコストではなく、計算と資源のコストです。プロジェクトにどれだけ大きな予算が割り当てられても、実行するハードウェアの性能という単独で解決できない限界があり、ある意味平等なコストです。
3Dレンダリングには膨大な計算コストがかかります。その膨大さが専用のハードウェアを発展させてきました。その成果がAIなど3DCGを脅かしうる応用に繋がっていった皮肉な関係も興味深いですが、ここでは3Dレンダリングという処理にかかる計算のコストを簡単に見てみましょう。
まず第一に、あらゆる視覚表現向けのレンダリングでは、結果となる画面や画像のピクセル分の計算が必要です。ゲームが画面に描かれる以上、その画面の1ピクセルごとに、どんな色で光らせるべきかを決定する計算が不可欠です。
今最も普及しているであろうフルHDという解像度の場合、ピクセル数は1920px*1080pxで、総数は2,073,600pxです。それに対して表示内容を毎秒60回描き替える(60fps)なら、1秒間に2,073,600 * 60 = 124,416,000回。つまり毎秒1億回以上の、色を決める計算が必要となります。半分の30fpsでも6000万回。
この膨大な回数の計算は、3Dレンダリングに限ったものではありません。フルHDに表示するデバイス共通のものです。たとえば最近のスマートフォンならば、もっと高解像度の画面表示も珍しくありません。
とは言えOSやアプリUIの視覚表現では、低解像度な計算結果を補完して引き伸ばしたり、動きのない部分は放置したり、動いてもピクセルをずらすだけで済んだりと、大幅な簡略化が可能です。
一方汎用的な3Dレンダリングの場合、UIのように大胆に間引くわけにはいきません。動きがなければともかく、カメラに少しでも動きがあれば、最大124,416,000回それぞれに、3D空間の形状と質感や光などを取り扱う計算が待ち構えています。
たとえば、3D空間上に複数の形状が存在していて、あるカメラから見たそれらの形状が重なりあっている場合、前後関係を正しく描くためには視点からの重なり判定処理が必要です。
画面から見て写っている形状が分かったら、次はその描きたい箇所に光が当たっているのか、当たっているなら光を受けた面と質感がどんな風に見えるのか、計算が必要です。
影も非常に重要ですが、ゲームのようなリアルタイム表示では、形状を描くのとは異なる計算が必要です。たとえば光源から見た形状のシルエットを用意し、影を受ける形状に投影していく、といった方法があります。
さらにさらに、もっとリアリティを求めて光の挙動を模した計算を始めると、コストは跳ね上がっていきます。透過や屈折など光の挙動に基づく表現は、大半のゲームではまだ、ダミーを使った擬似的なものです。これを解決するレイトレースと呼ばれる計算では、反射屈折、拡散や陰影など光の性質に基づく表現を非常にリアルに描けますが、それに伴う計算量も膨大です。
ここまで述べたのは計算のコストですが、計算の材料や結果を取り扱う資源にもコストがかかります。SSDやHDDなどのストレージデバイスはゲームの総量によって圧迫されます。メインメモリやVRAMなどの計算により近い存在は、取り扱う計算材料によって圧迫されます。
もちろんそうした資源は3Dレンダリングでなくとも使われますが、3Dでは描くべき形状や質感だけでなく、描かれるかもしれない形状や質感まで、事前に準備され、レンダリング時には計算に近い場で待機させる必要があります。そのため多くのストレージを占め、メモリを圧迫するのです。
もしも1億個の複雑な異なる形状を、異なる質感で異なる位置に、ひとつの画面内でレンダリングしようとすれば、その計算量がとんでもないことになるのは想像できるでしょう。今後、より精細に、より現実的に、より複雑になっていった時に、3Dレンダリングで答え続けることが最適と言えるのでしょうか。
以上のように3Dレンダリングとは、事前に膨大な準備作業を必要とし、レンダリング時にも多くの計算時間を必要とする、非常に負荷が高いものです。それでも代わる表現手法がなかったからこそ、研究は進み、ハードウェアもそれに合わせて発展を繰り返してきました。
こうした一連のコストは、人類がコンピューターにリアルタイムで、現実的だったり魅力的だったりする視覚表現をさせる際に、いわば開拓されてきた唯一の手法です。どれだけ膨大なコストが事前準備にかかろうと、他に術はなかったのです。
そんな状況を変え得る新たな可能性こそが、AI生成によるレンダリグです。
AI生成レンダリングのコスト
長々と3Dレンダリングにかかるコストを紹介したのは、AI生成レンダリングという新しい可能性との比較のためです。なお「AI生成レンダリング」では長ったらしいので、以降AIGRと仮に表記します。
たとえば実写と変わらないような品質の視覚表現を、もしリアルタイム、つまり秒間60回程度以上で描くことができ、一貫した連続的な表現が可能で、ゲームロジックに基づく制御ができる画像生成AIが生まれたとしたら。
そんな夢のようなAIGRが実現したとして、3Dレンダリングと比べてどんな利点や欠点があるか、まずはコストを中心に考えてみます。
事前準備のコスト
まだ空想上の存在に過ぎないAIGRですが、もしも実現したのなら、それを用いた視覚表現制作のワークフローは、次のようなものになるかもしれません。
まずAIGRでは、3Dの場合のようにポリゴンといった最終表現に近い単位での、厳密な形状を作り込む必要がありません。もちろん一貫した表現のために、たとえばキャラクターの定義などは必要です。しかしそこで求められるのは、3Dフォーマットによるレンダラのための具体表現ではなく、AIが生成する際に「どう描くべきか」を判断する指示となる、いわばキャラクターの表現定義です。
現在のAI生成は主に、言葉である「プロンプト」を表現の指示として扱っています。しかしAIGRにおいて、単純な一連の言葉の指示だけでは無理があるでしょう。たとえばある生成結果にインタラクティブに指示を積み重ねたり、別途生成したアートを挿入したりといった作業を繰り返し、その集積した結果が、指示としてAIGレンダラーに渡される、といった定義作業が考えられます。
質感も同様です。というより、3Dのように形状と質感を分けて扱う必要はありません。質感も含めたキャラクター等の外観や動き、変化の様子などを定義し、最終表現を出力できるよう集積していきます。当然髪の毛のように3Dでは特殊な作りになる要素も、特別なポリゴンで表現したり、ポストエフェクトで描くような必要はありません。
たとえば「強靭だがうらぶれた印象の中年男性」といった単純な指示をはじめに与え、ベースとなるキャラクターの定義とします。そこから生成された表現を確認しながら、「あごをもう少し大きく」「もっとがっしり」「古傷追加」「深い苦しみを抱えた眼」「笑顔を見せて。…少し軽薄な感じだから、枯れた笑いに」「服の素材は綿と羊毛で、布地は粗く、縫製も雑に」「なにか鈍器を持たせて」「もっとジャンプは力強く」などなど、指示を積み重ね、それが定義として蓄えられます。
次に、それを様々な条件でレンダリングさせてみます。走らせ、笑わせ、負傷させ、踊らせる。環境を変え、雰囲気を変え、写実的に描いたり、コミック調にしたり。
ゲームに合わせた表現データを作成するのではなく、アーティストの考えるキャラクター像が生成によって再現できるだけの指示を与えることが、事前準備の中心になっていくのです。
こうした定義はそれなりの作業でしょうが、純粋な作業量は3D向けの場合に比べ、圧倒的に小さくなるでしょう。結果としてモデリング、テクスチャリング、リギング、スキニング、アニメーティングなど、3D技術による視覚表現を前提として生まれてきた各工程と分業は、「作品のための魅力的なキャラクターの定義」というひとつの作業に立ち戻ります。
もしそのままAIGRが発展していけば、定義の工程にスペシャリストが生まれ、また分業が進む可能性は十分あります。しかしそれは、3Dにおける技能と技術的制約からくる作業的な分業と違い、定義を充実させるための知見に基づく、作品にとってよりポジティブな分業になるでしょう。
こうして定義されたキャラクターは、定義であって具体表現ではありません。表現は、その定義集積に用いたのと同様の表現が可能なAIGRによってランタイムで出力されます。その出力の瞬間まで、どこにもキャラクターの具体的なデータは存在せず、個別にストレージを圧迫することもありません。
シーン制作はどうでしょう。
レベルを作り込み、オブジェクトを配し、キャラクターを住まわせる。それらはゲーム性と直結したり、ストーリーを伝えきる舞台として適切でなければなりません。プロシージャルな手法がいくら発展しても、やはり3Dワークフローにおける作業量は膨大です。
一方AIGRの場合、キャラクター同様にシーンも、インタラクティブに定義させるかもしれません。
たとえば「鬱蒼とした森」などといった単純な指定を基盤に、生成された表現を確認しながら、「植生はもっと温帯的に」「夜は霞を」「下草をもっと」「月は3つ」「丘陵を登りきったら街の灯りが見えるように」「農業中心の集落で、建築のパターンを幾つか提案してみせて」「主人公をそこに立たせて」などなど。
配置される無数のオブジェクトも、ゲーム上重要なものでない限り、わざわざ個別に定義する必要もないでしょう。「足元に街っぽいゴミを色々」「もっとまばらに」「エリア境界は進めないことが分かるよう倒木を積み上げて」「もう少し高度に合わせて植生を大きく変えて」などなど。
一方重要なシーンでは、定義の厳密化によって作り込みを深めます。「プレイヤーがここには裏から回り込めないように」「ボスが登場時に倒す塔をここに」「ここにプレイヤーが来たら霧を晴らして」など。
地形や場面を大まかに作り、他で定義したキャラクター、重要なオブジェクトを持ち込みながら、環境を形作る小物を散りばめ、表現的なロジックを込めていきます。
キャラクター制作がひとつのキャラクター定義に統合されたように、シーン制作も、ひとつの場面設計へと回帰します。
画作りはどうでしょう。
そもそも3Dにおけるポストエフェクトのような処理は、3Dという表現方法の制約を補う意味合いが強いものです。いかにも3Dな印象を和らげたり、レンダリング結果をコンセプトに近づけたり、映画や写真的な表現を演出に用いたり。
しかしAIGRの場合、そもそもそうした制約が極めて少ないため、やはり純粋な画作りとして取り組めます。「明るく」「暗く」「鮮やかに」といった基本的な指定はもちろん、「眩しく」「おぞましく」「のどかに」「みずみずしく」といった表現ですら画作りを進められるでしょう。
さらに「鏡の中だけ油絵風に描いて」「光がにじみながら手からこぼれて顔を照らして」「血の匂いを感じさせるトーンに」などと、求める絵に合わせた定義を作り込めるでしょう。
そこにフィルターやエフェクトと称して分解された専用の演算はありません。3Dレンダリングで対応する場合、まずはそうした表現をどのような技術で実現するのか検討を行い、要素技術にばらし、組み上げ、レンダリングパイプラインに組み込む、といった工程を経ていました。しかしAIGRならば、表現につながる定義の追求に集中できるのです。
もしもAIGRへの指示となる定義が、このようなインタラクティブな手順で作成可能だとしたら。事前準備のコストは3Dとは比べ物にならないほど下がります。それどころか、制作の意味合いそのものが変わってきます。技術のための不可欠な作業から、表現のための模索として。そこではモデリングなどの具体表現と直結した技能は消え、描きたい世界の創造力とその定義につながる表現力だけが突き詰められるのです。
レンダリング時のコスト
AIによる画像生成のコストは現在、大半の3Dレンダリングより遥かに大きいものです。秒間60回どころか、ハイエンドのゲーム用マシンでも、低解像度の画像を1秒に1枚程度が限度でしょう。フルFDで60fpsなど、夢のまた夢に思えます。
計算にはGPUという3Dゲーム用に発展してきた装置をフル活用しますし、VRAMというGPU用のメモリーも大量に使用します。今のAI生成ではAIGRなど悪い冗談のようです。
ではどんな発展がAIGRに足るAI生成には不可欠で、どんな道が考えられるかですが、それについては後述します。まずは先に、AIGRが実現したものとして、3DレンダリングとAIGRの質的な違いからくるレンダリングコストの差を考えてみましょう。
3Dレンダリングに比べAIGRが圧倒的に有利なのは、表現の複雑さに伴うデータ量・計算量の増大が少ないという点です。3Dレンダリングでは、レンダリング対象が事前に、最終的な表現に近い形で用意されている必要があります。数式での表現など定義に近いものもありますが、ゲーム全体で見れば補助的です。
ひとつの画面に1億個の全く異なるオブジェクトを描く場合、3Dでは1億個のデータが必要です。同じオブジェクトや、わずかに違うだけのオブジェクト、形状は違うが質感は同じオブジェクトなど、描画処理をまとめて効率化できるケースは色々ありますが、本質的には1億個のデータと1億回の計算が必要です。それらのオブジェクトがなんらゲーム性を伴わず、ただ視覚表現のためのにも存在していたとしても、1億回の計算を消費するのです。
一方AIGRの場合、定義を元に、AIが巨大なモデルデータと照らし合わせ定義に合致する画が出力できているかを確認します。1億個のデータと1億回の処理ではなく、「1億個描かれている、という定義に合致している表現が出力できているか?」という検討を繰り返しながら仕上げます。
光の挙動を模したレイトレーシングといった、3D技術ではこれからより広がっていく技術も、AIGRにはわざわざ持ち込む意味がありません。そもそもレイトレーシングは反射や屈折や拡散など現実世界で光が見せる、視覚的に重要な表現を可能にする計算です。鏡で跳ね返ったり、ガラスを屈折して透過したり、拡散した色が周囲に影響したり、といった光の表現がもたらされることで、ゲームはより現実的になり、違和感は減り、魅力へと繋がります。
しかしAIGRではそもそも、現実的な表現を無数に学習したAIに、定義に応じた表現を生成してもらいます。学習対象に光の表現が十分にあれば、「ダイヤモンドと同じ屈折率で」「ここは鏡に」などと定義して生成するだけです。
のっぺりした古臭いCG風でも、フォトリアルなCG風でも、現実と見分けの付かない映画風でも、原理的には描くコストが等しいのです。
膨張し続ける事前準備コストとAIGR
コンピューターによる視覚化の要求は、今後も際限なく高まり続けるでしょう。むしろこれからが本番なのかもしれません。
ネットワーク越しに世界中が繋がり、あらゆる場所にディスプレイが存在する。XRその他の拡張的な機器も伸張し、あらゆるシーンでゲームと同じようなリアルタイムのレンダリング技術が求められます。
しかし、描くオブジェクトの数も質も跳ね上がり、より滑らかに、より多様な表現が求められ続ける中で、3Dレンダリングのような、ある種の力技で応え続けられるのでしょうか。
もちろん形状や質感の定義にも、アニメーションにもその他にも、AIを活用するなどして効率を上げる研究は行われています。3Dツールでも生成AIを取り込む動きは盛んです。あるいは、コスト負荷が大きいが整合性は重視されない箇所、たとえば植生や雑踏の表現などにAI生成を用い、それ以外のかっちり進めたい部分は従来通り…というハイブリッドレンダリングも十分ありえそうです。
しかしAIGR側の発展が進めば進むほど、汎用性も効率性も上昇し、3Dではコストの高いあらゆる表現にも対応していくはずです。いずれ3Dの得意な分野も侵食されるでしょう。そうなってしまえば、いっそ全部AIGRにしてしまった方が…という決断を阻むのは、3D関連技術者の雇用問題ぐらいになってしまうのではないでしょうか。
事前準備が相対的に極めて小さく済み、描画対象の保持に計算リソースを割くのではなく、描画表現の追求に計算リソースを投入できるAIGRは、より即応的且つコンテキシャルな描写が求められる時代に、まさに適合したレンダラと言えます。
不可欠なAI生成の発展
ここまでAIGRで3D技術を置き換える話を広げてきましたが、そもそもそんな夢のようなレンダラは実現するのでしょうか。現在のAI生成を見ていても、あまりに足りないものが多すぎて、到底そんな未来は到来しそうにありません。
しかしその「現在」とは、AI生成が一般公開され、皆のパソコンで動作するようになって、まだ半年も経っていない「現在」です。そしてその現在ですら、恐ろしい速度で改良や最適化が積み重ねられています。
たとえば最低限必要なVRAMの容量は下がり続け、十分な品質に到達するまでの計算時間も短くなっています。私の環境の場合、当初1分50秒ほどかかっていた640px*640pxの画像が、今では20秒ほどで十分な品質で生成されています。ここまでわずか数ヶ月であり、それはハードウェアの性能向上ではなく、ソフトウェアの改良によって実現されてきているのです。そしてStableDiffusionは近々、さらに高速な生成を公開する予定です。オープンな実装が広く世に出て、まだ半年も経っていない「現在」においてです。
そうした現在から未来に向けて、誰か強い旗振り役がAIGRに向けて牽引すれば、より大きなリソースが投入されAIGRの実現は早まるかもしれません。あるいはそうした牽引者がいなくとも、AI全般の発展は止めようがなく、AI生成も発展していく過程で自ずとAIGRに到達するのかもしれません。
その間に、ハードウェアの発展も続きます。
従来3Dゲームをアプリケーションとして発展してきたGPUが、突然AI向けに全力で特化することはないでしょうが、それでも強く意識されることは間違いありません。コンシューマ向けのAI専用製品ラインも生まれるかもしれません。
高度な演算装置の開発には年単位の時間がかかるため、本格的にAI生成を計画段階からターゲットにした製品が登場するのは、早くて2~3年後でしょう。その頃にはソフトウェアの発展と相まって、リアルタイムに近い性能が実現している可能性もあります。
ゲーム特化という意味では、モデルをそのゲームに必要な規模や範囲に抑えるといった、ランタイムを軽量化する工夫も行われるでしょう。
どっぷりとファンタジーなゲームには、現代だったりSF的だったりする表現は、むしろ混入を避けたいぐらいです。そうした要素をデータセットから取り除くか、モデル自体をモジュール化するなどして、表現力を保ちながらランタイムを軽くする方向はありえそうです。
ゲームの開発時には模索の制約となるため、フルセットで試行錯誤し、ある時点でモデルを限定していき、リリース用のサブセットで仕上げる、といったワークフローが考えられます。
さて、こうした大きな流れの空想は尽きませんが、もう少し具体的な点を確認しておきましょう。
ゲームレンダリングが3DからAIに取って代わるためには、最低限実現しなければならない性能・機能が幾つかあります。これらが解決されていかなければAIGRなど実現しない、と言えそうな要素です。
多分に楽観的な、願望に近いものですが、そうした性能・機能について考えてみます。
描画速度
これが一定以上の性能に到達しなければ、ゲームでの利用はありえません。最低でも秒間30枚、できれば秒間60枚は欲しいでしょう。もちろんAIGRが本当に発展すれば、120、240と増えていくでしょう。
実際には、今一昔前の私の環境で十分な画質の生成に20秒ほどかかります。それも640x640のような小さな画像の場合です。果たして秒間30枚など可能なのでしょうか。
ところがこの記事を書いている最中、Stable Diffusionを開発するStability.AIの代表Emad Mostaqueから「来週には1秒に30枚生成できるよ」との発言が。もちろんコンシューマ向けミドルクラスのGPUでなく、最新のGPUやGPGPU用ハードでの話でしょうが、それでも凄まじいです。
さすがにこれは予想以上の早さですが、それでも時期が早まっただけで、いずれ可能になっていくだろうとも考えていました。なにせ一般公開から半年も経過していない現時点までで、すでに凄まじい描画速度の改善が続けられています。
AIによる画像生成自体、まだまだ一線の研究者でも未知の部分が多く、速度の改善の余地が大きいのでしょう。もちろんそれは途方もない努力と才能が投じられてこそですが、歩みを止める理由が見つかるまで、この改善は続くはずです。
解像度
ゲームに求められる解像度は年々高まり、今は4Kがハイエンド、フルHDが普及帯となっており、いずれ8Kがハイエンドになっていくでしょう。それに比べてAI生成の出力は768x768が最適など、まだまだ低い状況です。
しかし次の2点から、他の課題よりも解決は楽観的だと考えています。
ひとつはハードウェアの発展や変化。
現在AI生成における出力解像度を制限しているのは、VRAMと呼ばれる、生成に用いるGPUという部品の記憶装置の容量です。これが大きければ、現時点でもフルHDの生成も可能です。
従来からより高度な3D表現のために、VRAMは増量されてきました。しかしAI生成の登場によって、VRAM容量は更に価値を高めています。GPUメーカーがAIへの対応を進めていくのであれば、VRAMの増量は自然な選択肢となっていくでしょう。
もうひとつはアップスケーリング。
AIによるアップスケーリングにはオープンな実装が色々とあり、Stable Diffusion 2.0でもアップスケーラーが合わせて公開されています。こうした技術も今後発展を続けるでしょう。
直接の生成は低解像度でも、それを十分な速度でアップスケーリングできれば、ゲームに十分使えます。もちろんアップスケーリングは重たい処理であり、前述のVRAMも多量に要求しますが、生成よりは少ない負荷に抑えられる余地がありそうです。
また、すでにNVIDIAはAIベースのアップスケーリングであるDLSSを自社GPU向けに提供しています。AMDはAIベースでないFSRですが、AIアップスケーラーが盛り上がれば、いずれは対応してくるでしょう。
DLSSは3Dレンダリングを前提としているため、AIGR実現時に同じ仕組みでは対応できないでしょうが、その頃にはより汎用的なAIアップスケーラーが存在している可能性は十分高いと考えられます。
解像度は速度とのトレードオフとなるため、アップスケーリングなどを併用しながら、ゲームとして適したバランスが追求されていくでしょう。
一貫性
現在AIによる画像生成の主流となっているDiffusionモデルは、乱数ベースのノイズから絵を生成するという原理上、一貫した出力に不向きです。同一のノイズから異なる要求で部分的に異なる絵を出力することはできても、同一とみなせるモチーフを異なるノイズから描くには、データモデルが汎用的すぎるのです。
これは追加学習によって幾らか解決されます。たとえばキャラクターの表現とタグをセットで学習させることで、ある程度は一貫した描写が可能になっています。しかしゲームとして成立するほどの一貫性となると、現在のような追加学習では到底不足しています。
たとえばキャラクターが多少一貫して描けたとしても、それだけではゲームが成立しません。プレイヤーキャラクターの顔のディテールがフレーム間で微妙に変化するなど違和感が強すぎるでしょうし、ゲーム性にも関わります。同様に背景やその他のオブジェクト、質感など、画面内の全てが同一物として一貫して描写できる必要があります。いつ何度描いても、同じ出力を安定して行えるだけの一貫性が求められるのです。
一貫性はVRのように異なる視点での出力が必要な場合にも不可欠です。同一の世界を、視点だけ変えて他一切は同じに保たなければ、VR用には使えません。そのためには明らかに、2次元的な表現の学習だけでは足りず、表現の3次元的理解が必要になるでしょう。
現在のファインチューニングや学習のような手法は、Diffusionモデルにそうした一貫性をもたらせるようには見えません。ゲームが成立するほどの一貫した描写は、モデルに大幅な革新が行われ、一定の描写に拘束するような新たな概念が導入されなければ難しいようにも感じます。
連続性
連続性の鍵は動画の生成でしょう。時間方向の連続的で破綻のない変化を生成することは、動画の生成と同義です。
動画が生成できるAIにはまだオープンなものがありません。研究成果レベルでは大手から幾つも発表されていますし、Stablity.AIもいずれ動画のプロダクトを出すと宣言していますが、現時点でそれがどの程度のものなのかは公表されていません。
しかしGoogleなどが公開している生成された動画を見る限り、その連続性は素晴らしいです。たとえば散らばった落ち葉が動いて文字の形に集まるなど、単にフレーム間での破綻が無いだけでなく、より長いフレームで目指す描写に辿り着くような表現がすでに生成されています。
AI生成プロダクトのプレイヤーたちは確実に、画像の次には動画をと考えているでしょう。画像よりさらにインパクトは大きく、応用範囲も膨大です。投資は継続され、いずれオープンな実装も登場するはずです。そしてそれらはAIGRに不可欠な連続性に強く影響するでしょう。
動画生成には時間方向変化の表現の学習が不可欠であり、膨大な動画データセットと、画像に比べ遥かに大きな学習が必要です。また生成に必要な計算資源も桁違いに大きいでしょう。それに加えAIGRにおいては、短時間の動画の生成ではなく、前述の一貫性も維持した上でのリアルタイムな描写が必要です。
ハードルは恐ろしく高く見えますが、これが成立しなければAIGRなどありえません。しかしそれを解決する方向こそAI生成の発展であり、いずれAIGRに到達するだろうと考えています。
制御性
ゲームである以上、AIGRはリアルタイムに制御可能でなければなりません。インタラクティブに制御可能であってこそ、ゲームに向けたレンダリングエンジンです。
AIGRの制御は、これまで挙げてきた一貫性と連続性の上に成り立ちます。一貫した描写が破綻なく連続して描けるのであれば、必要な制御も行えるはずだからです。両者が成立していれば、あとは要求が如何に厳密にレンダリングを制御できるか次第となります。
たとえばゲームのプレイヤーがスティックを倒すと、プレイヤーキャラクターが歩くとします。そこでは歩くキャラクターの破綻ないアニメーションだけでなく、追従するカメラに写される背景の変化も正確に表現できなければなりません。
あるいはモンスターとの戦闘であれば、操作に応じて剣を振りかぶり、斬りかかり、刃がモンスターの身体に食い込んで血しぶきを上げる、そんな描写が一貫した連続性をもって描けなければなりません。
もしかするとこうしたゲーム向けの描写は、汎用的な生成AIモデルデータで対応しようとすることに無理があるのかもしれません。そうした場合、ゲームに合わせた学習を行うことが、従来のゲーム開発における映像表現のための制作に取って代わる可能性もあります。
いずれにせよ、AIGRが実現するためには、一貫性と連続性が不可欠であり、それが叶えば、制御性は如何に最適なモデルデータを用いるか、という問題に落とし込めるでしょう。
AIGRが変えるもの
もしも本当に、ゲームにおけるレンダリングが3DからAIに置き換わったとしたら。それは単なるレンダリング方式の変更ではありません。またワークフローや技術セットの変化というだけでもありません。もっと根本的な描写の変革となります。
写真と絵画
3DとAIGRでは、求める表現へのアプローチが根本的に異なります。3Dは写真的であり、AIGRは絵画的です。
従来の3D技術は、必要な材料を準備し、並べ、仮想のカメラで写し取ることで描きます。仮想のカメラはそのまま写真やビデオ同様、予め準備された対象を二次元表現へ落とし込む装置です。
準備にはポリゴンやシェーダーや画像や数式など様々な方法がありますが、いずれも最終的に表現されるステップにある程度近い、具体的なデータです。こうしたデータはあらゆる準備にコストがかかり、準備されていないものは描けません。
これはあたかも、スタジオとモデルと小道具を用意し、ライティングと書割を整え撮影される写真のようです。
AIGRでは、データセットとして収集した表現群を、解析し再表現可能な状態で集積したモデルを用いて、定義された要求に合致する表現を算出します。モデルデータの構築に大規模なコストがかかりますが、そこから表現を導き出すために、3Dのような個別の準備は不要です。モデルデータから定義によって表現が導出されるのです。
これはまるで、描き手の脳内に蓄積された諸々から、描きたい表現が出力される絵画のようです。必要なのは豊かな最終表現のイメージと、それを定義に置き換える力です。
よりダイレクトな出力
従来の3Dワークフローでは、ゲーム世界の根本的な設計者と、実際に表現されたゲームとの間に、多数の技術的制作的レイヤーが存在しています。このレイヤーは障壁と呼んでも良いかもしれません。設計者がどれだけ豊かな発想を持っていても、障壁を通る度にそれは大きく変容せざるをえません。
たとえばキャラクターデザインにおいて、デザイナーの内部に確たるイメージがあったところで、自身が障壁をすべて解決できない以上、求める最終表現とは大きく違う方法でアウトプットし共有する必要があります。それはたとえばイラストかもしれませんし、言葉かもしれません。いずれにせよ、アウトプットはまた他のアーティストの手を経て、さらなるアウトプットとなり、また違うアーティストへ…という連鎖が続きます。
あるいはハードウェアの性能的な制約や、3Dレンダリングのための技術的な制約が、さらに表現を歪めていくこともあるでしょう。
AIGRは、確固たる発想者から表現までの間に従来介在していた多数の層を、劇的に取り除き得るレンダラです。「私はこう描きたかったのだ」と、定義への変換と生成という、最小で2段階にまで落とせます。
3Dは必然なのか
3D技術は重要で、その発展が表現の幅を大きく広げてきたのは間違いありません。しかしその適正は分野によって本来異なるはずです。
CADや測量など現実と結びついた分野では、3Dは3Dらしさを最大限活かせます。正確に定義された形状や画角、材質など、3D技術によって表現された視覚以外の情報を前提としているからです。しかしゲームはどうでしょうか。
ゲームの視覚表現は、たとえば写実性を求める場合があります。しかし本当に求められているのは、ゲームとして妥当な写実性であって、現実との厳密な整合性ではありません。物理的に多少間違っていても、プレイヤーが現実的だと感じられるなら十分です。さらに極端に言ってしまえば、どれだけ物理的光学的に破綻していようが、それがゲームとしての表現に合致していれば良いのです。
3D技術に準ずることは、ゲームにおける視覚表現の前提ではなかったはずです。しかし3Dレンダリングの発展とともに、いつの間にかそれが基準となり、3Dが最適でない用途には、あえてそれを歪めて使うという不健全な現状があります。
AIGRいう、既存の表現全てを材料にしつつ、相対価値的には極めて低コストになんでも描ける画材が現れた以上、視覚化の世界に棲み分けがもたらされるのは自然な流れではないでしょうか。
もちろん3D的なデータがゲームの根幹となるようなゲームもあります。たとえばレースゲームのように、リアルの再現が重要なシミュレーション分野のゲームは特にそうでしょう。しかしそうした分野でもレンダリング部分はAIGRに任せることが可能です。
シミュレーションに用いる3Dデータは、レンダリングに用いる最終表現に近いデータを使う必要がありません。現在のゲームでもシミュレーションには専用のデータを使っているでしょうから、新たにデータを作るわけでもありません。シミュレーションは3D技術で行えば、あとはシミュレーションの結果をAIGRにレンダリングさせることができます。
レンダリングに求めるもの
ゲームの作り手が目指す視覚表現は従来、技術に縛られてきました。色数も解像度も少ない黎明期には、1ドットをボールと見做したり線とみなしたり。2Dグラフィックスが発展すると、ドット絵という技術で表現力を競いました。3Dになり、レンダリングの工夫、シェーダーの表現力向上などを背景に、如何に魅力的な世界を3Dのガワとして描くかが競われています。
一方AIGRは、表現のための技術的な縛りが極めて少ない、要求と表現が直結したようなレンダリングを行います。これを凌ぐのはBMIなどで直接イメージを視覚化するぐらいでしょうか。
AI生成は今後の発展で更に容易に、およそ人間が表現してきたようなあらゆる表現を吸収し、高速に、汎用的に、制御可能になっていくでしょう。そしてAIGRが実現することで、コンピューターという制約が”コンピューターグラフィックス”をある意味特徴付けていた時代は終わり、望むグラフィックスが可能になるのです。
冒頭に挙げたゲーム画面風の画像は、意図的に今主流の3Dレンダリングを模した表現を選んで生成したものです。そうでなければAI生成結果は、ただの写真やイラストにUIが貼りつているだけの、紙芝居に見えてしまうからです。それだけ人は「ゲームとはこういう表現のもの」と刷り込まれてきました。それはゲームらしい視覚表現の呪縛とも言えます。
しかしAIGRでは違います。この記事に脈絡なく掲載した挿絵は、すべてがまさにAIでレンダリングされたものであり、AIGRが実現すれば、ああいった出力がそのままゲームの視覚表現として当たり前になっていくのです。
たとえばコンセプトアートそのままの描写に飛び込んでプレイする。油絵風の世界がそのまま動いたり、抽象画自体がゲーム表現だったり。映画並みの実物感や、銅版画のような世界でも。
そこでは3Dレンダリングが持っていた確実性は、壊れているかもしれないし、守られているかもしれません。それすら自由です。レンダリング結果がゲームを成立させさえすれば、3Dという軛は不要なのです。
3Dの行く末
AI生成が本当にAIGRに到達したとして、その時従来の3D技術にはどんな道が残されているでしょうか。
AIGRの性能が向上する度に、3Dレンダリングの活躍の場は奪われ、市場も投資も縮小していくはずです。どこかで大きな転換点が訪れ、ゲームは3Dを基盤としない道を選択するでしょう。最初は小さな作品でのAIGR採用が続き、幾つかの野心的なプロジェクトがそれを牽引するのかもしれません。やがて大手も採用を始め、ゲームエンジンなども変革を迫られます。
ある程度AIGRが普及したとしても、当面の間3DCGの資産は有用であり続けるでしょう。ただしそれは創作の分野ではなく、計測結果やシミュレーションの可視化、あるいはCADや地図など、正確さが求められる分野に限られるのではないでしょうか。
そしてその正確さすら、やがてAIGRは獲得しうるでしょう。そうなった時、3DCGは消え、視覚表現を伴わない3D技術だけが生き続けるのかもしれません。
一方、AIGRの発展が遅かったり実現が難しい場合、3DCGは生き残り、弱いAIGRと合わせてハイブリッドなレンダリグを行うようになるかもしれません。これはまた別の記事で検討したいと思います。
妄想AIGRゲーム
おまけとして、今の静止画生成AIで作った画像から、「もしもAIGRが実現したらこんなゲームが」という妄想AIGRゲーム集を。
シェーダーによるそれっぽさではなく、完全に水彩画そのものの世界を動き回る冒険。本当の動く絵本。
恐ろしい世界に、完全に現実のような描写で没入したり。
手強い敵と切り結んだり。
リアルすぎるモブキャラをひとりひとり眺めたり。
未知の文明の遺跡に潜り込んだり。
美しく溺れそうな川に挑んだり。
タペストリーの世界で魔女に弟子入りしたり。
最後に
最初の記事ということで、具体的に想像しやすいゲームを対象としました。かなり誇大で偏った、しかしあり得る未来だと考えています。なにせまだ、AI生成の発展は初期も初期です。
そしてお気付きかもしれませんが、ゲームがAIでレンダリングできるということは、あらゆる視覚表現コンテンツがAIで描かれる事とほぼ同義です。
リアルタイムにインタラクション可能なAIGRは、OSやアプリケーションのUI、映像作品、ナビゲーション、コンパニオンなどなど、全てのデバイスを通じた視覚表現の基盤となり得るポテンシャルを持ちます。
来年には、静止画において従来的な3DCGの利用は激減していくでしょう。3DCGだけでなく写真やイラストも同様です。正確さが重要なケース以外では、コスト差が途方もなく広がっていきそうです。
あるいは3DCGは、学習用のデータセット作成にだけ用いられたり、AI生成とのハイブリッドな用途へと縮小していくかもしれません。
また同じような変化が動画に到達するのも、想像よりは遠くないかもしれません。動画生成AIの発展は、AIGRへ至る重要なステップでしょう。そういう意味では、AIGRが成立した時点で、従来的な手法で作成される視覚表現は、すでに終わりを迎えているのかもしれません。
AI生成が広く公開されて以降、こうしたSF的な妄想がどんどん湧いてきます。今後も記事にしていくので、よければフォローください。