見出し画像

AIでアクションゲームのグラフィック素材を作れないか試してみた

ここ最近、ニュースで「AIが絵を描いてくれる」「イラストレーターの存在意義はなくならないのか」と話題になっている。

私は個人でゲームを作っていて、絵は描けないしモデリングもほとんどできないので、フリー素材を加工したり3DCGソフトを弄ったりして何とか画像を揃えている。

そう簡単に行くとは思っていない(いかなかった)が、習熟と加工が必要にしろ部分的にでも活用できる可能性もあるし、たまには新しいものに手を出してみようという気になったので触ってみることにした。

先に結論から言うと、欲しい素材の単語をtxt2imgしても使えるものはすぐに出てこなかった。img2imgをこれから試す少しくらい成果が出てから記事にしたかったが、ColabでのGPUの使用量上限に達してしまったので一旦休憩がてら進捗をまとめることにした。

Stable Diffusion2

まず最も話題になっているStable Diffusionを使ってみた。実行は超簡単で、Google Colab上の仮想環境なのでロースぺPCでもいける。下記の記事を参考にすればエンジニアじゃなくてもできるレベル。512x512の画像で1分もかからない。

最初「ブラウザ上のデモ版では1回何分も待たされる」と聞いてローカルに環境を作ったのだがVRAMが2GBでは無理だった。あれこれ調べてCPUで実行してみたが、1回20分もかかると分かって自分のPCでやるのは諦めた。

で、早速"life gauge"とかやったらこうなる。Google検索と違って、「ゲージ」をゲーム用語として解釈してくれるほど親切ではないようだ。文字も変で、原寸大でずっと見てるとなんだか鳥肌が立ってくる…

画像6

望む絵のために修飾語を考えたが、アクションゲームだと言うとそちらに引きずられてライフゲージが見切れたりそもそも出てこなかったりする。

life gauge in action game

画像8

ドット絵調が欲しくて"Pixel art"を入れても、ピクセルを強調しすぎて粗かったり、逆に点描画風になってしまう。

health indicator in action game, pixel art(一番左はNSFW判定)

画像2

気分転換にリアル系のお題を試してみると少しは希望が持てるものがすぐに出てくるので、ドット絵系は苦手のようだ。

photograph of elven knights

画像4

paladin, photorealistic, beautiful, fantasy, unreal engine

画像5

逆にリアル系で出力させて、後からドットを粗くすればいいのでは?と思って「ライフゲージに使えそうな赤い棒」を出そうとしたが、うまくいかない。下の画像では"Bar"を「酒場」と解釈されてしまったのだが、赤いガラスからの反射光が表現されているのは凄い。

a red glass bar horizontal transparent

画像6

"Asset Pack"と入れたところ素材っぽい感じにはなった。こっからredとかglassとかlongとかAction RPGとか入れていくのも一つの路線かもしれない。

Pixel Health Bar Asset Pack

画像6

Pixel Art Diffusion v2.01

Stable Diffusionはドット絵が苦手と巷でも言われているようなので、ドット絵向けのPixel Art Diffusion v2.01も使ってみた。

こちらはColabだと1枚に何分もかかってしまう(さらにデフォルト設定だと1回で10枚ガチャなので注意)のと、まずまともに絵を出すのが難しい("super mario"とか打ったらグロ画像が出てくる)ようなので断念。

Asset Packとか入れても下のようになる。ネット上の作例も大きな一枚絵のいわば「ドット芸術」ばかりなので、そちらに特化したものなのだろうか。

Health Bar Asset Pack

画像7

所感

ここまで単語の羅列のみを与えてレイアウトはAIに任せる、いわゆるtxt2imgを使っていた。だが現状のAIはゲーム用素材に使える画像レイアウトの知識が少ないようなので、レイアウトを入力画像としてimg2imgに渡してやるほうがよさそうだ。

AIによる画像生成の話題はtxt2imgで実写風や絵画風の画像を出したものが多く、これは「単語だけで『ありえない状況を映した写真』や、『人が描いたのと区別がつかない絵画』が出てくる」のが人々にとってインパクトが強いからだろう。

また、少し触った感じではAIの性能もこれらに対して強いものになっているようだ。理由を想像するに、写真や絵画は学習用データとして集めやすく、なおかつそこから生成した画像でユーザーの関心を引けるからで、つまり人類の歴史と関心もそちらが大勢という話になるんじゃなかろうか。

逆に言うと、ゲームに限らずソフトウェア用のグラフィックデータを生成するという用途は実用的だが地味な上データが集めづらく、AIの改善も活用ノウハウの蓄積も遅れるのではないか。本当に必要ならアーティストに声をかけるとか有料で購入・依頼とかするので、需要もそこまでないのではと思う。あと高性能なGPUかColabへの課金がないと試行錯誤に制限があるので、そこも有料アセットとの比較になるだろう。

全然関係ないが、情報を漁ったり試行錯誤していたら頭の中で「Empire Earth」(20年以上前の歴史モノのゲーム)のBGMが流れてきた。自宅のPCにPythonも入ってないレガシーエンジニアの私には、これだけでも文明の発展的な何かを連想させる。たまには技術ネタっぽいことをやるのもよいものだ。





この記事が気に入ったらサポートをしてみませんか?