見出し画像

正しい画像生成AIの選び方!現行人気画像生成AI徹底比較!【2023年最終版】

みなさんこんにちは、ネッコスの井口です!

最近何かと話題になっているAIですが、今回はその中でも弊社CTOも興味深く色々弄っている、案件でもすでに取り扱いのある画像生成AIの種類と、それぞれの特徴について解説していきたいなと思います。

今でもすでにいろいろな革新が起こっているAIですが、その中でも画像生成、動画生成系のAIは大きなクリエイティビティを持っており、この先様々なことに生かしていけるのではないかと考えています。

すでに、PARCOや伊藤園などがAIタレント、AI生成CMを作成していたりと今までではどうしても工数、人の力がかかっていた分野においても今後はAIによって新たな革新が起こるかもしれない、そう感じさせますね。

今回はそんな画像生成、動画生成AI系のいろいろ出ているモデルの特徴や簡単な使い方を紹介していければと思います。

画像生成AI① DALL·E 3

まず紹介するべきはChatGPTと同じOpenAIの画像生成モデルDALL·E(ダリ)ですね。
最近になって最新版のDALL·E 3にようやく触れることができるようになりましたが、プロンプトでお願いをしたら様々な画像を書いてくれます。

GPT-4と同じインターフェースで使うことができますし、便利です。

当然ながら公序良俗に反するようなイラストは出力したりできませんし微調整というかもっとこうしてほしい!的なリクエストがうまく伝わらずにずれていってしまうことも多いです。

また、現在Microsoftが公開しているimage creatorでもDALL·E3には触れることができ、こちらは無料です。もちろん枚数の制限や生成時間がかかるなどはありますがひとまず気軽に触れてみたい場合にはいいのではないでしょうか。

以前はやや著作権的にアウトな絵柄などのものが普通に生成できてしまっていましたが、その辺りは徐々に対策されて行っているようでAIで気軽にイラストを描いてみたい!描いてもらいたい!といった場合にお勧めです。

タッチは私が使う分にはイラストチックなものが多いですが写実的に書いてと言えばリアル調もこなせますし、いろいろな使い方ができるかもしれません。

画像生成AI② StyleGAN3

写実的なリアルな画像を生成するAIとして、GANからスタートしてStyleGAN、StyleGAN2を経て現在最新モデルとなっているのがStyleGAN3になります。

基本的にこちらはローカル環境で利用するタイプで、16GB以上のGPUが必要になるためハードルは高いです。また、インターフェースも基本的にコマンドラインになるのでそちらの知識も必要です。

StyleGAN3のGithubより引用

最初に写実的と言いましたが普通にイラストなどもモデルに学習させることで対応もできます。ただ、その学習には結構な時間がかかってしまいます。

気軽に触るのには結構ハードルが高いというか、昨年騒がれたころまでは世の中にこれだけ生成AI系サービスが増える、多様になりWEBで簡単に使えるようになるとは思えなかったですがそのころまでのAI利用の手法として考えるとこっちが王道なんですよね。

画像および動画のリアルタイムでの修正などもできますし、いろいろな変化をつけたり人物をMIXさせて新しい人物画を生み出したりすることもできます。

ローカルで動かせるのでもちろん無料で利用も可能ですし知識さえあれば柔軟に利用できる画像生成AIモデルと言えます。

画像生成AI③ Midjourney

画像生成AIが出始めてから一気に広がった二種類のうち一つがMidjourneyになります。利用をするのにDiscordアカウントと認証が必要になりますが、WEB上で利用できるテキストから画像生成できるサービスです。

現在はユーザー増加に伴いか有料プランを利用しないと画像の生成ができませんが、Discord上のチャットルームでプロンプトを入力することで、それに即した画像を書き出してくれます。

Midjourneyのチャンネルで画像生成

日本語の解説ページは多いですが、公式のDiscordの解説はすべて英語なのでそこに少し戸惑うかもしれません。

実際に生成されるイラストはどんなタイプにも対応できている、定期的にモデルのアップデートができる、AIイラスト生成が苦手な指先の描画が比較的綺麗で正確といった特徴を持っています。

DALL-Eは自然言語処理モデルもまたがっているので文章でのプロンプトへの理解が高いですが、Midjourneyのプロンプトはどちらかと言えば,区切りで人物像の要素を並べていく方がうまくきれいに出ます。

プロンプト自体も基本は英語の要素になりますが、ローマ字打ちした日本の有名作品なんかにもしっかり反応することもあったり学習範囲は意外と広いのではないかと思います。

また、やはりWEBサービスになるので公序良俗に反するような要素は海外の厳しい規制でシャットアウトされます。

というより、スラングとかなのか気付かずにそういう要素が入ってしまってるらしくNGを出されてしまうケースが結構あるので気を付けていきたいですね。

画像生成AI④ Stable Diffusion

もう一つ画像生成AIの流行を作ったのがStable Diffusionになるでしょう。こちらもStyleGANと同じでローカルで動かすタイプのAIですが、Stable Diffusionが出てから一気にWEB上でStable Diffusionを利用した画像生成アプリなどが多数リリースされました。

AIピカソやお絵描きばりぐっどくん、Leonardo.AIなんかが有名なところでしょうか。だいたい利用に制限が付いていて、有料プランで解除されるMidjourneyと同じような形式です。プロンプトについてもStable Diffusion本体は基本英語になるので指示出しはしっかりした翻訳もしくは調査が必要になると思います。

画像についてはStable Diffusionをベースにしたカスタムモデルが大量に様々な人の手で作られているため、ほぼどんなものにでも対応できるのではないでしょうか。

カスタムモデル+追加学習モデルが豊富にあるというのがStable Diffusionの特徴と強みになります。以前メタバースの時に使った画像の一部はStable Diffusionのimg2imgという機能で私の写真をメタバース井口に加工していたりします。

ちなみにこのimg2imgで安易に商用画像を加工してオリジナルにしようとしてしまうと著作権違反になりますので気を付けてください。追加学習を行う場合も同様です。

ローカルで動かすタイプで前提条件が大変、そしてコマンドも知らないといけないStable Diffusionがここまで広がった理由は初期のころにブラウザ上で見れるGUIを利用できるプログラムが広まっていた、というのも大きいかもしれません。

基本数万するグラフィックボードが必要なものですし、そんなに手を出す人がいるとは思えない分野ですが触りやすい、という点が大きかったのではと思います。

あとはローカルタイプなので公序良俗に反しても問題ない…いわゆるアダルト的なのが強かったのも…世の中の技術の発展的にはやっぱりそうなんだなって思ってしまいます。

そこで触る人が広がってカスタムモデルや追加学習の手法も広がって、たくさん用意されているために主流になっていると考えられます。

多数の追加モデルが公開されているCivitai

いいパソコンさえ用意出来ればかなり自由度が高いのがStable Diffusionの特徴です。

画像だけではなく、動画を作成するためのプラグインなども追加されて行って柔軟性も高いので前提条件さえそろっているなら一番色々なものに対応できます、ただやはり指の本数などについては苦手ですね。

画像生成AIの簡単な活用方法

さて、これだけ色々な種類の画像生成AIがありますが実際にこれを利用したどんな活用方法があるのでしょうか?

最初に話したAIのタレント生成や、リアルタイムで動画のAI生成ができるようになればVtuberなどに近いことがもっと幅広くできるようになるかもしれません。

今のところの利用方法は大体画像生成AIの著作権はフリーなのでアイコンを作ったり、ロゴのひな型を作ったりするのにはすごく便利だと思います。

あとはイメージ画像なんかも作れますが細かい指定を聞いてくれるケースが少ない、プロンプトがやや特殊になりやすいのでとっつきにくいというのもあるかもしれません。

その辺りではDALL-Eが一歩抜きんでていますね、ただ指示を無視されることも多々ありますが…。

せっかくなら画像生成AIを利用してネッコスのLINEスタンプとか作ってみるのもいいかなーなんて考えます。そう言う事にも使えるのが現在の画像生成AIです。

AIで描いてみたネッコスのイメージキャラクターネッコくん

デザイン、イラストレーター的な人がいない会社でも気軽にこういうのを自分たちで試せるっていうのは大きいですよね。

他にも素材販売や配布、WEBデザインやバナーデザインのジャンルでの活用なんかも考えられます。現段階ではネッコス内部でデザインに活用はまだ行っていませんが、note記事のイメージ図などでは個人的に活用をしてたりします。

画像生成AIについてのまとめ

さて、何種類かのメジャーな画像生成AIについて紹介してきましたがいかがでしょうか。

基本WEBサービスやアプリで利用するものは有料になってしまうものが多くimage creatorで利用できるDALL·E 3かローカルで動かせる状況ならStylegGANとStable Diffusionに軍配が上がりますね。

目的があって画像生成をしたい場合にはStable Diffusionの柔軟性と拡張性が一番今のところ突出している気がします。
使い方、インストールの日本語記事も充実していますし情報も割とスピーディに翻訳、拡散がなされていると思います。

ただ、繰り返し言いますがGPUの強いゲーミングPCなどをすでに持ってる人向け、そして自分の手をたくさん動かさないと開始位置に立てないので気軽に使ってみようという気にはなかなかなりません。

GPT-4に課金をしているならDALL·E 3、そうでないならMidjourneyを使うかimage creatorで無料で試すというのが現状だと良さそうです。
もっと気軽に触ってみるならアプリの無料部分で試してみるでもいいと思いますが、細かい設定などができないのと日本語をうまく理解してくれない、指示を無視することがあるので回数上限が少ないと希望通りのものを生み出すのは難しいですね。

ネッコスのCTOが携わったお仕事の中にAIの技術に関するものがあって、リアルなユーザーが動いてる動画をイラスト風に変換して動画にする、みたいなので結構色々試していたのですがそれも拡張機能を使ってもっと簡単にできるようになってたり、たった1年程度の期間で画像生成AIの進化も著しく感じます。

よりクリエイティブなことが、センスやスキルを持っていなくても手が出せるようになったら私もAI井口になって動画とか作ってみようかなって思います!

まあすでにリアル井口がいろいろなのに出ちゃってるので今更かもしれませんけどね(笑)


よろしければサポートをお願いします!いただいたサポートは、制作会社としての活動費やおやつ購入に使わせていただきます❤