AI自動生成でここまでできる！Google発の画像生成AI「ImageFX」の実力を体験

ikarush（イカラッシュ）

2024年11月10日 07:08

ども、こんちわ。

その昔、自分のプロフィールの冒頭に「美女とメタルと野球・サッカー観戦が好きな～」と書いていたオッサン、ikarush（イカラッシュ）です。

さてさて今回は（今回も）美女にまつわる話。

そうです、画像生成AIで美女を生成しようというアレです。

利用するサービスは、現在完全無料でありながらリアル系の描写力がすさまじいと噂の「ImageFX」。

Google発のサービスで他にビデオや音楽などの生成も楽しめる、FX御三家（？）の画像生成AIを使ってみました。

使い始めこそ？？？の連続で、こちらが指定したプロンプトもその強靭な「コンテンツ違反の壁」に阻まれ上手くいきません。

が、しかし品を変えプロンプトを変えしばし格闘する事で、そこそこきゃわたんな画像を生成する事が出来ました。

少し前からPixAIを使っている自分としては「す、すごい！」とうなるほどの描写力。

人物全体の描写力もそうですが、指の破綻などあまりなく、指定してないのに背景ボケまで作ってくれるのは「優秀」と言わざるを得ません。

とはいえ指定するプロンプトが規約の壁により出来ない事もそこそこあるという感触も得たのも事実。

という訳で今回の記事は、ImageFXを使ってみてのレビューをして行こうと思います。

さらには一眼レフを使っての女性ポートレート撮影を10年弱ほどやってきた実績から、カメラやライティングなどの知識もあるため、カメラマン視点にたったImageFXの印象にも言及しながらお伝えいたします。

画像生成に興味はあるけどよく分からなくて手が出せてない方や、ImageFXというワードは聞くけどまだ触れてない方。

上にUPした画像を見て「ImageFX、ちょっと気になる！」という方にも分かりやすくご紹介しますので、ぜひ最後までご覧になってみてください！

Google発の画像生成AI「ImageFX」の強みと弱みについて【レビュー】

冒頭ですごい！と伝えましたので良い印象を強く持っているのですが、そこはもちろん画像生成AI、イマイチだなぁという点も複数ありました。

という訳でこの記事では、他の生成AIや一眼レフにてカメラ撮影を行う人間の視点に触れながら、ImageFXの良い点・微妙な点をご紹介します。

良い点・微妙な点それぞれの内容については、上に表示されているだろう目次にてご確認いただくとして、ここでのまとめは割愛します。

画像生成AI「ImageFX」のStrong Points

まずはストロング・ポイント（強み）からお伝えします。

Strong Point ➀：「造られた感」の少ない写真的画像

スゴイな！と思った点の１つめは、その圧倒的な表現力です。

私はStable Diffusionやmid/Nijijourneyなどを使いまくってきた人間ではないので、画像生成AIについて詳しいわけではありません。

ただ過去10年弱程度ではありますが一眼レフを使っての屋外/屋内ポートレート経験がある他、フォトショやイラレを使っての仕事をしているせいもあってか、生成AIや修正・加工を施した画像を見る目が養われています。

そんな自分の目から見て、ImageFXで表現される女性ポートレート画像は非の打ち所がない印象でした。

全ての生成AI画像が「造られた感がある」とは言いませんが、リアルではありえない影の描写や、背景にはめ込まれたような浮いた自分物画像など。

どこかで「造られた感」をがあるなぁと感じているのですが、ImageFXのこの画像にはその印象がかなり薄くリアリティがあるように思います。
（※ プロンプトに“portrait”（ポートレート）と入れているからの可能性もあり）

しかし何故、それほどのリアリティを私が感じるのか。写真の人物撮影（ポートレート）感を受けるのかについては、この後カメラでのレンズの特性を交えながらお話します。

Strong Point ➁：ピントと被写界深度（いわゆるボケ）

私が過去、一眼レフを使っての女性ポートレートをやってきた事は先ほどお伝えしました。

諸事情により多くのデータが吹っ飛んでしまっているためあまり良い画像がないのですが、以下に数枚、過去自分が撮影したポートレート画像を載せてみます。

一眼レフカメラでポートレートをする際の利点は、写真に被写界深度（ボケ）をいれて被写体（モデルさん）をその１枚の写真の中で「これを見て！」という事を表現できることだと考えています。

ちなみにスマートフォンやコンパクトカメラでもボケはそれほど苦労せず作れますが、レンズ交換が容易にできる一眼レフカメラでは、ボケもレンズ次第で好きに作れるというのが最大の特徴と言えるでしょう。

話がそれましたが、ここで伝えたい事は「人物写真（ポートレート）の場合、被写界深度（ボケ）とピントが重要だ」という事です。

次の画像はImageFXで画像生成したものです。

この画像を見て、どういう印象を受けるでしょうか？

モデルさんカワイイな！
手の描写はどうだろう？
ストッキング履いてるんだね！
肩の部分少し透けてるけど？
髪型、ツインテかな！

一般的にはこんな感じではないでしょうか。

ちなみに一眼レフカメラなどでポートレートをやり、一通りカメラの勉強をした人間だとこんな感じの見方もします。

それぞれの色で表示部分を大雑把に囲みましたが、ボケになっている個所からおおよそのカメラマンの立ち位置や、使用しているレンズの焦点距離・絞り（F値）なども何となくイメージできます。

ちなみに何故レンズの焦点距離が分るかというと、レンズの大きさ（長さ）によって映る画角が変わるからです。

今回はImageFXの記事なのでレンズの焦点距離については詳述しませんが、レンズが小さい（短い）と広角の画像が、レンズが大きい（長い）と狭い画像が撮れます。

またレンズの絞り（F値で表される）についても、ピントが合ってクッキリしている個所とそれ以外の広さ・狭さを見る事で理解できます。

詳しくは上記画像の元サイトが分かりやすかったので、興味があればそちらを参照してみてください。（以下リンク同）

ちなみに撮影時のライティング知識や経験があれば、光の入り方についても以下のように見えています。

この画像は割と分かりやすいですが、被写体モデルの足側と奥の壁が暗くなっているため、そちらの方向（画像奥側）に窓などはないという事は明白。

また洋室のような部屋のようなので、窓などから差し込む陽の光が壁やベッドの反射により、被写体モデルさんに柔らかい光としてまんべんなく当たっています。

なお図では、光の来ている方向は左や下側からの矢印のみとなっています。

逆に言うと「被写体モデルの右側に窓がない」と言っているのですが、その明確な理由は、モデルの左右の目やその上（眉毛の上のおでこの辺り）に明らかな明度に違いがあります。

仮に被写体モデルの右側に窓がある場合は、モデルの顔の左右に明度の差はなくなる、もしくは反転するでしょう。

少々長くなってきたのでここらで解説を終わりにしますが、ピントと被写界深度（いわゆるボケ）がある事で、よりリアリティのある写真という印象を受けるのです。

先ほど画像を見る事でレンズのおおよその内訳が分るといいました。
最近全くカメラ触ってないのでカンは鈍っていると思いますが、カメラ・レンズの各項目の数値はこんな感じかな？と推測しています。（正解はないが）

・レンズ口径：不明だが単焦点の可能性
・露出：0.0～-1.0
・絞り（F値）：1.8～2.5辺り
・焦点距離：40～75mm辺り
・ISO感度：400前後

Strong Point ③：色被り表現

3つ目のスゴさは色被り表現です。

色被り（いろかぶり）とは、例えば緑の芝生の上で撮影すると肌が少し緑色になるとか。

海やプールなどで撮影すると肌が青くなるなど、周囲の光の反射により光を受ける場所の色が実際の色とは変化する事を言います。

上の参考画像を見てもらうと、人間だれしもゴルフボールは一番左のような色を感じているハズなのですが、実際は下地の色などによって（特にゴルフボールの下側面の）色が変化します。

この解説でピンとこない方は上記画像の元サイトもご覧になると分かりやすいかもしれません。（以下リンク同）

色被りが良いか悪いかは別として、色被りまで表現されてしまうと、実際の写真なのかAIにより生成された画像なのかの判別は非常に難しくなる気がします。

以下は再びImageFXの生成画像です。

参考例として上げたこの2枚、それぞれの画像の色被りの位置をくくってみました。

プールでの画像の場合は、水（正確にはプールの床側面）の色が反射して、被写体モデルの光の反射を受ける肌の色が水色に色被りしています。

サッカー場らしき芝生の上にいる被写体モデルも同様に、その芝生の色が反射していることが分かります。

この色被りですが、プロが使うような超高額カメラやレンズを使っても、光と色の特性上、色被りは絶対に発生します。

なお撮影時に色かぶりを加工な限り小さくする方法はいくつかありますが、カンタンなもので言うと被写体のモデルさんに白い衣服を着てもらうというのも1つの方法。

実際のドラマや映画・グラビアなどでの撮影の場合は、厚手のシーツくらいもある白い布やタオルなどで被写体モデルの地面を覆い、色被りの元となる光の反射を限りなく小さく（フラットな色に）しています。

ちなみに「そんなのPhotoshoなどのアプリでいくらでも編集できるでしょ！」と思う方もいるかと思いますが、色被りの色のみを修正するのは現在のソフトでは至難の業。

今後この辺りの色補正もAIが何とかしてくれれば、映像やスチール撮影の編集もラクになるのかもしれません。

Strong Point ④：利用料金フリー

良い点の3つ目までは画質的な話でしたが、4つ目のポイントは料金が無料である事です。

これだけ写実的な、リアルなカメラ的表現が出来るにも関わらず、無料で利用できるのはスゴいとしか言いようがないです！
（※ なお一日最大100生成までが限界で、それ以上出力するリセットを待たないといけない）

しかし無料がスゴい！と思ったものの「Chat-GPT」や「DALL-E3」のオープンAIや、Microsoftの「Copilot」なども同様に無料である事を考えると、あのGAFAMの一角のGoogleがまさか個人から利用料とるとか…とヤボな想像をすれば、そこは無料でも「さもありなん」と言えるかもしれません。

とは言えリアリスティックな画像生成が出来るサービスが、一日100生成という制限はあるものの無料で使えるのは素直にありがたいです。

画像生成AI「ImageFX」のWeak Points

ここまではImageFXの良い点・強みについて解説してきましたが、ここからは使い勝手の上でチョットこれはう～～～～んと思ってしまう、微妙な点や弱点について話していきます。

Weak Point ①：公序良俗的な規約による一部プロンプトの使用が出来ない

その微妙な点の１つ目は、一部のプロンプトが使用できないという事です。

これはいわゆるエロやロリなど、一般的な公序良俗的な範疇から「このワードをプロンプトに入れて生成するのはダメですよ」という話。

NGワードなプロンプトを入力して画像生成すると「コンテンツが見つかりません」と表示され画像が生成されない

エロやロリ（その他グロや、実際の人物に関連するゆがんだ表現）を出力しない一般ユーザーにとっては何の問題もありません。

がしかし、我々（？）紳士たる健全な男性にとっては非常に難問！

さらにここでいう公序良俗とは日本の尺度ではなくアメリカを基本としたグローバルな尺度となるため、規約の範囲が非常に広くなることから、利用できるプロンプトも一気に狭められるというワケです。

例えばですが英語の「teen」という単語はteen-ageなどと使われるように「（年齢が）10代の」という意味ですが、これはImageFXではNGです。

そのため「teen girl」などのワードは使えません。ですが「young girl」であれば使えます。

また「legs（足）」という単語はNGですが、「foot」や「feet」は利用できます。

このように何がOKで何がNGなのかという線引きがよく分からないため、プロンプトを入力してみてダメなら…という作業を繰り返すことになります。

可能であれば「R-18」的なフィルタリング枠みたいなものがあって、利用者が成人であるばエロ・グロ・ロリOK！みたいな仕様となればありがたいのですが…

まぁでも天下のGoogleなので、願っても難しいのかもしれません。

Weak Point ② ：プロンプト以外の選択肢がない

題目だけ見ると①と同じように感じるかもしれませんが、ここで言う「プロンプト以外の選択肢」というのはStable DiffusionにおけるモデルやLoRAなどの、プロンプトを補助する項目の事を言っています。

上図はImageFXの画面スクショですが、見て分かる通りプロンプトを入力するスペースしかありません。

私は少し前からStable Diffusion系サービスのPixAI（ピクスエーアイ）を有償利用していますが、PixAIの画像生成画面は以下の通り。

PixAIは右端にあるサイドバー（数字の➁～⑤が表示されている部分）が上下に動き別の項目も触れるようになるのですが、例えばネガティブプロンプトやVAEモデルの選択なども標準で利用可能となっています。

もちろんこれはPixAIがStable DiffusionというAIモデルを利用しているため、ImageFXの採用しているAIモデルがプロンプト入力のみのText-to-Text型であるため。

つまりAIモデルが何であるかの問題とも言えます。

とは言えプロンプトのみの出力にはいささか限界があり、こまかな修正を規約により狭められたプロンプトで編集するのは、かなりの難しさがあると感じます。

Weak Point ③：1：1構図以外の出力不可（バグの可能性）

微妙な点の3つ目は、出力時の解像度サイズについてです。

現在ImageFXの画像出力には5つの表示サイズがありますが、正方形サイズの1:1構図以外を選択して画像生成しても、コンテンツが見つかりませんとなり画像生成されません。

この現象が私だけに発生しているのか、それとも利用者全員が発生しているのか分かりませんが、この構図変更も出来るとありがたいなと思います。

Weak Point ④ ：指や手足の表現崩れ

4つめの微妙な点は全ての画像生成AIに今なおある問題で、このImageFXも例外なく指や手足の表現がおかしくなります。

なおStable DiffusionではネガティブプロンプトやLoRAなどにより、この指や手足の本数の不具合を軽減する事が可能ですが、プロンプト入力しか出来ないImageFXにおいて入力ワードのみでこの問題を軽減させられるかどうかは不明です。

とは言えStable DiffusionモデルのSDからSDXLに変わる事でこの表示崩れが軽減されるように、このImageFXでも同様の効果があるのかもしれません。

いずれにせよ画像生成AIとは（現状のところ）切っても切れない問題なのですが、このImageFXでもたまに発生してしまうのが残念です。

Weak Point ⑤ ：回数リセットの際に全ての記録が消える

強みと弱みの数を同じにしたかったけど、弱みの方が数が多くなっちゃった。マァやむなし。

さてこの題目の意味ですが、一日100回の生成制限がある事は既にお伝えしましたが、その記録データがリセットされる際に全てのデータが消えます。

つまり生成した画像データやプロンプトを保存していない場合、回数リセットが行われたら二度とそのデータを手に入れる事はできなくなります。

生成した美女たちのずきゅんどきゅんしたアレやコレやも、一日経つと儚き夢の亡骸のように…

ちなみにプロンプトの保存や編集についてですが、私はGoogleドキュメントを活用しています。

最初はPC内のメモ帳などを利用していたのですが、仮に外で触りたいとなった際にクラウドベースで保存・編集・文字装飾などが出来て、無料で使えるうえアクセスが容易いので重宝しています。

まとめ：Google発の画像生成AI「ImageFX」の強みと弱みについて【レビュー】

それでは今回紹介した強みと弱みをまとめます。
まずは強みについて。

＜ ImageFXの強み・良いと思える点＞

➀ 「造られた感」の少ない写真的画像
背景＋人物＋影の組み合わせで造られたような感触ではなく、あくまでその場でカメラ撮影をしたような画像に感じられる
➁ ピントと被写界深度（ボケ）
一眼レフカメラの撮影などで表現されるピントと被写界深度の表現がキレイで、ゆえにカメラ撮影の画像のような質感がある
③ 色被り表現
芝生の上で撮影すると芝の色が、水の付近で撮影すると水の色が、それぞれ反射して被写体に色が写り込むことがあるが、それらが表現されている
④ 利用料金フリー
一日100生成という限度はあるが、リアル表現が可能な画像生成が無料で利用出来てしまう

次いで自分が気になった、これはチョットなぁと感じた弱み・微妙な点をまとめます。

＜ ImageFXの弱み・微妙だなと感じた点＞

➀ 一部のプロンプトが使えない
エロやロリ・グロなどを表す単語がGoogleの規約、ひいては世界的グローバルな視点での公序良俗観点から使用できない
➁ プロンプト以外の選択肢がない
Stable Diffusion標準のモデルやLoRA、イメージ・トゥ・イメージなどの利用が出来ず、テキスト・トゥ・テキストのみの生成手段となっている
③ 1：1構図のみ出力可（バグの可能性）
縦長構図、横長構図など5種類の構図が用意されているが、1：1以外の構図に設定しての生成が出来ない
④ 指や手の表現崩れ
画像生成AI全体にある問題はImageFXにも存在する
⑤ 回数リセット時に記録が消える
プロンプトや生成された画像を保存しておかないといけない。生成回数リセット時に全てのデータが消える

今回はImageFXで生成される画像の特性から、カメラ撮影に関する話題にも飛んだため、随分と長い記事になってしまいました。

ただこれ（生成AIによる美女画像生成）を機に、カメラでの女性ポートレートにも興味を持っていただけたなら嬉しいです。

また今後もImageFX関連の記事は書いていこうと思っていますので、次回もImageFXのあれやこれやについて。

もしくは別の記事でお会いできれば嬉しいです！

長い文章となりましたが、最後まで読んでいただきありがとうございました！

それではまた！！

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

40,112件