見出し画像

2023-10月版誰でも使える画像生成AI

生成AIの「誰でも使える」ポイントとは

2022年の8月頃から画像生成(ジェネレーティブ)AIをしばらく追ってきたのですが、ここ数ヶ月のの進化が凄まじく、やっとだれでも気軽に使えるようになってきました。
このジェネレーティブAI、どういった点が誰でも使えるようになってきたのかというと、大きく、3点あると思います。

  • ソフトのインストールやハードウエア依存が無い:以前は(昨年)画像メモリ12GB以上のGPUを搭載したコンピュータにpythonをインストールして、コマンドラインで指示を出していました。それが今では、普通のパソコンのブラウザを使ったWebサービスとして利用できます。

  • 呪文の簡素化:呪文と呼ばれるプロンプトが難しく、英語で例えば、「美しい目、長い髪、姿勢はxxx、指はxxx・・・」と事細かく設定が必要だったのですが、最近では「綺麗な女性」で良さげな画像を生成してくれます。

以前の呪文はこんな感じ(これでも最低限です。)
 prompt = "photo of a modern cute girl lit from below,shot from below,beautiful face,long waved hair,cute eyes,beautiful costume,beautiful background,beautiful composition,night,soft lighting,SIGMA 85 mm F/1.4 "

以前生成したちょっと不気味な女性(Stable Diffusion使用)
  • 指の生成:指はジェネレーティブAIが一番苦手なのですが、改善され、あまり違和感がないケースが多くなってきました。

以前生成した人差し指が異様に長いインド人(Leonald.aiで生成)


これも手が良くわかりません(Stable Diffusionで生成)


昨年8月〜生成した不気味なシリーズ。「不気味な」というプロンプトは使っていません(Stabele Diffusion)

2023 10月時点で何がお勧めか

様々なジェネレーティブAIを実際触っているわけではありませんが、プロンプトも簡単、ハードウェアも不要で誰でも使えるという観点からは(無料という意味も含め)、Microsoftの Bing Image CreatorとAdobeの Fireflyが使いやすいと思います。

Bing Image CreatorはマイクロソフトのEdgeブラウザ上で使用できる画像生成サービスで最近、DALL-E3という9月にOpen-AIからリリースされたばかりの画像生成AIを組み込んています。フロントエンドはChatGPTと言われていますが、テキストから簡単に綺麗な画像を生成することができます。
無料では回数制限がありますが、始終使うのではなければ十分使えるかと思います。DALL-E3で生成される女性はどれも魅力的なのが良いです。しかもプロンプトがとても簡単です。

Bing Image Creatorで生成した画像 プロンプトはシンプルです

一方のAdobe Fireflyは、画像のタイプ絞り/シャッター速度等が調整できたり参照画像を利用した生成も出来るのがとても楽です。(参照画像に寄りすぎる気はしますが)

Adobe Firefly で生成した画像 右下の画像はBing Image Creatorで生成した参照用の画像

FireflyはAdobeの素材で学習しているため著作権フリーですが、生成した女性の可愛さではDALL-E3に軍配が上がると思います(笑:Fireflyの方が個性的ですが)。またFireflyはAdobe のPhotoshopでも生成機能として利用することができます。Fireflyも無料の場合1日に生成出来る画像数の制限はあります。

最近作成した画像は、下図の様にまずImage Creatorで(可愛いので)生成した画像をPhotoshopのレタッチ機能とFireflyの生成拡張機能で完成させる、ということもしています。

ChatGPT4+DALL-E3という組み合わせでは、対話型で、生成した画像にもっと髪を長くというような修正も可能なようですが、ChatGPT4は有料なんですよね。


Photoshopで生成拡張。指示は白い部屋としました。


プロンプトに生成したいものを指示するのがポイントです


右側のメニューにあるようにバリエーションも生成されるので、好みのを選べます

最近、依頼された動画のイメージ共有のため、Fireflyで生成した画像を絵コンテとして使う試みもしています。


Fireflyで生成した絵コンテ。20数枚を30分くらいで作成できました

ここまでできるとポートレートを撮影して、空想の世界の風景の画像をレイヤーとして撮影した人物をそこに埋め込むことも簡単にできます。そうなるとどこまでが写真なのかという議論も深まりそうですね。

以下の写真は実際に撮影した写真から人物をオブジェクトの選択(Photoshop)したものと、Bing Image Creatorで生成した月面のリゾート地を合成して、Lghtroomで背景にボケ(レンズ)を追加したものです。両方の画像をなじませるのにかなり手抜きしてますが、これが数分で出来上がります。
これが写真と言えるのかの議論は置いといて、なかなか楽しく、創造力が高まります。

色々使った合成画像


東京都在住のアマチュアカメラマンです