Googleが最先端画像生成AIモデル「Imagen 3」を試してみた

2024年8月17日 17:21

Googleが最先端画像生成AIモデル「Imagen 3」を試してみた - つみかさね
https://3yokohama.hatenablog.jp/entry/2024/08/17/171603

Google DeepMindがテキストから画像を生成できる新たなモデル「Imagen 3」をリリースするとともにImagen 3の研究論文を公開しました。Imagen 3はGoogleの画像生成ツール「ImageFX」で試せるとのことなので、実際に試してみました。Googleは画像生成AIの開発に果敢にチャレンジしていますが、まだ結果が出ない状況でした。Geminiも撤退したまま、リリース情報なしです。そんな中で「Imagen 3」というものを出してきました。

プロンプトで制限される度合いが強いという情報がありました。エロとかAVとかには神経質になっているようです。普通一般の語句であれば特に問題なく生成して呉れます。画質はかなり高品質です。どこまで試用できるのかわからない。50枚程度試してみましたが、制限はかかっていません。1回で4枚、時には2枚位生成して呉れます。日本語では変な画像を出力してきます。英語であればそれなりに指示した絵になるようにしてくれます。（英語のプロンプトが推奨ですね）日本からでもアクセスできます。「ImageFX」はGoogleアカウントを持っていれば無料で使えるそうです。特に試用期間なども設けていない。

ここにアクセスして、Googleアカウントでログイン、プロンプトを入力して作成で絵を作ってくれます。
ImageFX
https://aitestkitchen.withgoogle.com/ja/tools/image-fx

5月にGoogleが最新の画像生成AIモデル「Imagen 3」を米国ユーザーに向けて静かに一般公開した。Imagen 3は、テキストプロンプトから高品質な画像を生成する能力を持ち、Google自身が「他の最先端モデルよりも優れている」と評価している点で注目を集めている。

Googleが最先端画像生成AIモデル「Imagen 3」を一般提供開始
https://qr.paps.jp/sOLf
Googleが高品質で文字のレンダリングも可能な画像生成モデル
「Imagen 3」をリリースしたので使ってみた
https://gigazine.net/news/20240816-google-imagen-3/

「Imagen 3」は、Googleが開発した最新の画像生成AIモデルで、テキストから高品質な画像を生成する能力を持っています。このモデルは、以前のバージョンと比較して、以下のような特徴があります。

特徴
詳細な画像生成: Imagen 3は、より詳細でフォトリアリスティックな画像を生成する能力が向上しています。特に、テクスチャの再現性や光の表現が豊かになり、視覚的なアーティファクトが少ないです。
自然言語の理解力向上: このモデルは、より複雑で長いプロンプトでも細部を正確に理解し、忠実に再現することができます。これにより、ユーザーはより創造的で詳細なプロンプトを入力することで、期待通りの画像を得ることができます。

テキストレンダリングの改善: テキストを含む画像の生成能力が大幅に改善され、バースデーカードやプレゼン資料など、ビジネス用途にも適しています。
電子透かし技術「SynthID」: 生成された画像には電子透かしが埋め込まれており、AIによって作成されたことを示すことができます。これにより、ディープフェイクなどの悪用を防ぐことができます。

利用状況
Imagen 3は、Google Cloud PlatformのVertex AIで利用可能で、今後はGoogleの各種製品にも展開される予定です。また、ImageFXプラットフォームを通じてアクセスすることも可能です。
このモデルは、クリエイティブ業界やマーケティング分野での活用が期待されており、ユーザーは専門的な知識がなくても日常的な言葉で複雑な画像を生成できるようになっています。

プロンプト例
若い日本の女性、ポートレート、元気溌剌、活発、優雅、ネックレス
Young Japanese woman, portrait, vigorous, lively, elegant, necklace.