本日アップデートしたChatGPT Turboは画像生成の救世主か? - Blog 2023/11/07
OpenAIは6日(米国時間)、サンフランシスコで開発者会議「OpenAI DevDay」を開催しました。基調講演はYouTubeで公開されています。
次世代モデル「GPT-4 Turbo」が発表され、SNSでは早朝から大量の投稿が流れていました。
GPT-4 Turboは12万8000トークンまで扱えるようなり、一般的な書籍に例えると300ページ以上になります。
GPT-4 Turboの知識量ですが、2023年4月までの情報を持っています(GPT-4は2021年9月まで)。ただ、ニュース情報などはバックグラウンドでBingが動くので、検索して最新の情報を表示します。今日のニュースも表示できます。
「OpenAI DevDay」は開発者向けのイベントなので詳細は、IT系のニュースメディアにお任せして、クリエイティブワークに影響を与えるトピックに絞りたいと思います。
参考:
プロンプト生成と画像生成を同時に実行させる
ChatGPTを開くと、アップデートのポップアップが表示されます。
念のため、仕様について聞いておきます。
私:
ChatGPT:
それでは、試していきましょう。
まず、Midjourneyで生成した画像ファイルをChatGPTのウィンドウにドラッグしてアップロード、再現するプロンプトを生成させ、同時に画像も生成させてみました。
今までは、プロンプトを生成させた後、メニューでDALL·E 3に切り替えないと画像生成できなかったのですが、同時に実行させることが可能になっています(ALL Toolsと呼ばれていたもの)。
再生時間:25秒
次は、ChatGPTに役割を与えて2人の専門家に共同作業させてみます。
Midjourneyの生成画像をアップロード。この画像をリファレンスにする
専門家Aは、プロンプトを考案して、同時に画像も生成する
専門家Bは、生成された画像の改善点を指摘する
専門家Aは、指摘をプロンプトに反映させ、再び画像を生成する
やり取りが英語になっていますが、専門家Aが考えたプロンプトで画像が生成され、その画像を専門家Bが評価し、専門家Aが改善点を考慮してプロンプトを修正し、再度画像を生成しています。
再生時間:20秒
これは…. 画像生成ワークフローを変えてしまうインパクトがある。
プロンプトを考える時間は簡素化され、アートディレクターのような役割が重要になっていきますね。
企画書を読ませて、内容に沿った画像を生成させる
「動画生成AIでミュージックビデオをつくる Live」のストーリー案(テキストファイル)をChatGPTにアップロードして、書かれている内容に沿ってイメージを生成させてみます。
まず、以下のようにストーリー案の内容が理解できたかどうか確認します。
書かれている内容に沿って、第3幕までのイメージを生成させてみます。
全てのイメージを生成してくれました。
今まで一度に出力できる数は2つだったのですが、6つ生成されました。
数週間ごとに仕様が変わるので、紙のマニュアルを作ると大変だ…
試しに、ChatGPTが生成した第1幕のプロンプトをMidjourneyを使って生成してみます。
生成画像の品質は素晴らしいのですが、プロンプトに忠実なのはDALL·E 3です。Midjourneyは、「メグが写真を撮り、バックグラウンドでジェイクがサーフィンをする晴れた海岸の町」のシーンがまったく表現できていません。
プロンプトの解釈は、DALL·E 3やAdobe Fireflyに劣っているので、意図したイメージに近づけるのが大変です。
DALL·E 3はプロンプトを忠実に表現してくれるので、Midjourneyより試行錯誤を減らすことができますが、写実的な表現(写真と区別がつかないリアリスティックな表現)はよくブロックされます。
以下のようなメッセージを表示します。
以下のように、まだ完璧な画像生成AIサービスはないので(どれも一長一短)、複数の生成AIを組み合わせて使うしかないですね。
Midjourney:
写真と区別できないレベルの実写系の表現に優れているが、プロンプトの内容を反映してくれないことが多いDALL·E 3:
プロンプトの内容を忠実に表現してくれるが、実写系の表現はブロックされることが多い
生成した画像をA4のドキュメントに配置してPDFで書き出す
ALL Toolsと呼ばれていた機能統合が利用可能になりましたので、複数の作業を自動処理させてみました。作業内容は以下のとおりです。
テーマに沿って2つの画像を生成する
A4サイズのドキュメントに生成画像を配置する
PDFで書き出す
作業記録を16秒の動画にしたのでご覧ください。
再生時間:16秒
全ての処理をまとめて実行させると、プロンプトの一部を無視することがあるので、2つのタスクに分けた方がうまくいきます。
画像生成のタスク:
生成画像の配置とPDF作成のタスク:
エラーが頻繁に出ますが、ChatGPTが勝手にトライアンドエラーを繰り返して、最終的にはPDFのダウンロードリンクを表示してくれます。
ただ、少し不安定。同じ画像を2つ配置したり、プロンプトを掲載しなかったり。その都度、プロンプトで修正させることになるので、ちょっと面倒です。
Google Bard & Adobe Firefly にも期待
5月11日、AdobeはFireflyとGoogle Bardとの連携を発表しました。
いつリリースされるのか、まだ分かりませんがBardでも対話ベースの画像生成が可能になるかもしれません。
私:
Bard:
私:
Bard:
Google BardとAdobe Fireflyの連携にも期待したい!
今回のChatGPTのアップデートは、画像生成ワークフローを高度化し、脱プロンプトを加速させたと思います。
以下の記事で書いたとおり、テキストプロンプトで試行錯誤することの限界を突破する最も有効なインターフェイスではないでしょうか。
デザイン業界で言えば、アートディレクターとしてChatGPT(有能なアシスタント)に指示を出しながら、意図したイメージに近づけていく作業が主流になっていくと確信しています。
ChatGPTは必要に応じて、最も適したAI技術をバックグラウンドで動かしながら、対応してくれます(私たちは最先端のAI技術について知る必要はないわけです)。
チャットベースの画像生成が主流になる理由
ユーザビリティの向上:
利用者がプロンプトの言葉選びや表現に悩む時間が減り、直感的に望む画像に近づけることができます。
使いやすさやが向上することで、より多くの人がこれらの画像生成AIを利用するようになると考えられます。
細かい調整が容易:
利用者は初めのリクエストから順に詳細を追加・修正することができ、より具体的な指示や修正を繰り返すことで、理想的な画像を生成することが可能になります。
教育コストの軽減:
チャットと対話しながら、画像生成AIを利用できるようになりますので、画像生成の敷居が低くなるでしょう。
画像生成中のエラーが多くなってきた…
世界中のヘビーユーザーが殺到しているようで、画像生成中のエラーが多くなってきました。一旦休憩しましょう…
夜から深夜の時間帯はエラーが出やすい。
一旦ここまで
引き続き、アップデートしたChatGPTの検証を進めていきます。
更新日:2023年11月08日(水)/公開日:2023年11月07日(火)
この記事が気に入ったらサポートをしてみませんか?