Midjourney が次のアプデでパーソナライズ機能を実装

2024年6月19日 04:05

最近の「Office Hours」（注01）で、Midjourney の創設者 David Holz 氏が、人気の AI 画像ジェネレーターの今後の機能のプレビューを行いました。Holz 氏によると、バージョン 7 は順調に進んでおり、夏前の 1 ～ 3 か月以内にリリースされる予定です。

※注01：Midjourney における「Office Hours」とは、創設者の David Holz 氏が AI 画像ジェネレーターの今後の機能やアップデートについて話し合うセッションを指します。この機会にコミュニティメンバーが開発者や創設者から直接、新しい開発、将来の計画、テクノロジーの改善について情報を得ることができます。

ユーザーが個別の画像スタイルを作成できる

Midjourneyは、1 ～ 2 週間以内にモデルのパーソナライゼーションを提供する予定です。ユーザーは、この機能を必要に応じて有効または無効にすることができます。現在のバージョン 6 ではデフォルトで無効になっていますが、バージョン 7 ではデフォルト設定になります。

モデルパーソナライゼーションの概要:
Midjourneyのパーソナライゼーション機能を使うことで、あらかじめ画風を設定しておくことができます。この機能は、ユーザーの投票や「いいね」に基づいて好みを学習し、プロンプトに含まれていない詳細をユーザーの好みに合わせて補完します。プロンプトに--pを追加することで有効化でき、効果の強さも調整可能です。これにより、あなたの好みに沿った画像が生成されやすくなります。

利用条件:

200回のペアランキング/いいねが必要。
/infoで評価数を確認可能。

使用方法:

プロンプトに--pを追加するか、設定で有効化。
パーソナライゼーション効果を共有するコードが生成される。
効果の強さを--sで調整可能。

この機能はまだ不安定で、アルゴリズムの更新が予定されています。

Midjourneyっぽさを修正できる

ホルツ氏によると、パーソナライゼーション（個別指定）はスタイルではなく、モデルの偏りを変えるものだとの事。これまでのMidjourneyの画像は、コミュニティの一般的な好みに基づいてAIが詳細を補完していたため、特徴的な「Midjourneyっぽさ」を持っていました。パーソナライゼーション機能はその「Midjourneyっぽさ」を修正する事ができます。

モデルのパーソナライゼーションでは、AI はユーザーの個々の好みを使用して、プロンプト内の未指定の詳細を入力します。ユーザーの好みは、画像の評価を通じて取得されます。

個別指定をしたモデルの方が優れている

プロンプト内の明示的な指示が優先されるため、パーソナライズは指定されていない要素にのみ影響します。社内テストでは、参加者の 95% がパーソナライズされたバージョンが標準の Midjourneyモデルよりも大幅に優れていると評価しました。

現行モデルのアプデの可能性

現在のバージョン6では、Midjourneyが手や体の生成を改善するアップデートや、速度向上の可能性があることを示しています。

Midjourneyのビデオモデルリリース

ホルツ氏はまた、Midjourneyが年末までにビデオモデルをリリースする予定であると発表しました。2024年2月5日にすでに開発を発表されている3Dモデル（注02）は、ビデオの前にリリースされる可能性があります。

※注02：Midjourney は、2023年12月にApple Vision Pro のベテランエンジニア・アフマド・アバス氏をハードウェア責任者として採用し「Orb」を開発しています。彼のそれ以前の経歴は、AppleのVision Proの立役者でした。5年以上にわたりアップルの複合現実ヘッドセットの開発に携わり、直近ではハードウェアエンジニアリングマネージャーを務めていました。アバス氏はまた、イーロン・マスク氏の脳チップスタートアップNeuralinkで約9カ月勤務した経験もあります。

プロンプト追従型からの脱却

Midjourneyは、ユーザーコミュニティを活用してプロンプトの理解能力を改善しようとしています。現在の弱点である Midjourney のプロンプト追従性に対しDALL-E 3やIdeogramはAIが自動で生成した詳細なラベルを使用してモデルをトレーニングします。この違いにより、Midjourneyは人間のフィードバックを直接取り入れ、プロンプト追従性を改善しようとしています。

具体的には、ユーザーがまず画像に対してラベルを付け、その後で二つの選択肢からより良いラベルを選ぶプロセスを導入します。これにより、プロンプトに対するAIの反応が向上します。

画像生成におけるプロンプトの理解能力の違い

Midjourneyのプロンプト追従性の改善方法と、DALL-E 3やIdeogramとの違いを詳しく説明しますと、

Midjourneyのアプローチ:

ユーザーが画像に対してラベルを付けます。
次に、二つの選択肢からより良いラベルを選びます。
このプロセスにより、AIはユーザーのフィードバックを直接受け取り、プロンプトに対する反応を改善します。

DALL-E 3やIdeogramのアプローチ:

AIが自動で詳細なラベルを生成します。
このラベルを使ってモデルをトレーニングし、プロンプトに対する反応を改善します。

違い:

Midjourneyは人間のフィードバックを重視し、ユーザーの直接的な関与を通じて改善を図ります。
DALL-E 3やIdeogramはAIが自動で生成するラベルに依存し、人間の介入を最小限に抑えます。

これにより、Midjourneyはユーザーの好みに合わせた細かい調整が可能になりますが、DALL-E 3やIdeogramはAIの自己学習能力に頼っています。今後DALL-E 3やIdeogramにもMidjourneyのようなパーソナライゼーション機能が導入される可能性はあります。AI技術は常に進化しており、各社は競争力を維持するために新しい機能を追加し続けています。特に、ユーザーの好みに合わせたパーソナライゼーションは、ユーザー体験を向上させるための重要な要素です。そのため、DALL-E 3やIdeogramも将来的にこの機能を取り入れることが考えられます。

この記事が気に入ったらサポートをしてみませんか？