見出し画像

Ideogram 2.0はMidjourneyを打ち倒したのか?2024年最高の無料AI画像生成ツール

トイレットペーパーは表情豊かだと思います。これは引き締まった腹筋ではありません。これは太った猫が横を向いて「たぶん安全ではない」と言っているところです。一方、Midjourneyにはそのような遠慮はありません。ここには検閲はありません。これは子供向けの本のイラストを模しているはずです。確かにそうですが、この画像では少女のことが心配です。この猫は喜んでいるようには見えません。実際、これは1つの生き物ではなく、集まって集団を形成する様々な生き物で、かなり不気味な食習性があります。
私たちはその過程を逆に行わせ、何らかの方法でそれを実行します。ランダムな画像を用意して「犬にしてください」と言うと、徐々にノイズを取り除いて、私たちが求めた犬の新しい独自の画像になります。考えてみると少し奇妙ですね。
カニの侍が刀を持っている、かわいい子猫の鍛冶屋、指のあるイルカ、タトゥーとピアスのあるスフィンクス猫、スーツを着たサメなどを生成できます。AIの頂点捕食者になりましょう。今すぐ登録してください。
さて、これはIdeogramです。かなりシンプルなインターフェースで、Midjourneyに少し似ています。Midjourneyは以前はDiscordのみでしたが、最近はウェブサイトで誰でも利用できるようになりました。これは発見セクションで、基本的に他の人々が生成しているものを見ることができます。ここにはユーザー名があり、画像があり、プロンプトと特定の画像を生成するために使用したすべての設定を見ることができます。また、生成されたさまざまなバリエーションやどれを選んだかなども見られます。最も多くの親指を立てられたり、ハートやいいねを受けた画像は、日別、週別、月別、そして全期間のトップとして並べ替えることができます。
全期間のトップ画像が気になる場合、もちろんこれです。猫が魚屋から魚を奪って逃げ出すという素晴らしい画像です。目を引くのは、画像上のテキストの配置やテキスト生成がとても良好に見えることです。この画像では、私が見る限り、すべてが正確で、すべてのスペルが正しく、吹き出しのテキストは吹き出しの中に収まっています。
プロンプトは「歯ブラシがトイレットペーパーの隣に立っている漫画。歯ブラシはうんざりしているように見え、トイレットペーパーは歯ブラシを怒って見ています。それぞれから白い吹き出しが出ています。歯ブラシを指す吹き出しには『仕事が嫌いだ』と書かれ、トイレットペーパーからの吹き出しには『ああ、お願い』と書かれています。画像の下部には太字で『常に感謝しなさい。人生はもっと悪くなることもある』と書かれています」というものです。ここにその画像があります。ほぼ完璧に再現されています。
重要なのは、デフォルトでは「マジックプロンプト」がオンになっていて、入力したプロンプトを少し最適化して変換することです。後でそれがどのように見えるか見せますが、ユーザーのプロンプトをこのように翻訳しています。「ユーモアのある奇抜な漫画で、表情豊かな顔をした歯ブラシとトイレットペーパーが登場します」と言っています。両方のプロンプトで、歯ブラシは表情豊かまたはうんざりしていると言われていますが、そうではありません。ここに何かテキストがありますが、何と書いてあるのかわかりません。しかし、トイレットペーパーは表情豊かだと思います。何を考えているのかはっきりわかります。
次に、「トイレットペーパーは睨み返し、吹き出しで応答します」と言っています。AIが生成したものなので、より正確で正しいものに変更されていることに注目してください。これが選ばれた最高のバリエーションですが、他にもこのようなものがあります。これはあまり良くありません。これは吹き出しではなく、顔が歪んでいます。これはそれほど面白くなく、ユーモアを捉えていません。これは完全に意味不明です。そしてもう1つありますが、怒り狂うトイレットペーパーはそれほど面白くありません。これが、ユーモアを捉えた表情です。
ここにもう1つ素晴らしい例があります。「工事中の体、使命感のある心」というテキストがありますが、かなりクールです。この画像にはとても感心しました。2人の人物の間を這うような蛇がいるように見えます。これは蛇または彼女の服のように見えますが、顔も認識できます。大きな顔、目、口、髪、鼻などが隠れているように見えます。
どのようなプロンプトを使用してこれを作ったのか見たかったのですが、残念ながらプロンプトは実際の画像とは何の関係もありません。宇宙を舞台にした魅力的でサイケデリックなアニメのシーンについて説明しており、若いアニメキャラクターが未来的な衣装を着て無重力で浮遊しているなどと書かれています。これらは画像には全く含まれていません。バグっているかもしれません。何か間違っているかもしれません。もしこのようなプロンプトに基づいてこのような画像を生成できるのなら、それはかなりクールですが。
実際に試してみましょう。いくつか難しい問題を投げかけて、どれだけうまく処理できるか見てみましょう。まず、プロンプトがあります。見たいものを説明してください。また、マジックプロンプトがあり、これは初期のプロンプトを強化して画像の多様性と豊かさを向上させます。英語に翻訳することもできます。デフォルトでオンになっています。アスペクト比を選択できます。69のワイドスクリーンを使用します。可視性は公開または非公開を選択できます。モデル2.0が最新です。これはクールですね。カラーパレットも選択できます。特定のカラーパレットを選べるのはかなりクールです。それについても少し試してみる必要があります。
また、高速レンダリングや品質重視のレンダリング、シード番号などの拡張オプションもあります。特定の画像が気に入った場合、そのジェネレーションの開始点のようなシードを取得して、そこから生成することができます。ネガティブプロンプトもあります。Midjourneyでは、誰かが実際のプロンプトで「いかなる状況でも象を表示しないでください」と言うのを見たことがあります。サファリのシーンを描写して、「いかなる状況でも、シーンに象を入れないでください」と言うと、面白いことに必ず象が出てきます。木の後ろに隠れているなど、どこかに象が下手に隠されています。
では始めましょう。すべての設定をデフォルトのままにしています。何も変更していません。プランを購入したので、より速く作成でき、より多くのバリエーションの画像を見せられます。プライベート画像生成を選択できますが、プランがない場合はデフォルトで公開になると思います。
「ゴッホ風の一人称視点シューター」を試してみましょう。ゴッホのスペルを忘れそうになりましたが、正しく書けました。次に、「太陽光に照らされた琥珀でできた伝説のウサギのような生き物」を試します。これはかなりクールな生成をすることがあります。
ここにエドマンド・ブレア・レイトンによるプレラファエル派の絵画スタイルがあります。このアートスタイルを再現できるか見てみましょう。「炎と火山灰でできた突然変異の馬のエドワード・ブレア・レイトンによるプレラファエル派の絵画。黒い空の暗い世界の砂漠を歩いている。背景に赤い月がある」と入力してみましょう。
これらのいくつかが準備できました。フレームから少し出ますね。高い声で話すことを考えましたが、やめました。ご安心ください。
これらは生成された画像です。これは「ゴッホ風の一人称視点シューター」です。右上のこれは完璧に再現しています。これも同様だと思いますが、何が起こっているのかわかりにくいですね。ここに何かの箱があるようです。これは一人称視点ではありません。これも例外的だと言えますが、ゴッホのスタイルをうまく捉えていないかもしれません。しかし、空は確かにそうですし、他の部分にも多くの良い点があります。これが最高の出来だと思います。
マジックプロンプトは、私が求めたものを少し拡張して、部屋にいるプレイヤーや、ひまわりの花瓶、風景の絵などの詳細を追加しました。何らかの理由で2回生成されたようです。
ここにもう一組あります。かなり良いと思います。これはほとんどホラー設定のようですが、全体的にとても印象的です。
次に、太陽光に照らされた琥珀のウサギです。シンプルですが、確かに多くを捉えています。実際には太陽が後ろにあって、そこから光が透けて見えることを期待していましたが、おそらく別のプロンプトを試せば、それを捉えることができるでしょう。これらはかなりシンプルですが、私が求めたものを捉えています。
ここに炎と火山灰でできた突然変異の馬がいます。かなり良いと言わざるを得ません。もっと多様性を期待していたかもしれませんが、すべてがかなり似ています。しかし、毎回、特定の要素をしっかりと捉えていることに感心しています。砂漠の中の暗い世界を歩いています。黒い空があり、背景に赤い月があります。完璧です。馬は炎と火山灰でできています。素晴らしいですね。
参考までに、これは同じプロンプトでMidjourneyが生成したものです。
もう少し試してみましょう。これはネクロン本の図解です。クトゥルフの図式と攻撃のデモンストレーションです。これはMidjourneyがそれをどのように視覚化したかです。とても良く見えますね。本と図解があり、これらの恐ろしい神話的な生き物の詳細が示されています。
これがMidjourneyで、これがIdeogramです。気に入りません。まあ、これはちょっとクールかもしれません。悪くはありませんが、私たちが探しているものとは少し違います。他のプロンプトもいくつか試してみました。どのようなものが生成されるか見てみましょう。
ここでは本そのものが生成されています。本のページや図解ではなく、実際の本です。ここにもう1つの解釈がありますが、私たちが求めているものではありません。しかし、クールだと認めざるを得ません。しかし、おそらくクトゥルフに関する十分なデータがないため、このような特定のプロンプトに対して本当にクールな画像を生成するには至っていないのかもしれません。
人々がこれらの画像生成ツールを使用する1つの目的は、製品写真を作成することです。例えば、「オーレイのディープパープルチューリップエッセンスの製品写真。エレガントで豪華なスタイルで空中に浮かんでいる」というプロンプトがあります。そして、背景、スタジオ照明、広角レンズで製品全体を捉えること、テクスチャ、暖かい色調などについて説明しています。背景色のライトベージュがフェイスクリームの明るい紫色を引き立てると述べています。テキスト付きで試してみましょう。また、カラーパレットも試して、どのような違いがあるか見てみましょう。
これはMidjourneyがそのプロンプトに対して生成したものです。かなり良いですね。「オーレイ」とは書かれていませんが、それはブランド名なので、おそらくそれは使用しないのでしょう。しかし、確かにディープパープルのチューリップを捉えています。これはスタジオ照明、広角レンズで製品全体を上から捉えていると言えるでしょう。これは上からではなく、明らかに下からのアングルですが、確かに製品写真やプロダクトショットのコンセプトを捉えています。これは完璧に再現しています。これはスキンケア広告のように見えます。
Ideogramに戻ると、かなり良いと言わざるを得ません。違う解釈ですが、これはバージョン1、2です。前景に何かがあり、中央に実際の製品ショットがフォーカスされています。このような広告を見たことがあるような気がします。ここにもう1つあります。実際の「Olay Deep Purple Tulip」というブランド名を使用していることに注目してください。
これはMidjourneyの生成です。プロンプトは「ラルフ・ステッドマンのスタイルで、大きな目をした非常に大きな青い猫が少女の隣にいる絵。手描きの可愛いキャラクター、ふわふわのテクスチャ、シンプルなアートライン、グレーの背景、子供向け本のイラストレーション、水彩画、クレヨンスケッチの美学」です。これをIdeogramでも試してみましょう。
これは私のお気に入りの試し方の1つです。基本的に、何かの中から外を見ている場面を描写できるかどうかです。ここでは「女性が未来的な都市を見渡すタワーの中のベッドルームで目覚める画像を生成してください。大きな窓から見える景色は、ニューヨーク、香港、東京のような大都市を思わせる高層ビルが立ち並ぶ未来的な都市です。部屋には先進的な技術要素が満ちており、何年も先の未来に生きているという印象を与えます。雰囲気は未来的なスカイラインとスリークでハイテクな室内を融合させるべきです」というプロンプトです。
これはMidjourneyの生成結果で、完璧に再現しています。素晴らしいですね。これをIdeogramでも試してみましょう。
最初のプロンプトに戻りましょう。大きな青い猫、グレーの背景、子供向けイラストです。これは素晴らしく見えますね。シンプルなアートライン、私はこれが素晴らしくできていると思います。異なるスタイルです。考えてみると、Midjourneyはもっと暗い解釈をしました。これは可愛いキャラクター、ふわふわのテクスチャ、子供向け本のイラストを表現しているはずです。確かに技術的にはすべてを正しく再現していますが、この画像では少女のことが心配になります。この猫は喜んでいるようには見えません。これらの画像のどれでも、少女の幸福を心配する必要はありません。
次に、未来的なアパートで目覚める未来的な女性が大都市の景色を見渡す場面です。一見するとすごく良く見えます。ただし、これはアップスケールされていないバージョンであることに注意してください。これは最初の生成で、アップスケールを使用すると本当に詳細を埋めていきます。女性の顔をズームインすると、ここで見られるように、AIは本当に詳細を埋めることに苦心していません。これはおそらく彼女の右手ですが、指や詳細、テクスチャを生成していません。とても詳細ではありませんが、このアップスケールをクリックして、全体的にどのように機能するか見てみましょう。
画像を再生成します。元の画像にどれだけ似せるか、そして1から100までのディテールを選択できます。デフォルトでは50に設定されています。これを11まで上げてみましょう。11というのは実際には100%のことです。
興味深いことに、アップスケールをクリックすると、ここにドロップダウンメニューが表示され、レミ(rem mi)を行うことができます。これは、開始画像を参照して画像を作成するか、単にアップスケールするかを選択できます。つまり、開始画像のより高解像度版を作成します。ここではアップスケールを選択します。通常の生成では2クレジットを使用するのに対し、これは1クレジットしか使用しません。
それが処理されている間に、このプロンプトの他のバージョンを見てみましょう。ここにもあります。覚えておいてください。これは女性がベッドで目覚めている場面です。彼女は高層ビルにいて、未来的な環境の大都市を見渡しています。確かにその多くを捉えていますね。未来的であることがホログラムでわかりますが、これらは電線なのでしょうか?よくわかりません。
ここにバリエーション3があります。都市の部分は素晴らしいですが、アパートの内部は少し奇妙です。この部分を生成してから、この部分を重ね合わせたかのように見えます。ここでフェードアウトしているのがわかります。あるいは、これが家の内部で、彼女はバルコニーでくつろいでいるように見えます。よくわかりません。
これはさらに別のバージョンです。全体的には悪くありませんが、すべての要素を一緒に投げ込んだように感じます。悪くはありません。
ここが超アップスケールされた画像です。これはディテールレベル100/100、類似度100/100ですが、まだ顔の詳細などは見えません。しかし、シーツや折り目、しわはとてもよく再現されていると言わざるを得ません。
考えてみると、類似度を100/100に設定すると、できることが本当に制限されてしまうかもしれません。もう一度試してみましょう。ディテールは100のままにしますが、類似度については少し余裕を持たせて、変更を加えたり創造的になったりする余地を与えましょう。これを70に設定してアップスケールをクリックします。
さらにデータポイントを得るために、これを20に設定して、完全に自由に変更してもらいましょう。
画像生成モデルをテストする方法の1つは、データセットに存在しない何かを作成しようとすることです。非常に異なる2つのアイデアを組み合わせて、モデルがそれをどれだけうまく扱えるかを見ることで、モデルの全体的な良さを判断できます。
「The Office」というテレビ番組を覚えていますか?あるエピソードで、ドワイトがCEOの息子である若い少年にオフィスに来てもらい、彼をテストします。「一番怖い動物は何だ?」と聞くと、少年は「ポルトガルのイソギンチャク」と答えます。ドワイトは新たな尊敬の念を持って彼を見ます。なぜなら、確かにそれは議論の余地がないからです。
これらがポルトガルのイソギンチャクです。実際には1つの生き物ではなく、多くの異なる生き物が集まって群体を形成しています。非常に不気味な摂食習慣を持っています。これらは「シフォノフォア」と呼ばれるより大きなグループの一部です。繰り返しますが、これらは1つの生き物や動物ではなく、むしろ多くの異なるものが住んでいる都市のようなものです。一部は移動を担当し、一部は獲物を殺して麻痺させ、一部は消化を担当します。つまり、1つの部分が魚を麻痺させ、別の部分がまだ生きている魚の内臓を液化し、3番目の部分がそれをすべて吸い出して消化するのです。
では、水中を浮遊するシフォノフォアの猫はどのように見えるでしょうか?これがMidjourneyの解釈です。ここにもう1つあります。これが特に気に入っています。なぜなら、小さな触手が見えるからです。これらは猫の一部で、猫のヒゲや毛の一部ですが、シフォノフォアの獲物を捕らえて麻痺させるのに使う、ふわふわした触手を捉えています。これが彼らをとても危険にしている理由です。この生き物が浮かんでいて、これらの触手が垂れ下がっていて、もしこれらが下流にいて触手が広がっていたら...正確な長さは忘れましたが、おそらく1マイルくらい伸びるかもしれません。誇張しているかもしれませんが、かなりの距離です。つまり、あなたが泳いでいて、この生き物が遠くにいても、触手に遭遇したら...良い経験にはなりません。
ここにMidjourneyによるシフォノフォアの猫のもう1つの解釈があります。再び、多くの要素をうまく捉えていると思います。ここにもう1つあります。これも本当に良いですね。これが1つの物体だとわかりにくいかもしれません。猫と何か浮遊しているものかもしれませんが、それでもとても良いです。ここにMidjourneyによるもう1つの解釈があります。
Ideogramで何ができるか見てみましょう。「水中を浮遊するシフォノフォアの猫」と入力してみます。これが最初のセットです。これは失敗だと言わざるを得ません。シフォノフォアでもなく、猫でもありません。最初の数回の生成で「シフォノフォアの猫」と言ったので、もう一度「シフォノフォアの猫」だけで試してみます。
ここにもう1つの解釈があります。奇妙ではありますが、良くはありません。ここにもう1つあります。奇妙ですが、あまり良くありません。「シフォノフォアと猫のハイブリッド」を試してみます。そして「シフォノフォアの猫」をマジックプロンプトをオフにして試します。正方形の生成、つまり1:1のアスペクト比を使用します。
それが生成されている間に、未来的な高層ビルで目覚める女性に戻りましょう。これは、100%のディテールと元の画像への100%の類似度を選択したものです。シードとは言っていません。通常、シードは生成の開始点を示す数字やアルファベットですが、ここでは「元の画像」という用語を使用しています。元の画像をアップスケールしているのです。
これは100%のディテールと70%の類似度です。これはより良く見えるかもしれませんが、まだ素晴らしいとは言えません。全体の画像がかなり大きいことを覚えておいてください。これはその一部分に過ぎません。興味深いのは、特定の部分に重点を置いているかどうかです。この質感のある床と同じくらい顔の部分に注意を払っているのでしょうか?人間として、私たちは特定の部分により注目します。ここの詳細はあまり気にしませんが、ここは気にします。
ここにもう1つの生成があります。これは100%のディテールと20%の類似度です。より芸術的になり、創造的になり、さまざまなことを試す自由を与えています。はい、これはより良くなっています。
ここにマジックプロンプトなしのシフォノフォアの猫があります。再び、良くありません。私たちが探しているものではありません。これは、Midjourneyが明らかに勝っている領域の1つです。データセットにおそらく存在しない奇妙なものの組み合わせにおいてです。
ここにMidjourneyの「刀を持ったカニの侍」があります。Midjourneyは素晴らしい仕事をしています。「かわいい子猫の鍛冶屋」も素晴らしいです。「指のあるイルカ」もMidjourneyは素晴らしい仕事をしています。「人間の特徴を持つクラゲ」もMidjourneyは素晴らしいです。「氷と回路でできた女性の顔」もMidjourneyは素晴らしいです。「タトゥーとピアスのあるスフィンクス猫」もMidjourneyは素晴らしいです。「スーツを着たサメ」もMidjourneyは素晴らしいです。わかりますよね。
次に、これらの画像内でテキストを生成する能力をテストしましょう。これをMidjourneyとIdeogramの両方でテストします。「お腹の周りに『世界の中心』と書かれたタトゥーのある引き締まった女性の腹筋」から始めましょう。また、「食べ物のために襲撃します」と書かれた看板を持つバイキングも試してみましょう。
Ideogramの腹筋タトゥーは完璧です。素晴らしく、非常に良いです。この2つは引き締まった腹筋ではありません。これは「多分安全ではない」と書かれた看板を持つ太った猫です。これを表示するための方法が見当たりません。「大丈夫です、表示してください」というようなクリックするものがあると思いましたが、ありません。ただ、ここに置いているだけです。
興味深いのは、これらが拡散モデルなので、生成される過程で画像が形作られていくのが見えることです。AIモデルがこれらの画像を生成する方法は、実に興味深いです。まるでトリックをしているかのようです。基本的に、私たちが与えるデータは、例えば犬の画像です。「これは犬です」と言って、そのデータにノイズを加えて破壊します。ノイズというのは、ランダムな静的なもので、何の画像かわからないようなものです。
犬の画像をどんどんノイズを加えて、ただのごちゃごちゃになるまで見せます。そして、犬の画像や他の特定の画像をたくさん見せて、このノイズだらけの無意味なものになっていく過程を学習させます。それを学習させた後、「はい、ここにランダムなノイズだらけの画像があります」と言って、「犬を生成してください」と言います。そうすると、そのプロセスを逆に行い、なんとかそれを実行します。ランダムな画像から始めて、「犬にしてください」と言うと、徐々にノイズを取り除いて、新しい独自の犬の画像、つまり私たちが求めたものを生成します。考えてみると少し奇妙ですね。
私が言いたかったのは、これらの画像が形作られていく様子が見えるということです。最初にどこに向かっていたのか気になります。なぜなら、これは最初は現れませんでした。ノイズだらけの画像が現れ、その後で太った猫をその上に置いたように見えます。
一方、Midjourneyにはそのような遠慮はまったくありません。ここには検閲はありません。以前はもっと検閲されていたと思います。OpenAIやGoogle、他の大企業が独自の画像生成モデルを開発するにつれて、それらを検閲する必要が出てきたのだと思います。小さな企業が競争力を持とうとすると、1つの方法として、自社のものを検閲しないことがあります。それが競争上の優位性になるからです。評判を落とすことや投資家が動揺することをそれほど心配する必要がないからです。
もし明らかでなければ、YouTubeで表示できない画像を生成しています。それは置いておいて、気づいたのは、テキストが完璧ではないということです。ランダムな文字を追加したり、単語のスペルを間違えたりしています。単語が3Dの位置にあるように見える点、つまりABSの3Dの形に沿って巻き付いているように見える点には非常に感心しました。これはおそらく良い例です。
「Center」のスペルが間違っていて、「world」のスペルも間違っています。しかし、胸骨か何かのタトゥーは、体の起伏と相互作用する様子が3Dに見えると言わざるを得ません。
Ideogramに戻ると、テキストの出来栄えに対してもっと高い評価をしなければなりません。まず、この画像を見てください。スペリングに関しては、私が見る限り100%正確です。このWは少し怪しいかもしれませんが、それでもWだとわかります。文字の周りの赤みに注目してください。タトゥーを入れた後に起こることです。私は実際にタトゥーを入れたことはありませんが、治癒過程で赤みや刺激が出ることは知っています。それがここに見事に反映されています。
腹筋や肌の様子を見てください。文字が曲がったり折れたりする様子、その3Dの歪み方は見事です。この画像では文字の出来がそれほど良くありません。「center of the」と書かれているのがかろうじて読めますが、これは「world」ではありません。他の何かの単語です。それでも、円形にしたことは印象的です。
マジックプロンプトは、それがカーシブフォントで円形の形をしていることを追加しました。実際にこのマジックプロンプトが開発したものを取り、もう一度実行してみます。カーシブフォントの部分を削除し、「臍の上に配置されています」という部分も削除します。単に腹のボタンの周りにあると言うだけにします。ここでは垂直ショットを使います。このためにマジックプロンプトをオフにして、私たちが求めたものを正確に使用するようにします。
現在、高速キューで待機しています。その生成プロセス、つまり拡散プロセスが行われる様子を見ることができるはずです。
これらが結果です。実際には生成プロセスを見ることができませんでした。画像の下部をブロックしていますが、それは不適切なものがあるからではありません。PG-13を維持するためにそうしています。
バリエーションがあまりありませんね。ほとんど同じショットのように見えますが、それぞれで私が見る限り、すべてが正確に書かれています。この「Center」は少し奇妙で、「cter」のように見えますが、それ以外は本当に良く見えます。
ここに「食べ物のために襲撃します」と書かれた看板を持つバイキングがいます。4つすべて完璧に書かれているように見えます。
これはMidjourneyのバージョンです。再び完璧です。彼らはイラストレーションスタイルを選びました。リアルなスタイルではありませんが、私が見る限り...あ、この1つに余分な「I」があります。そしてこちらにも「L」が欠けています。いくつかの小さなエラーがありますが、それ以外はテキストをうまく捉えているように見えます。
以上です。私が確認したいと思っていたほとんどのユースケースをカバーしたと思います。今のところの印象では、Ideogramは非常に優れています。特に基本的なこと、つまり求められたことを実行し、テキストを正確に表現し、細部に注意を払うという基本的なスキルにおいて、非常に優れています。多くのことを本当によくこなします。
無料アクセスがあり、限られた数の生成を行うことができます。非常に堅実で印象的です。Midjourneyが一段上だと感じる特定のユニークなユースケースもありますが、Midjourneyはかなり長い間改良を重ねてきたことを覚えておいてください。また、彼らは非常に収益性が高く、昨年は2億ドルの売上を目指していたと思います。正確な数字は覚えていませんが、彼らは最初の有料版AI生成ツールの1つだったので、多くの人々が月額プランに登録してお金を払いました。彼らはそのお金をすべて使って、改善し続け、構築し続けたのです。
ここに過去12ヶ月の世界中でのMidjourney、Ideogram、Dall-E、Stable Diffusionの検索トレンドがあります。これは注意して見る必要があります。なぜなら、これはGoogleが検索量を追跡しているものだからです。人々がどのように検索しているかによって、「Dall-E」のスペルが少し違うかもしれません。トピックと検索語句は少し異なる扱いを受けます。そのため、これは100%正確ではありません。
ご覧の通り、Midjourneyが今のところ王者で、次にStable Diffusion、Dall-E、Ideogramが3位タイくらいです。少なくともこれらのAI画像生成プラットフォームだけを見た場合ですが。
しかし、MidjourneyとIdeogramだけを見ると、青がMidjourney、赤がIdeogramです。ご覧の通り、そのギャップが縮まっているように見えます。今後どうなるかわかりませんが、Ideogramが改善を続け、ユーザーを獲得し、より多くのデータと資金を得続ければ、私はMidjourneyからIdeogramに切り替える可能性もあると思います。
現在のところ、私の心の中ではMidjourneyが依然として1位です。私が探しているものを正確に捉える能力、あるいは少なくともクールな何かを作り出す能力にいつも感銘を受けてきました。それは私が探しているものと正確に一致しないかもしれませんが、毎回の新しいイテレーションで少しずつ、しかし明確に改善されているように見えます。リアリズムもアートも、アニメも水彩画も、何でもうまくこなします。
もちろん、競争が激しいほど良いです。コメント欄で皆さんの意見を聞かせてください。Ideogramについてどう思いますか?新しい挑戦者でしょうか?Midjourneyより優れているでしょうか?どの画像が好きで、どの生成結果が良いと思いましたか?コメント欄で教えてください。
私の名前はウェス・ロスです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?