見出し画像

【Dream Machine:待望の最新AI動画生成モデルの全貌】英語解説を日本語で読む【2024年6月13日|@Theoretically Media】

Luma Labsが新たに発表したAI動画生成モデル「Dream Machine」が登場しました。これはテキストから動画を生成するだけでなく、画像から動画を生成することもできます。Dream Machineは128x720の解像度で約5秒間のクリップを迅速に生成し、ユーザーインターフェースもシンプルです。実際に試してみたところ、アクションシーンや海賊のシーンなど、非常にダイナミックで高品質な動画が生成されました。画像から動画への変換も一貫性が高く、細かい部分まで再現されます。ただし、長い動画を生成すると動きが不自然になることがあります。総じて、Dream Machineは非常に優れたAI動画生成ツールであり、多くの可能性を秘めています。
公開日:2024年6月13日
※動画を再生してから読むのがオススメです。


The AI video generator that we have all been waiting for is here.

私たちが待ち望んでいたAIビデオジェネレーターがここにあります。

It's awesome and you can use it today.

それは素晴らしいもので、今日すぐに使用することができます。

It's not Sora, which was killed by Vidu, according to a bunch of YouTubers anyhow, and then Vidu was then killed by Google's VU and then VU was killed by Kling, which we just saw recently, but you had to have a Chinese mobile phone number in order to access that.

それは、いくつかのYouTuberによると、Viduによって殺されたSoraではなく、その後ViduがGoogleのVUによって殺され、そしてVUが最近見たKlingによって殺されたものですが、それにアクセスするためには中国の携帯電話番号が必要でした。

But all that is in the past now.

しかし、それはすべて過去のことです。

I've had access to this new model for a couple of days now, so we're going to run through the whole thing.

私はこの新しいモデルに数日間アクセスしているので、全体を見ていきます。

Plus, I've got at least one exclusive piece of information for you.

それに加えて、少なくとも1つの独占情報をお持ちです。

Let's dive in.

さあ、始めましょう。

This new model is from Luma Labs, who I have covered on the channel in the past.

この新しいモデルは、以前チャンネルで取り上げたLuma Labsのものです。

They had Genie, which was a text to 3D generator.

彼らは以前、テキストから3Dを生成するGenieを持っていました。

They have released their new AI video model, Dream Machine.

彼らは新しいAIビデオモデル、Dream Machineをリリースしました。

This thing is insane.

この機能はすごいですね。

Not only can Dream Machine do text to video, but it can also do image to video, which is something we have not seen from Sora as of yet.

Dream Machineはテキストからビデオを作成するだけでなく、画像からビデオも作成できます。これは私たちがSoraからまだ見ていないものです。

We're going to take a look at examples that I generated from both sides in just a minute, and we'll go over what it's really great at and where it's still kind of lacking.

ちょっと後で両方から生成した例を見て、本当に優れている点やまだ不足している点について見ていきます。

For some quick technical specs, Dream Machine does generate at 128 by 720.

技術仕様の簡単な説明ですが、Dream Machineは128×720で生成します。

The clips are around five seconds, and they generate, well, on the website, they say less than 120 seconds.

クリップは約5秒で、ウェブサイトでは120秒未満で生成されると言っています。

I've definitely not waited as long as two minutes, so it is faster than that.

私は間違いなく2分待ったことはないので、それよりも速いです。

The UI is dead simple, which, to be honest, is actually kind of refreshing right now.

正直に言うと、UIは非常にシンプルで、今は実際に新鮮です。

There is a little tick box for enhanced prompt, depending on the length of your prompt, if you just want to give it something fairly simple.

プロンプトの長さに応じて、強化されたプロンプト用のチェックボックスが少しあります。もし簡単なものを与えたいだけならば。

I'm just going to run the Sora Tokyo Woman prompt, and let's see what we get.

私はただSora東京ウーマンのプロンプトを実行し、どんな結果が得られるか見てみましょう。

The Tokyo Woman prompt, indeed, gets us the Dream Machine version of that prompt.

確かに、東京ウーマンのプロンプトは、そのプロンプトのドリームマシンバージョンを私たちにもたらします。

I never really liked a one-to-one compared to Sora prompt, so we're going to modify this prompt in just a little bit and take a look at where I think things are much more interesting.

私は実際にはSoraのプロンプトと比較して1対1が好きではなかったので、このプロンプトを少し変更して、私がより興味深いと思う部分を見てみましょう。

Obviously, if you want to use an image reference, you simply hit the little photo button here and then upload a photo.

明らかに、画像を参照したい場合は、ここで小さな写真ボタンを押して写真をアップロードするだけです。

I'm always a fan of starting off with text to video, namely because that gives you a really good idea of what the model is capable of.

私は常にテキストからビデオを始めるのが好きですが、それはモデルが何ができるかを本当に良く理解させてくれるからです。

Kicking off with a cinematic action scene, a hitman bald wearing a black suit in an abandoned factory in a shootout against other assassins yielded this, which is super cool.

シネマティックなアクションシーンで始めると、廃工場で黒いスーツを着たヒットマンが他の暗殺者との銃撃戦でこれを生み出しました。とてもクールです。

Very dynamic, very action-packed.

非常にダイナミックで、アクション満載です。

The second version from that same prompt obviously, per prompt, you get two generations, yielded this as a result.

同じプロンプトからの2番目のバージョンは、もちろん、プロンプトに従って、2つの世代が得られ、これが結果として生じました。

While there is some decoherence and a little bit of kind of Morphiness, I think that there's so much like action-packed dynamic movement happening in here, like with a handheld camera and everything that I really don't mind.

いくつかの非整合性や少しの変形性がありますが、ここで起こっているアクション満載のダイナミックな動きがとても多いと思います。ハンドヘルドカメラやその他の要素があるため、私はそれが気になりません。

Is it perfect?

完璧ですか?

No, it is not.

いいえ、そうではありません。

It still does weird AI video stuff, but it does so at a much higher quality.

まだ奇妙なAIビデオの要素がありますが、品質ははるかに高いです。

Honestly, that makes the results that much more funny.

正直に言うと、それは結果をさらに面白くしています。

This one actually wasn't bad.

これは実際には悪くありませんでした。

This is a beautiful pirate woman crosses her arms while standing on the deck of a pirate ship.

これは美しい海賊の女性が海賊船のデッキに立って腕を組んでいる姿です。

Longtime channel viewers, you may know where we're headed when we hit image to video.

長年チャンネルを視聴している方々は、画像をビデオに変換するときに私たちがどこに向かっているかを知っているかもしれません。

While I don't think that this shot is bad, we do end up midway through cutting to a reverse angle.

このショットは悪くないと思いますが、途中で逆のアングルに切り替えることになります。

That said, I I got to admit, like as our pirate woman kind of moves towards him, she's kind of rolling up her arms there, like this dude's getting punched.

それは言わざるを得ませんが、私たちの海賊の女性が彼に近づいていく様子を見ると、彼女は腕をまくり上げているようで、まるでこの男が殴られるかのようです。

We'll be rolling back to that pirate ship scene in just a little bit because I've got a pretty cool hack for you.

ちょっとしたハックをお持ちしているので、その海賊船のシーンに戻ります。

Another quick text to video example, this is a young man walking alone on a beach, foggy sky, full of dark clouds, soft, sad atmosphere, noise video shot by retro camera.

もう1つのテキストからビデオの例です。これは、砂浜を一人で歩く若い男の映像で、霧のかかった空、暗い雲がたくさん、柔らかく悲しい雰囲気、ノイズのあるビデオがレトロカメラで撮影されています。

This is 100% a shot from a music video.

これはまさにミュージックビデオからのシーンです。

Very clearly sung by someone with a British accent, likely about having never seen the sun.

はっきりとしたブリティッシュアクセントで歌われており、おそらく太陽を見たことがないことについての歌でしょう。

But to note that atmospheric prompts like foggy sky, full of dark clouds, and the soft, sad atmosphere definitely do play a pretty major part when you are using text to video.

しかし、曇り空や暗い雲でいっぱいの空気的な要素、そして柔らかく悲しい雰囲気など、テキストからビデオを作成する際にはかなり重要な役割を果たすことに注意しておく必要があります。

Because I want to set expectations and not cherry pick here, this was another version from that same prompt.

期待を設定し、ここで選り好みをしないようにしたいので、これは同じプロンプトからの別のバージョンでした。

Interestingly, in terms of that enhanced prompt, I wanted to see what would happen if we turned it off.

興味深いことに、その強化されたプロンプトに関しては、それをオフにした場合に何が起こるかを見てみたかったのです。

I ended up taking, here's another Sora example, but it's Paul Trello's massive long block of text that he used as a Sora prompt for his music video and ran that.

ここでは、別の空例がありますが、それはポール・トレロが音楽ビデオのためのSoraのプロンプトとして使用した大きな長いテキストのブロックです。

We kind of get some fairly comparable results.

かなり比較可能な結果が得られました。

Granted, our shots are not necessarily as long as Paul's are.

確かに、私たちのショットはポールのものほど長くはありません。

I didn't modify the prompt through the various shots as Paul did.

私はポールが行ったように、さまざまなショットを通してプロンプトを変更しませんでした。

To be honest, I only ran it three times, whereas Paul ran his about 700.

正直に言うと、私はたった3回しか実行していませんが、ポールは約700回実行しました。

But I will say that even though these are only five-second snippets, it definitely shows that, I mean, in my opinion, that this model is definitely on a Sora level.

しかし、これらはたった5秒の断片ですが、私の意見では、このモデルは間違いなくSoraのレベルにあることを示しています。

I do have a trick coming up in just a minute to show you how you can extend these shots and probably get them up to something more like one minute.

ちょっとしたトリックがありますので、これらのショットを延長し、おそらく1分程度にする方法をお見せします。

But my method is kind of more of a hack workaround.

しかし、私の方法はある種のハック的な回避策です。

I did talk to Luma about adding extensions in, and they said the model itself is capable of pushing out as far as they wanted it to.

Lumaに拡張機能の追加について話しましたが、彼らはモデル自体が望むだけ遠くまで押し出すことができると言いました。

But obviously, things start to break down.

しかし、明らかに、問題が発生し始めます。

What they said is that characters will just kind of end up standing still and there won't be a ton of motion when you start pushing past that 10-second mark.

彼らが言ったのは、キャラクターが立ち止まることになり、10秒を超えるときにはあまり動きがなくなるということです。

Finally, before moving over to image to video, yes, of course, I had to run Will Smith eating spaghetti.

最後に、画像から動画に移る前に、もちろん、ウィル・スミスがスパゲッティを食べる様子を見なければなりませんでした。

These were the awesome and hilarious results.

これらは素晴らしく面白い結果でした。

This model still does not pass the Smith test.

このモデルはまだスミステストに合格していません。

Sliding over to image to video, which is the thing that I think that most of you are probably going to be interested in.

画像からビデオにスライドすると、おそらく多くの方が興味を持つと思うことです。

The first one that I ran was an image that I generated for another project.

最初に実行したのは、別のプロジェクトのために生成した画像でした。

This is a synth playing a synth.

これはシンセを演奏するシンセです。

I thought it was funny.

面白いと思いました。

Running that through Luma gets us this result, which is super impressive.

それをLumaを通して実行すると、非常に印象的な結果が得られます。

There is a little bit of Morphing maybe going on in her fingers playing piano.

彼女のピアノを演奏する指には少し変形があるかもしれません。

Kind of tough for AI video.

AIビデオにとっては少し難しいです。

But more important than that is the fact that the background stays very coherent.

しかし、それよりも重要なのは、背景が非常に一貫しているという事実です。

The character doesn't end up Morphing out.

キャラクターは変形して消えることはありません。

I'm actually surprised at the level of detail that it keeps on the synth suit as well.

実際、シンセスーツの細部までのレベルに驚いています。

Other models like previous video generators, I think you would just see a lot more decoherence, shifting, and Morphing going on given that level of detail.

以前のビデオジェネレーターのような他のモデルでは、その詳細レベルを考えると、もっと多くの乱れや変化、変形が見られると思います。

The other thing that I want to shout out is her facial expressions.

もう一つ言いたいことは、彼女の表情です。

Granted, there isn't a ton of it, but she's a synth.

確かに、それはたくさんではありませんが、彼女はシンセです。

She's not going to be extremely emotional.

彼女は非常に感情的になるつもりはありません。

But she does kind of have a little bit of stank lip going on there as she's playing.

でも、彼女は演奏している間、ちょっとした不機嫌そうな表情をしています。

Whatever she's playing is definitely very like maybe it's a Daft Punk song.

彼女が演奏しているものは、おそらくDaft Punkの曲かもしれません。

It's definitely got some funk in there.

それには確かにファンクが含まれています。

I'm going to run one of the channel's favorite recurring characters, Dutch football player, Daniela van den Aak, dressed as a pirate.

私は、チャンネルのお気に入りの定期的なキャラクター、オランダのサッカー選手、ダニエラ・ファン・デン・アークが海賊の格好をしているのを放送します。

By far, this is definitely the best output of that image that we have seen yet.

これは、これまでに見た中で間違いなくその画像の最高の出力です。

I will definitely say that the Luma camera AI for sure is shooting for a very specific audience here.

私は確かに、ここでのLumaカメラAIは非常に特定の観客を対象にしていると言えます。

I will say that giving specific actions to characters, which we actually have not seen as of yet, can result in a little bit of weirdness.

私は、実際にはまだ見ていない特定の行動をキャラクターに与えることが、少し奇妙な結果をもたらす可能性があると言えます。

For example, taking the Daniela shot again and then giving it the prompt to have her cross her arms.

例えば、ダニエラのショットをもう一度撮り直して、彼女に腕を組むように指示することです。

That's the pirate example that we saw in the text to video portion.

それが、テキストからビデオへの部分で見た海賊の例です。

It definitely loses some stuff.

確かにいくつかの要素が失われます。

We definitely get a lot of like Morphed AI fingers and hands and definitely the arms kind of fold in and become like one weird kind of like David Cronenberg sausage there.

私たちは確かに、変形したAIの指や手をたくさん手に入れ、確かに腕は折りたたまれて、デヴィッド・クローネンバーグのような奇妙なソーセージのようになります。

That said, that is just one output.

とは言っても、それはただの1つの出力です。

I'm sure that if I spent a lot of time re-rolling that shot, we probably could have gotten something a lot better.

もし私がそのショットを何度もやり直す時間をたくさん費やせば、もっと良いものが得られたかもしれません。

That said, you can get some really good results by prompting action.

とは言っても、行動を促すことで本当に良い結果を得ることができます。

For example, in this image to video output, this was a young blonde princess turns and looks towards the camera and smiles.

例えば、この画像からビデオへの出力では、若い金髪の王女がカメラの方を向いて微笑んでいます。

I did give some descriptions like she's in a garden full of flowers and birds, a close look, a castle in the background, fantasy movie style.

彼女は花と鳥のいっぱいの庭にいるというような説明をしましたが、背景には城があり、ファンタジー映画のスタイルです。

Though it definitely followed directions here in terms of our gal turns and she definitely does smile towards camera.

私たちのガールが振り返り、確かにカメラに微笑むという点では、指示には確かに従っていました。

In terms of camera direction, it was a bit of a mixed bag.

カメラの方向に関しては、少し複雑でした。

Sometimes if I asked it to pan, tilt DALL·E or zoom, it would.

時々、パンやチルト、DALL·Eやズームをお願いすると、できることもありました。

Other times, like in this case where I took a Batman image and what I was hoping it would do is rotate around to show Gotham.

他の時には、このような場合には、私がバットマンの画像を取り、それがゴッサムを示すように回転することを期待していたのです。

But what it said, it just gave me a hard cut.

しかし、それが言ったことは、ただ私にハードなカットを与えただけでした。

It kind of cheated it.

それはちょっとした不正行為でした。

It works, but it was a cheat.

機能はしていますが、それは不正行為でした。

We're going to roll back to Batman in just a second.

もうすぐバットマンに戻ります。

But here's another example of kind of cheating the directions.

でも、ここには指示をちょっとごまかす例があります。

In this, I had prompted for a wizard holding an orb.

ここでは、オーブを持つ魔法使いを求めました。

The camera zooms in on the orb and transitions into an epic fantasy battle scene.

カメラはオーブにズームインし、壮大なファンタジーの戦闘シーンに移行します。

Obviously what I was looking for here was actually the camera to directly go into the orb and the reflection to kind of turn into an epic fantasy battle scene.

明らかにここで求めていたのは、実際にはカメラが直接オーブに入り、その反射が壮大なファンタジーの戦闘シーンに変わることでした。

What we ended up getting, of course, was you kind of move into it and hard cuts over to.

もちろん、最終的に得られたのは、それに移動してから急激にカットされるものでした。

I don't know if I'd exactly call that battle epic.

その戦いを壮大とまで言うかどうかは正確にはわかりません。

It is funny that in my head I was thinking like epic fantasy battle scene, like a Peter Jackson kind of like Lord of the Rings level battle sequence.

面白いのは、私の頭の中では、エピックなファンタジーの戦闘シーン、ピーター・ジャクソンの『ロード・オブ・ザ・リング』のようなレベルの戦闘シーンを想像していたことです。

What we got was this is what you're getting on a budget.

私たちが得たものは、予算内で手に入るものです。

This is like 32 extras on a soundstage.

これは、スタジオで32人のエキストラがいるようなものです。

Remember, what is really impressive there is that it did manage to do a transition like that.

覚えておいてください、本当に印象的なのは、それがそのような移行を実現したことです。

It totally stayed consistent with our initial image reference.

私たちの最初の画像リファレンスと完全に一致していました。

There was no reference for our battle sequence.

私たちの戦闘シーンには参考資料がありませんでした。

Rolling back over to Batman, I decided to take one of the most iconic shots from all of modern cinema, the opening of The Dark Knight.

バットマンに戻って、私は現代映画の中でも最も象徴的なシーンの1つ、『ダークナイト』のオープニングを取ることに決めました。

For the text prompt, I thought it would be interesting just to take literally the line from the script.

テキストプロンプトでは、台本から文字通りの一行を取るのが面白いと思いました。

A man on the corner, back to us, holding a clown mask.

角の男性が、私たちに背を向け、ピエロの仮面を持っている。

An SUV pulls up in front of him.

彼の前にSUVが停車します。

The man gets in.

男性が乗り込みます。

This was the result.

これが結果でした。

The result, and while I do not think that Christopher Nolan is worried about his job at all here, I mean, yeah, it is not the actual film at all, but it did more or less follow directions.

結果は、クリストファー・ノーランがここで自分の仕事を心配しているとは全く思っていないけれど、うん、実際の映画ではないけれど、だいたい指示に従っていました。

To be fair, that one was cherry picked.

公平を期すと、その1つは選りすぐりのものでした。

Here were some of the other examples that I ended up generating from that initial image.

ここには、最初の画像から生成した他の例のいくつかがあります。

This one's pretty good.

これはかなり良いものです。

This one I thought was really funny with like a chauffeur getting out and like, your car is here, Mr. Joker.

これは、運車手が降りてきて、「あなたの車はこちらです、ジョーカー様」という感じで、本当に面白いと思いました。

Interestingly, running one of the script pages without the image reference just as a straight text to video yielded this as a result, which actually, I mean, I'm super impressed with this.

興味深いことに、画像の参照なしでスクリプトページを実行し、ただテキストをビデオに変換した結果がこれでした。実際、私はこれに非常に感銘を受けています。

I think that this is actually very cinematic.

これは実際に非常に映画的だと思います。

Definitely doesn't necessarily look like it's from The Dark Knight, but looks like it could be from some heist movie.

確かに、それは『ダークナイト』から来たものとは必ずしも見えませんが、どちらかと言えば強盗映画から来たもののように見えます。

Something that I was curious about was what would happen if you fed in an actual photograph.

私が気になっていたのは、実際の写真を入力した場合に何が起こるかということでした。

This is a photo of a younger me at San Diego Comic-Con meeting Scott Ian, the guitarist from Anthrax on the convention floor.

これは、サンディエゴ・コミコンで、コンベンションフロアでアンスラックスのギタリストであるスコット・イアンに会った若い私の写真です。

Taking this image and running it through Luma, we end up with, well, this, which to me is actually super hilarious.

この画像をLumaを通して処理すると、実際にはこれができあがります。私にとっては実に面白いものです。

AIB definitely is super pumped to be there.

AIBは間違いなくそこにいることにとても興奮しています。

It definitely loses the coherency in my face.

私の顔には確かに一貫性が失われています。

But I think it does register the excitement that I was feeling meeting Scott Ian.

しかし、私はスコット・イアンに会ったときに感じていた興奮が伝わっていると思います。

In terms of shot extensions, yes, it can totally be done using the old final frame trick.

ショットの延長に関しては、古い最終フレームのトリックを使って完全に行うことができます。

What you would do is at the very end of your clip, you just simply take that last frame, save it out as a screenshot and then feed it back into the AI video generator with a different prompt.

やることは、クリップの最後に、最後のフレームを単純に取り出してスクリーンショットとして保存し、それを異なるプロンプトでAIビデオジェネレーターに戻すだけです。

For our text to video version with our pirate woman who crosses her arms, we ended up with this, which to be honest, this is still part of the same shot.

私たちの腕を組む海賊女性のテキストからビデオへのバージョンでは、正直言って、これはまだ同じショットの一部です。

He turns and moves.

彼は振り返って移動します。

This is the secondary shot.

これは2番目のショットです。

So that now becomes a 10 second shot.

そのため、これは今や10秒のショットになります。

Will that work for every shot?

それはすべてのショットに対して機能するでしょうか?

It may or it may not.

そうであるかもしれませんし、そうでないかもしれません。

I did end up running kind of that Sora old mining town shot and tried to extend that.

私は実際にそのSora古い鉱山町のショットを走ってみて、それを延長しようとしました。

The problem is that with this particular shot, we do get a lot of like decoherence and Morphing.

問題は、この特定のショットでは、多くのデコヒーレンスや変形が発生することです。

The sun kind of goes down.

太陽がだんだん沈んでいきます。

You can see definitely where that transition takes place too with that hard snap.

そのハードなスナップで遷移が起こる場所もはっきりと見えます。

But I think that with some adjustments, some rerolling, some planning, you can definitely pull off a minute long sequence if you wanted to.

しかし、いくつかの調整や再撮影、計画をすれば、必要に応じて1分間のシーケンスを十分に成功させることができると思います。

I have a lot of exploring to do with this model as well as trying things out like bashing it into the CREA upscaler that we took a look at last video.

このモデルでの探索や、前回の動画で見たCREAアップスケーラーにぶつけてみるなど、試してみることがたくさんあります。

I'll definitely be taking everything that I learned about it and putting it together as one big like ultimate tutorial lesson.

学んだことをすべてまとめて、究極のチュートリアルレッスンとして提供します。

If you haven't had the chance to subscribe, I do invite you to do so.

まだチャンネル登録していない方は、ぜひ登録していただければと思います。

Anyhow, go get started on your projects.

とにかく、プロジェクトを始めてください。

I cannot wait to see them.

皆さんの作品を楽しみにしています。

I thank you for watching.

ご視聴ありがとうございます。

My name is Tim.

私の名前はティムです。


この記事が気に入ったらサポートをしてみませんか?