見出し画像

ザッカーバーグが発表したメタの新しいAIモデル...めっちゃアツいで!

3,185 文字

ほな、マーク・ザッカーバーグさんが突然こんなん発表しよったんや。メタの新しい動画生成AIモデル「ムービージェン」を使うたら、毎日がええ日になるんやて。来年からインスタグラムで動画の作成や編集ができるようになるらしいわ。
これがAIで作られた動画やってんのが分かるんは、8枚も皿が乗ってるからやな。冗談やけどな。
ほんまのとこ、最近このお兄ちゃんのこと、どんどん好きになってきてんねん。で、この新しいムービージェンってやつ、なかなかええ感じやわ。
もちろん、他のモデルと同じように、テキストから動画を作れるんやけど、クオリティがええんや。今んとこ最高峰とは言えへんかもしれんけど、競争が激しくなってきてるんは間違いないな。
ランウェイMLとか、中国のモデルのシンとか、それにオープンAIの噂の「ソラ」モデルとかあるやろ。まだ開発中やけどな。
最初のうちは、メタのんが一歩遅れてるかもしれんけど、すぐに追いつくんちゃうかな。メタは計算能力もあるし、技術もGPUもあるからな。ザッカーバーグは今、戦争モードに入ってるみたいやし、アップルに勝つためやったら何でもするって感じやわ。AIもその戦略の一つやと思うで。
ほな、もう一回普通のテキストから動画作るやつに戻ろか。まあまあええ感じやけど、トップクラスとまでは言えへんかな。でも、めっちゃしっかりしてるで。
他の機能がこの話のメインになりそうやな。二つ目の機能は、自分の写真をアップロードして、それをパーソナライズした動画に変換できるんや。
ムービージェンの最先端モデルを使うたら、人間のアイデンティティと動きを保ったまま、パーソナライズした動画が作れるんやて。これで、自分の写真を使って、想像できるどんな状況でも動画にできるわけや。
ご存知やと思うけど、メタはフェイスブックやインスタグラム、ワッツアップ、オキュラスなんかを持ってるんや。つまり、30億か40億人のユーザーがこれを試して、たくさんの映像を作って、モデルの改善を手伝って、好みの出力を選んだりするわけや。スケールのメリットはでかいな。
メタは、ハリウッドの映画製作者もオンラインのクリエイターもこの技術を使って、「AIを活用したコンテンツクリエイターの新時代」を切り開いてほしいって言うてるわ。
次はこれや。これが三つ目の機能やな。テキストで動画を編集できるんや。既存の動画をテキスト入力で変換して、スタイルや切り替え、細かい編集までできるんやて。
ほな、元の動画は、女の子がオキュラスリフト、つまりVRヘッドセットを被ってるやつやねん。テキスト入力で「VRヘッドセットを双眼鏡に変更」って言うたら、なんかサイバーパンクみたいな双眼鏡に変わるわけや。うん、ばっちりやな。
次に「VRヘッドセットを取り除く」って言うたら、ちゃんと女の子の目が見えるようになるんや。髪の毛がちょっと変やけど、まあええ感じやわ。驚くほどうまくヘッドセットを取り除いて、目を描き直してるな。
四つ目は「泡を追加して未来的な効果を加える」やけど、うん、なかなかええ感じやな。
ここに別のがあるで。元の動画は、人がウォーミングアップしてるみたいなやつや。手から火花を出したり、空をオーロラに変えたり、背景を野外スタジアムにしたりできるんや。これ、めっちゃええ出来やな。元の動画と見比べても、どっちも本物みたいやわ。
犬の動画やったら、ピンクのつなぎを着せたり、王室の庭園に置いたり、プードルの色を青に変えたりできるんや。
数ヶ月前にメタが発表した「SAM2」っていう「セグメント・エニシング・モデル」の第二世代のことを覚えてるかな。ちょっと動画で紹介して遊んでみたんやけど、物体を切り抜くのがめっちゃ上手なんや。
例えば、この犬の場合、背景と間違えずに完璧に選択できてるやろ。だから、青っぽい色に塗り替えたり、フランスのお城みたいなとこに置いたり、ピンクの帽子とつなぎを着せたりするのが、そんなに正確にできるんや。元の動画と区別つかへんくらいやで。
ほな、もう一個見てみよか。映画館で二人が動画見てる場面やな。次に3D眼鏡をかけさせるんやけど、めっちゃええ感じや。眼鏡の反射までちゃんと入ってるし、めっちゃクールやわ。
背景をカーニバルに変えるのもめっちゃええ出来や。本物と見分けつかへんわ。大雨を降らせることもできるんや。背景だけやなくて、前にも雨が降ってるし、ちょっと稲妻も見えるかもな。
ペンギンにビクトリア朝の衣装を着せるのもすごいな。背景にビーチパラソルやビーチベッドを追加したり、鉛筆スケッチ風に変えたりもできるで。
走ってる人にポンポンを持たせたり、サボテン畑を走らせたり、恐竜に変身させたりもできるんや。
小動物にいろんな衣装を着せるのが、めっちゃ流行りそうやな。その傾向がすぐに出てくると思うわ。
四つ目の機能は、効果音やサウンドトラックを作れることや。動画とテキスト入力を使って、動画の音声を生成できるんや。ムービージェンを使えば、効果音や背景音楽、完全なサウンドトラックまで作れるし、延長もできるんや。
ここにちょっとした例があるから、聞いてみよか。
(音楽や効果音が流れる)
まだこのモデルの論文を全部読んでへんねんけど、SAM2モデルを使ってこのモデルを一部トレーニングしてるみたいやな。動画内の物体のセグメンテーションマスクを抽出するのにSAM2を使ってるっぽいわ。
例えば、このピンク色みたいに、違う色で塗ってるやろ。これでモデルのトレーニング用のデータセットを作ってるみたいやな。元の動画があって、特定の物体を特定の色でマークする指示があって、そんで指示通りにマスクした版ができるわけや。
例えば、「右側の人物をマスクしてください」とか「この男の子をピンクでマスクしてください」みたいな感じや。これを使ってモデルを微調整してるんやろうな。
ほんで、その男の子を膨らませた猫に変えたり、元に戻したりもできるんや。
SAM2モデルはオープンソースやから、他のAI動画会社もすぐに使って似たようなデータセットを作って、自社のモデルに同じような機能を追加するんちゃうかな。だって、そのセグメント・エニシング2のデモがめっちゃ印象的やったもん。
例えばこんな感じや。「U」の文字を選びたいとするやろ。選んだものを示してくれて、追加したり削除したりもできるんや。追加したかったら、ブロックの片側全部とか、ブロック全体を選べるけど、今回は「U」だけ選ぼか。
「U」の色を選んで、「オブジェクトを追跡」ってクリックするんや。そしたら、全体が動いても追跡できてるのが分かるやろ。手で隠れても、まだどこにあるか分かってるんや。
これはほとんどどんなオブジェクトでもできるんや。例えば、犬の口にあるもの、ボールかなんかを選んでみよか。「オブジェクトを追跡」をクリックしたら、ほら、追跡してるやろ。どこに行っても画面上で追跡できるんや。
この先どうなるか楽しみやわ。だって、この四つの機能を組み合わせたら、すごいパワーが出てくるやろ。テキストから動画を作るだけやなくて、精密な編集もできるし、パーソナライズした動画も作れるし、動画用の音声やサウンドトラックも作れるんやで。
これ、全部揃ってるやん。好きなように動画を作る力を与えてくれるわ。自分の想像したどんな状況でも、自分を登場させて、ちょっとした調整や編集もできるんや。
メタはユーザー数が多いから、これは絶対有利やわ。新しいモデルを作り続けて、フィードバックを得られるし、計算能力もあるしな。来年には、メタが今までで最高のAI動画モデルを出すかもしれんで。
ほな、みんなはどう思う?コメントで教えてな。
ワシはウェス・ロスや。ここまで見てくれてありがとう。チャンネル登録と高評価よろしくな。また会おな!

この記事が気に入ったらサポートをしてみませんか?