最新AI研究&検証

テキストからビデオ生成ができるオープンソースモデル「CogVideo」を試してみる

CogVideoとはCogVideoはtext to videoの新しいオープンソースモデルです。比較的高いフレームレートのビデオを生成できるというのも売りのようでした。いままでtext to videoはStable Video Diffusionとかなど試してみたことがありましたが、今回はどうでしょうか。とても楽しみです！ 🌐プロジェクトページ類💪試してみる簡単なプロンプトを強化してくれるボタンもあって親切感満載✨ たとえば「可愛い白猫ちゃんが部屋で遊んでいる」と

仮想試着AIツールの「IMAGDressing」を試してみる

IMAGDressingとはIMAGDressingは、最近ECなどで流行りの仮想試着技術でユーザーが自分の写真に新しい服を着せたり、特定のシーンやスタイルに合った画像を生成したりすることができるAIツール。つまりは任意の衣装、顔、ポーズを決めてそれぞれを補完したイメージを制作してくれるモノとのこと。オープンソースなのでもちろん無料です！追加のLoRAトレーニングを必要とせず、数秒以内に迅速なカスタマイズが可能なところも良いところです。早速いじってみたいと思います！ 🌐プ

画像を3Dに0.5秒で変換するAIツール「Stable Fast 3D」を試してみる

Stable Fast 3DとはStable Fast 3D…一瞬で画像を3D化するということでちょっと話題になってたので調べてみましたが、1 枚の画像からわずか 0.5 秒で高速かつ高品質のテクスチャ付きオブジェクトメッシュを再構築する新しい手法で、内容としてはStability AIでTripoSR をベースにしているものとのこと。作者はMark Bossさん。偉大な発明をありがとう！速さと質が売りのようなので、わたしも急いでいじってみたいと思います！ 🌐プロジェ

画像から効率的に3Dキャラを作ってくれる「CharacterGen」を試してみる

CharacterGenとはこれまたXでとても話題になっている「CharacterGen」。一枚のキャラクター画像から正面、左右、後ろの4面図を自動で作成。その後、3Dキャラクター化してくれます。生成された3Dキャラクターは高品質な形状とテクスチャを持っていて、アニメーションやゲーム開発などの応用に役立ちます！オープンソースなのでコード、デモ、学習済みのモデルが🤗で公開されています！これはやるっきゃない！ 🌐プロジェクトページ類💪試してみる早速この男の子をいれて試して

"画像+モーション=話しているような動画"が作れる「LivePortrait」を試してみる

LivePortraitとは単一の画像 + モーション = リアルなビデオができちゃうものです。 69Mの高品質フレームでトレーニング済み、RTX 4090 で 12.8msという速さ、効率的で制御可能かつオープンソース。いいプロジェクトです！！ 🌐プロジェクトページ類早速試してみるソースの画像には日本人女性、モーションの元となる動画には白人女性を入れて試してみます。出来上がった動画がこれです。ふむふむ、このような感じになるのですね！処理はだいぶ早かったです。口が

自動で動画にあった効果音を生成する「FoleyCrafter」を試してみる

FoleyCrafterとはまた便利そうなAIツールを見つけてしまいました…！ FoleyCrafterは、動画のための高品質な効果音をテキストプロンプトから生成するフレームワークで、事前に学習されたテキストからオーディオモデルを使用しセマンティックアダプターで音を映像に適合させ正確な同期を行ってくれるとのこと。もろもろいっぺんに勝手に動画の効果音を作ってくれるなんて超便利です。早速試してみたいと思います！ 🌐プロジェクトページ類早速試してみる音無しの動画をつくるにう

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜なお、モデルはStable Video Diffusion (SVD)を活用しているとのことでした。 🌐プロジェクトページ類

画像から高品質かつ効率的な3Dメッシュを生成する「Unique3D」を試してみる

Unique3DとはUnique3Dは、任意の画像から高品質の3Dメッシュを効率的に生成するフレームワークで、マルチビューの拡散モデルを使用して複数のビュー画像を作成し、解像度を段階的に向上させているモノとのこと。 ISOMERアルゴリズムを用いて瞬時に一貫性のあるメッシュを再構築するこで30秒以内に詳細で正確な3Dモデルを生成できるのが売りとなっているらしくちょっと話題になってたのでいじってみたいなと思いました！ちなみに、このUnique3Dはわずか8個のRTX4090

指定された構成+スタイル+アイデンティティからポートレートを数秒以内に作成できる「OmniZero」を試してみる

OmniZeroとはOmni-Zeroは、特別な訓練やデータセットを必要とせず、どんな画像からでもスタイリッシュなポートレートを作成できる点が大きな魅力の生成AIです。指定された構成画像+スタイル画像+アイデンティティ画像からポートレートを数秒以内に作成できるという直感的な操作が売りのようです！ OmniZero開発者作者の方によるとComfyUIとdiffuserslibの結果の品質の違いに魅了され、深い迷路へ入ってしまったけれど、結果違いを理解することに加えてこの宝石

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活！Depth Anything がバージョン 2 で復活しました。現在の他の方法よりも 10 倍高速とのこと。すごい！さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。 Depth Anything V2とは？Depth Anything V2はカメラ1台で撮影した画像から物体までの距離を正確に測るための新しい技術で、この技術は3Dゲームや自

2D to 3D animationができるAI「DreamGaussian4D」で遊んでみる

DreamGaussian4DとはDreamGaussian4Dは静止画像やビデオから4Dガウススプラッティング生成(ガウス関数を用いてオブジェクトの形状や動きをスムーズに補完し、高品質な3Dモデルを生成)をしてしまう技術です。簡単に言ってしまうと、2D画像からあっという間に3Dのアニメーションデータが出力できますって感じでしょうか。 Python、CUDA、PyTorch、xformers、simple-knnなどの技術を使用しているようです。 🌐プロジェクトページ類早

"元画像＋テクスチャ画像＋シーン画像"で直感的に画像を編集するAIの「pOps」を試してみる

「pOps」はPhoto-Inspired Diffusion Operators（写真にインスパイアされた拡散オペレーター）の略語で、画像を編集するための新しい技術として発表されていました。この技術では、画像に特定のテクスチャを追加したり、複数の画像を合成したり、形容詞で表現を変更したりできるらしく、他にもオブジェクトを特定のシーンに配置することも可能とのことで、工夫次第で色々と調整ができるそう。 pOpsの概要pOpsは、画像の埋め込み空間で直接動作するセマンティッ

新しく見つけた2D-to-3Dの「CraftsMan」を試してみる

ということで今回はまた新しく見つけた2D-to3DのCraftsManを触ってみたいと思います！ CraftsManの最大の特徴は、二段階プロセスで行う高速かつ高精度な3Dメッシュ生成で、多様なMVモデルが選べるところらしいです。 CraftsManとはざっくりですがこのCraftsManのことをまとめて言うと、二段階のテキスト/画像から3Dメッシュを生成するモデルのことです。特徴と呼ばれる「二段階プロセス」の内容は下記。 ①3Dネイティブ拡散を使用し、約5秒で滑らかな

ここ半年くらいでこれはすごいな〜と思ったAIツール5選

2024年に入ってもう6月ですね。はやいはやい。なんとなく試してみたAIツールをメモ的にnoteに残し続けていて、ある程度のことでは驚かなくなったわたしですが、それでも日々進化するAIをいじっているとたまにハッとすることがあります。この激動の数ヶ月を振り返ってみたいなとふと思い、せっかくなのでその中でも特にすごいなと感心した５つのツールを紹介したいと思います。高性能ディープフェイク動画作成AIツール「FaceFusion」FaceFusionは顔認識技術を利用し使い

フォローしませんか？

#生成AI