最新AI研究&検証

本

最新AIの最前線に立つ技術、理論、応用を深掘りするマガジンです。検証結果や研究の記事をまとめています。

運営しているクリエイター: SUTO💡

画像から効率的に3Dキャラを作ってくれる「CharacterGen」を試してみる

CharacterGenとはこれまたXでとても話題になっている「CharacterGen」。一枚のキャラクター画像から正面、左右、後ろの4面図を自動で作成。その後、3Dキャラクター化してくれます。生成された3Dキャラクターは高品質な形状とテクスチャを持っていて、アニメーションやゲーム開発などの応用に役立ちます！オープンソースなのでコード、デモ、学習済みのモデルが🤗で公開されています！これはやるっきゃない！ 🌐プロジェクトページ類💪試してみる早速この男の子をいれて試して

"画像+モーション=話しているような動画"が作れる「LivePortrait」を試してみる

LivePortraitとは単一の画像 + モーション = リアルなビデオができちゃうものです。 69Mの高品質フレームでトレーニング済み、RTX 4090 で 12.8msという速さ、効率的で制御可能かつオープンソース。いいプロジェクトです！！ 🌐プロジェクトページ類早速試してみるソースの画像には日本人女性、モーションの元となる動画には白人女性を入れて試してみます。出来上がった動画がこれです。ふむふむ、このような感じになるのですね！処理はだいぶ早かったです。口が

自動で動画にあった効果音を生成する「FoleyCrafter」を試してみる

FoleyCrafterとはまた便利そうなAIツールを見つけてしまいました…！ FoleyCrafterは、動画のための高品質な効果音をテキストプロンプトから生成するフレームワークで、事前に学習されたテキストからオーディオモデルを使用しセマンティックアダプターで音を映像に適合させ正確な同期を行ってくれるとのこと。もろもろいっぺんに勝手に動画の効果音を作ってくれるなんて超便利です。早速試してみたいと思います！ 🌐プロジェクトページ類早速試してみる音無しの動画をつくるにう

アップスケーラーもここまで来たかと思わせる"GigaGAN"から派生した「AuraSR」

"GigaGAN"と「AuraSR」についてアップスケーラーには度々お世話になっています。なんだかんだなくてはならない技術ですよね。そんなときに見つけたAuraSRについてまとめてみました。 GIgaGANはAdobeが2023年の8月ごろ発表した、テキストを画像に変換するために使用される大規模なAIモデルです。GIgaGANには10億のパラメータがあり、他の人気モデルよりも高速かつ高品質の画像を生成可能。具体的にはStyleGANの36 倍のスケールが可能で超高解像

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜なお、モデルはStable Video Diffusion (SVD)を活用しているとのことでした。 🌐プロジェクトページ類

プロンプトで簡単に動画を作成できるAIツール「EasyAnimate」を試してみる

EasyAnimateとはEasyAnimateはその名のとおり、誰でもプロンプトで高解像度でちょい長めな動画を簡単に生成できるAIツールです！わかりやすいUIで短時間で簡単に生成できるとのこと。主な特徴・transformer-based diffusion modelsとVAEを活用・モーションモジュール、U-ViT、Slice-VAEを組み込んでいる・24fpsで最大6秒(144フレーム)のビデオを生成可能 🌐プロジェクトページ類早速試してみるデモのUI

画像から高品質かつ効率的な3Dメッシュを生成する「Unique3D」を試してみる

Unique3DとはUnique3Dは、任意の画像から高品質の3Dメッシュを効率的に生成するフレームワークで、マルチビューの拡散モデルを使用して複数のビュー画像を作成し、解像度を段階的に向上させているモノとのこと。 ISOMERアルゴリズムを用いて瞬時に一貫性のあるメッシュを再構築するこで30秒以内に詳細で正確な3Dモデルを生成できるのが売りとなっているらしくちょっと話題になってたのでいじってみたいなと思いました！ちなみに、このUnique3Dはわずか8個のRTX4090

指定された構成+スタイル+アイデンティティからポートレートを数秒以内に作成できる「OmniZero」を試してみる

OmniZeroとはOmni-Zeroは、特別な訓練やデータセットを必要とせず、どんな画像からでもスタイリッシュなポートレートを作成できる点が大きな魅力の生成AIです。指定された構成画像+スタイル画像+アイデンティティ画像からポートレートを数秒以内に作成できるという直感的な操作が売りのようです！ OmniZero開発者作者の方によるとComfyUIとdiffuserslibの結果の品質の違いに魅了され、深い迷路へ入ってしまったけれど、結果違いを理解することに加えてこの宝石

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活！Depth Anything がバージョン 2 で復活しました。現在の他の方法よりも 10 倍高速とのこと。すごい！さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。 Depth Anything V2とは？Depth Anything V2はカメラ1台で撮影した画像から物体までの距離を正確に測るための新しい技術で、この技術は3Dゲームや自

2D to 3D animationができるAI「DreamGaussian4D」で遊んでみる

DreamGaussian4DとはDreamGaussian4Dは静止画像やビデオから4Dガウススプラッティング生成(ガウス関数を用いてオブジェクトの形状や動きをスムーズに補完し、高品質な3Dモデルを生成)をしてしまう技術です。簡単に言ってしまうと、2D画像からあっという間に3Dのアニメーションデータが出力できますって感じでしょうか。 Python、CUDA、PyTorch、xformers、simple-knnなどの技術を使用しているようです。 🌐プロジェクトページ類早

"元画像＋テクスチャ画像＋シーン画像"で直感的に画像を編集するAIの「pOps」を試してみる

「pOps」はPhoto-Inspired Diffusion Operators（写真にインスパイアされた拡散オペレーター）の略語で、画像を編集するための新しい技術として発表されていました。この技術では、画像に特定のテクスチャを追加したり、複数の画像を合成したり、形容詞で表現を変更したりできるらしく、他にもオブジェクトを特定のシーンに配置することも可能とのことで、工夫次第で色々と調整ができるそう。 pOpsの概要pOpsは、画像の埋め込み空間で直接動作するセマンティッ

新しく見つけた2D-to-3Dの「CraftsMan」を試してみる

ということで今回はまた新しく見つけた2D-to3DのCraftsManを触ってみたいと思います！ CraftsManの最大の特徴は、二段階プロセスで行う高速かつ高精度な3Dメッシュ生成で、多様なMVモデルが選べるところらしいです。 CraftsManとはざっくりですがこのCraftsManのことをまとめて言うと、二段階のテキスト/画像から3Dメッシュを生成するモデルのことです。特徴と呼ばれる「二段階プロセス」の内容は下記。 ①3Dネイティブ拡散を使用し、約5秒で滑らかな

特定のキャラクターの様々なポーズを作ってくれる「consistent-character」を試してみる

画像を入れるとその画像のキャラクターと同じ状態で様々なポーズを作ってくれるという「consistent-character」を今回は試してみたいと思います！ 🌐プロジェクトページ類consistent-characterの技術についてこのconsistent-characterは一貫性を持たせたキャラクターの生成のため、InstantID、IPAdapter、Controlnet、FaceDetailer、SDXL Lightning を使用しているようです。たしかに、そ

ここ半年くらいでこれはすごいな〜と思ったAIツール5選

2024年に入ってもう6月ですね。はやいはやい。なんとなく試してみたAIツールをメモ的にnoteに残し続けていて、ある程度のことでは驚かなくなったわたしですが、それでも日々進化するAIをいじっているとたまにハッとすることがあります。この激動の数ヶ月を振り返ってみたいなとふと思い、せっかくなのでその中でも特にすごいなと感心した５つのツールを紹介したいと思います。高性能ディープフェイク動画作成AIツール「FaceFusion」FaceFusionは顔認識技術を利用し使い