マガジンのカバー画像

最新AI研究&検証

45
最新AIの最前線に立つ技術、理論、応用を深掘りするマガジンです。検証結果や研究の記事をまとめています。
運営しているクリエイター

記事一覧

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。 深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。 これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜 なお、モデルはStable Video Diffusion (SVD)を活用しているとのことでした。 🌐プロジェクトページ類

プロンプトで簡単に動画を作成できるAIツール「EasyAnimate」を試してみる

EasyAnimateとはEasyAnimateはその名のとおり、誰でもプロンプトで高解像度でちょい長めな動画を簡単に生成できるAIツールです! わかりやすいUIで短時間で簡単に生成できるとのこと。 主な特徴 ・transformer-based diffusion modelsとVAEを活用 ・モーションモジュール、U-ViT、Slice-VAEを組み込んでいる ・24fpsで最大6秒(144フレーム)のビデオを生成可能 🌐プロジェクトページ類早速試してみるデモのUI

画像から高品質かつ効率的な3Dメッシュを生成する「Unique3D」を試してみる

Unique3DとはUnique3Dは、任意の画像から高品質の3Dメッシュを効率的に生成するフレームワークで、マルチビューの拡散モデルを使用して複数のビュー画像を作成し、解像度を段階的に向上させているモノとのこと。 ISOMERアルゴリズムを用いて瞬時に一貫性のあるメッシュを再構築するこで30秒以内に詳細で正確な3Dモデルを生成できるのが売りとなっているらしくちょっと話題になってたのでいじってみたいなと思いました! ちなみに、このUnique3Dはわずか8個のRTX4090

指定された構成+スタイル+アイデンティティからポートレートを数秒以内に作成できる「OmniZero」を試してみる

OmniZeroとはOmni-Zeroは、特別な訓練やデータセットを必要とせず、どんな画像からでもスタイリッシュなポートレートを作成できる点が大きな魅力の生成AIです。 指定された構成画像+スタイル画像+アイデンティティ画像からポートレートを数秒以内に作成できるという直感的な操作が売りのようです! OmniZero開発者作者の方によるとComfyUIとdiffuserslibの結果の品質の違いに魅了され、深い迷路へ入ってしまったけれど、結果違いを理解することに加えてこの宝石

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活!Depth Anything がバージョン 2 で復活しました。 現在の他の方法よりも 10 倍高速とのこと。すごい! さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。 Depth Anything V2とは?Depth Anything V2はカメラ1台で撮影した画像から物体までの距離を正確に測るための新しい技術で、この技術は3Dゲームや自

2D to 3D animationができるAI「DreamGaussian4D」で遊んでみる

DreamGaussian4DとはDreamGaussian4Dは静止画像やビデオから4Dガウススプラッティング生成(ガウス関数を用いてオブジェクトの形状や動きをスムーズに補完し、高品質な3Dモデルを生成)をしてしまう技術です。 簡単に言ってしまうと、2D画像からあっという間に3Dのアニメーションデータが出力できますって感じでしょうか。 Python、CUDA、PyTorch、xformers、simple-knnなどの技術を使用しているようです。 🌐プロジェクトページ類早

"元画像+テクスチャ画像+シーン画像"で直感的に画像を編集するAIの「pOps」を試してみる

「pOps」はPhoto-Inspired Diffusion Operators(写真にインスパイアされた拡散オペレーター)の略語で、画像を編集するための新しい技術として発表されていました。 この技術では、画像に特定のテクスチャを追加したり、複数の画像を合成したり、形容詞で表現を変更したりできるらしく、他にもオブジェクトを特定のシーンに配置することも可能とのことで、工夫次第で色々と調整ができるそう。 pOpsの概要pOpsは、画像の埋め込み空間で直接動作するセマンティッ

新しく見つけた2D-to-3Dの「CraftsMan」を試してみる

ということで今回はまた新しく見つけた2D-to3DのCraftsManを触ってみたいと思います! CraftsManの最大の特徴は、二段階プロセスで行う高速かつ高精度な3Dメッシュ生成で、多様なMVモデルが選べるところらしいです。 CraftsManとはざっくりですがこのCraftsManのことをまとめて言うと、二段階のテキスト/画像から3Dメッシュを生成するモデルのことです。 特徴と呼ばれる「二段階プロセス」の内容は下記。 ①3Dネイティブ拡散を使用し、約5秒で滑らかな

特定のキャラクターの様々なポーズを作ってくれる「consistent-character」を試してみる

画像を入れるとその画像のキャラクターと同じ状態で様々なポーズを作ってくれるという「consistent-character」を今回は試してみたいと思います! 🌐プロジェクトページ類consistent-characterの技術についてこのconsistent-characterは一貫性を持たせたキャラクターの生成のため、InstantID、IPAdapter、Controlnet、FaceDetailer、SDXL Lightning を使用しているようです。 たしかに、そ

ここ半年くらいでこれはすごいな〜と思ったAIツール5選

2024年に入ってもう6月ですね。はやいはやい。 なんとなく試してみたAIツールをメモ的にnoteに残し続けていて、ある程度のことでは驚かなくなったわたしですが、それでも日々進化するAIをいじっているとたまにハッとすることがあります。 この激動の数ヶ月を振り返ってみたいなとふと思い、せっかくなのでその中でも特にすごいなと感心した5つのツールを紹介したいと思います。 高性能ディープフェイク動画作成AIツール「FaceFusion」FaceFusionは顔認識技術を利用し使い

一枚の画像から多角視点の複数の高解像度の画像を生成する「Era3D」を試してみる

今回試してみる「Era3D」は一枚の画像から多角視点の複数の高解像度の画像を生成してくれます。 同時にノーマルマップも合わせて生成してくれるという優れもの。 いままで一枚の画像から3Dデータを生成するというものはいくつかありました。こちらは画像の出力です。どんなものか気になりますね! Era3Dの特徴Era3Dは、単一画像から高解像度のマルチビュー画像を生成する新しい手法とのこと。調べてみると特に以下の2つの技術革新がありました。 カメラ予測モジュール:ディフュージョン

Adobeが開発中の3Dapp「Project Neo」とFireFlyを連携しクイックにイメージ通りの画像を作る

Photoshop や Illustrator で使い慣れたコントロールとコマンドを使用して、簡単なひねり、回転、微調整などで、かわいらしいアイコンや、ユニークな立体形状を数分で作成できると話題のAdobeが開発中の「Project Neo」。 まだbeta版ですが、使えるようでしたのでいじってみました! 早速なにか作ってみましょうか! UIはこのような感じ。 たしかにPhotoshopやIllustratorぽい画面。 でもインストール型ではなくてSaaSでした。

任意の画像の色塗りをしたりクオリティをアップさせたりするControlNetのエクステンション「MistoLine」を試してみる

MistoLineはあらゆるタイプの線画入力に適応できるSDXL-ControlNetモデルで、手描きのスケッチやControlNetの様々な線画プリプロセッサ、モデル生成アウトラインなどの線画に基づいて、高品質の画像 (短辺が 1024 ピクセル以上) を生成できるとのこと。 (MistoLineは線画プリプロセッサごとに異なる ControlNet モデルを選択する必要もないとのことでした。) 今回はこのMistoLineを試してみたいと思います。 🌐プロジェクトページ

text2appの時代に突入。ノーコードでアプリが作れるAIツール「Create.XYZ」がとにかくすごい!

今回試してみたCreate.XYZはプログラミングの知識がなくても、AIを利用して簡単にWebサイトやアプリケーションを作成できるツールです! ユーザーが自然言語で入力した指示(プロンプト)を元に、AIが自動的にコードを生成し、Webサイトやアプリの構造やデザインを構築してくれるという超優れもの。 下記からアクセス。UIもシンプルでわかりやすいです! まず登録が必要ですが、無料で結構遊べます。 Create.XYZの主な機能主な機能を4つにまとめました! プロンプト入