SUTO💡

アイデアとデザインとテクノロジー👀 クリエイティブや最新技術関連のことを書いてます。…

SUTO💡

アイデアとデザインとテクノロジー👀 クリエイティブや最新技術関連のことを書いてます。たまに日記も。 猫とゲームが好きです🐱🎮

マガジン

  • 最新AI研究&検証

    最新AIの最前線に立つ技術、理論、応用を深掘りするマガジンです。検証結果や研究の記事をまとめています。

  • 生成AIの未来を探る

    こちらのマガジンは特にクリエイターに向けた最新のAIについての技術動向、社会的影響、倫理的考察、そしてAIが未来にどのような変化をもたらすかに焦点を当てた記事をまとめています。

  • 気まぐれに作ってみた

    軽い気持ちで作ったものをどんどん追加しています🐱

最近の記事

画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

EVF-SAM2とはEVF-SAM はSAM2 とテキスト プロンプトを使用してビデオ内のオブジェクトをセグメント化してくれるモデルです。 いままでのSAMではできなかったけど、EVF-SAM2リリースによって精度高く可能になったということで試してみました! 🌐プロジェクトページ類📸写真を試してみるデモでは写真とビデオ両方試せるようになっていました。 ということでまずは写真から試してみたのがこれ。ちゃんと真ん中の笑顔の女性が撮れてます。まったく不安のない良い精度ですね!

    • 綺麗&早い背景除去モデル「BiRefNet」を試してみる

      BiRefNetとは色々お世話になることが多い背景除去モデル。BiRefNetはまさしく新しく出たモデルとのことでちょい話題になっていたので試してみようと思います。 1024x1024 画像の推論には 5.5G GPU メモリが必要とのこと。ありがたさの極み、MITライセンスでした。 🌐プロジェクトページ💪早速試してみるということでデモ画面がこちら。 で早速試したものがこちらです! スライダーで除去様子が確かめられますが、ほんと綺麗に抜けてます。 その他、試したものを

      • 3Dヒューマンヘッドのための大規模合成データセット「VGGHeads」を試してみる

        「VGGHeads」とはVGGHeadsは3Dの人間の頭をモデル化するために作られたとても大きなデータセットですが、通常のデータセットと違って完全にコンピュータで作られた「合成データセット」で、100万枚以上の高解像度の画像が含まれているとのこと。 このデータセットを使って開発された新しいモデルは1枚の画像から頭の位置を特定しその頭を3Dで再構築することができます。しかも、これを1回の処理で同時に行うことができるらしいです。 従来のデータセットは写真のプライバシーや倫理的な

        • AUTOMATIC1111 がv1.10.xにアップデートでSD3Mをサポートしたという噂を聞きつけ試してみた

          AUTOMATIC1111のアップデートとStable Diffusion 3 MediumStable Diffusion web UIといえばAUTOMATIC1111氏のものを基本的には指すと思います。ずいぶん浸透してきましたね。 一方で、そのweb UIで特にたくさん使われるはずであった新モデルStable Diffusion 3 Mediumの知名度は低いままの印象です。 とりあえず今回AUTOMATIC1111のアップデートにより、使える状況になったと聞いて試して

        画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

        • 綺麗&早い背景除去モデル「BiRefNet」を試してみる

        • 3Dヒューマンヘッドのための大規模合成データセット「VGGHeads」を試してみる

        • AUTOMATIC1111 がv1.10.xにアップデートでSD3Mをサポートしたという噂を聞きつけ試してみた

        マガジン

        • 最新AI研究&検証
          56本
        • 生成AIの未来を探る
          16本
        • 気まぐれに作ってみた
          1本

        記事

          Midjourney級にキレイなのに無料と話題のFLUX.1をComfyUIで試してみる

          いまAI界隈はFLUX.1に夢中なにやらざわついているなと思っていました。FLUX。 Midjourneyと争えるくらい今までの中でもだいぶリアルに近づいた出力ができるオープンソースのモデルがリリースされたとか… fluxで出力した静止画をrunwayやGan-3とかで動画にしているのがちょいちょい話題になってますね。 このFluxがComfyUIでできるというのでちょこっといじってみようかなと試したのが今日の記事になります! FLUX.1はいま3種類あるFLUX.1 は

          Midjourney級にキレイなのに無料と話題のFLUX.1をComfyUIで試してみる

          AI系の専門家の誰に聞いても次に来るのは「生成AIエージェント」と「音声認識」と言っている件について

          「生成AIエージェント」と「音声認識」というキーワードたまたまちょっとしたテクノロジーをよく使うクリエイター集団の中にいるため、周りにAI系の専門家が多かったりするわたしですが、それぞれ個別に雑談したり話を聞いたりしていて最近必ず出てくる2つのキーワードがあります。 それが題名でも書いた「生成AIエージェント」と「音声認識」。 ほんと意識合わせをしたかのように四方八方から口を揃えてみんな言っているので、ほぼこれらが来るのは間違いなさそうだな〜と思い記事にしました。 生成AI

          AI系の専門家の誰に聞いても次に来るのは「生成AIエージェント」と「音声認識」と言っている件について

          仮想試着AIツールの「IMAGDressing」を試してみる

          IMAGDressingとはIMAGDressingは、最近ECなどで流行りの仮想試着技術でユーザーが自分の写真に新しい服を着せたり、特定のシーンやスタイルに合った画像を生成したりすることができるAIツール。つまりは任意の衣装、顔、ポーズを決めてそれぞれを補完したイメージを制作してくれるモノとのこと。オープンソースなのでもちろん無料です! 追加のLoRAトレーニングを必要とせず、数秒以内に迅速なカスタマイズが可能なところも良いところです。早速いじってみたいと思います! 🌐プ

          仮想試着AIツールの「IMAGDressing」を試してみる

          画像を3Dに0.5秒で変換するAIツール「Stable Fast 3D」を試してみる

          Stable Fast 3DとはStable Fast 3D…一瞬で画像を3D化するということでちょっと話題になってたので調べてみましたが、1 枚の画像からわずか 0.5 秒で高速かつ高品質のテクスチャ付きオブジェクト メッシュを再構築する新しい手法で、内容としてはStability AIでTripoSR をベースにしているものとのこと。 作者はMark Bossさん。偉大な発明をありがとう! 速さと質が売りのようなので、わたしも急いでいじってみたいと思います! 🌐プロジェ

          画像を3Dに0.5秒で変換するAIツール「Stable Fast 3D」を試してみる

          ITOCHU SDGs STUDIOで期間展示中の「きみとAIの!?(ワンダー)な未来旅行展」に行ってみた

          ITOCHU SDGs STUDIO(東京都港区北青山2-3-1 Itochu Garden内)ではAIが考えた「あるかもしれない未来」への旅を通じて本物の未来に思いを馳せる「きみとAIの!?な未来旅行展」を7月18日(木)~9月23日(月・祝)に開催とのことで、遊びに行ってきました! 早速行ってみた!遊びに行った当日は土曜日のお昼頃でしたが全然混んでいなくてファミリーの方が数組いるくらいで大変快適でした☺️ スタンプラリーができるので子供が喜ぶ会場自体はそんなに広くなく

          ITOCHU SDGs STUDIOで期間展示中の「きみとAIの!?(ワンダー)な未来旅行展」に行ってみた

          画像から効率的に3Dキャラを作ってくれる「CharacterGen」を試してみる

          CharacterGenとはこれまたXでとても話題になっている「CharacterGen」。 一枚のキャラクター画像から正面、左右、後ろの4面図を自動で作成。その後、3Dキャラクター化してくれます。 生成された3Dキャラクターは高品質な形状とテクスチャを持っていて、アニメーションやゲーム開発などの応用に役立ちます! オープンソースなのでコード、デモ、学習済みのモデルが🤗で公開されています!これはやるっきゃない! 🌐プロジェクトページ類💪試してみる早速この男の子をいれて試して

          画像から効率的に3Dキャラを作ってくれる「CharacterGen」を試してみる

          "画像+モーション=話しているような動画"が作れる「LivePortrait」を試してみる

          LivePortraitとは単一の画像 + モーション = リアルなビデオができちゃうものです。 69Mの高品質フレームでトレーニング済み、RTX 4090 で 12.8msという速さ、効率的で制御可能かつオープンソース。いいプロジェクトです!! 🌐プロジェクトページ類早速試してみるソースの画像には日本人女性、モーションの元となる動画には白人女性を入れて試してみます。 出来上がった動画がこれです。 ふむふむ、このような感じになるのですね! 処理はだいぶ早かったです。口が

          "画像+モーション=話しているような動画"が作れる「LivePortrait」を試してみる

          自動で動画にあった効果音を生成する「FoleyCrafter」を試してみる

          FoleyCrafterとはまた便利そうなAIツールを見つけてしまいました…! FoleyCrafterは、動画のための高品質な効果音をテキストプロンプトから生成するフレームワークで、事前に学習されたテキストからオーディオモデルを使用しセマンティックアダプターで音を映像に適合させ正確な同期を行ってくれるとのこと。 もろもろいっぺんに勝手に動画の効果音を作ってくれるなんて超便利です。 早速試してみたいと思います! 🌐プロジェクトページ類早速試してみる音無しの動画をつくるにう

          自動で動画にあった効果音を生成する「FoleyCrafter」を試してみる

          アップスケーラーもここまで来たかと思わせる"GigaGAN"から派生した「AuraSR」

          "GigaGAN"と「AuraSR」についてアップスケーラーには度々お世話になっています。 なんだかんだなくてはならない技術ですよね。そんなときに見つけたAuraSRについてまとめてみました。 GIgaGANはAdobeが2023年の8月ごろ発表した、テキストを画像に変換するために使用される大規模なAIモデルです。GIgaGANには10億のパラメータがあり、他の人気モデルよりも高速かつ高品質の画像を生成可能。 具体的にはStyleGANの36 倍のスケールが可能で 超高解像

          アップスケーラーもここまで来たかと思わせる"GigaGAN"から派生した「AuraSR」

          動画での深度推定AIの「ChronoDepth」を試してみる

          「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。 深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。 これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜 なお、モデルはStable Video Diffusion (SVD)を活用しているとのことでした。 🌐プロジェクトページ類

          動画での深度推定AIの「ChronoDepth」を試してみる

          プロンプトで簡単に動画を作成できるAIツール「EasyAnimate」を試してみる

          EasyAnimateとはEasyAnimateはその名のとおり、誰でもプロンプトで高解像度でちょい長めな動画を簡単に生成できるAIツールです! わかりやすいUIで短時間で簡単に生成できるとのこと。 主な特徴 ・transformer-based diffusion modelsとVAEを活用 ・モーションモジュール、U-ViT、Slice-VAEを組み込んでいる ・24fpsで最大6秒(144フレーム)のビデオを生成可能 🌐プロジェクトページ類早速試してみるデモのUI

          プロンプトで簡単に動画を作成できるAIツール「EasyAnimate」を試してみる

          画像から高品質かつ効率的な3Dメッシュを生成する「Unique3D」を試してみる

          Unique3DとはUnique3Dは、任意の画像から高品質の3Dメッシュを効率的に生成するフレームワークで、マルチビューの拡散モデルを使用して複数のビュー画像を作成し、解像度を段階的に向上させているモノとのこと。 ISOMERアルゴリズムを用いて瞬時に一貫性のあるメッシュを再構築するこで30秒以内に詳細で正確な3Dモデルを生成できるのが売りとなっているらしくちょっと話題になってたのでいじってみたいなと思いました! ちなみに、このUnique3Dはわずか8個のRTX4090

          画像から高品質かつ効率的な3Dメッシュを生成する「Unique3D」を試してみる