マガジンのカバー画像

最新AI研究&検証

45
最新AIの最前線に立つ技術、理論、応用を深掘りするマガジンです。検証結果や研究の記事をまとめています。
運営しているクリエイター

2024年5月の記事一覧

ここ半年くらいでこれはすごいな〜と思ったAIツール5選

2024年に入ってもう6月ですね。はやいはやい。 なんとなく試してみたAIツールをメモ的にnoteに残し続けていて、ある程度のことでは驚かなくなったわたしですが、それでも日々進化するAIをいじっているとたまにハッとすることがあります。 この激動の数ヶ月を振り返ってみたいなとふと思い、せっかくなのでその中でも特にすごいなと感心した5つのツールを紹介したいと思います。 高性能ディープフェイク動画作成AIツール「FaceFusion」FaceFusionは顔認識技術を利用し使い

一枚の画像から多角視点の複数の高解像度の画像を生成する「Era3D」を試してみる

今回試してみる「Era3D」は一枚の画像から多角視点の複数の高解像度の画像を生成してくれます。 同時にノーマルマップも合わせて生成してくれるという優れもの。 いままで一枚の画像から3Dデータを生成するというものはいくつかありました。こちらは画像の出力です。どんなものか気になりますね! Era3Dの特徴Era3Dは、単一画像から高解像度のマルチビュー画像を生成する新しい手法とのこと。調べてみると特に以下の2つの技術革新がありました。 カメラ予測モジュール:ディフュージョン

Adobeが開発中の3Dapp「Project Neo」とFireFlyを連携しクイックにイメージ通りの画像を作る

Photoshop や Illustrator で使い慣れたコントロールとコマンドを使用して、簡単なひねり、回転、微調整などで、かわいらしいアイコンや、ユニークな立体形状を数分で作成できると話題のAdobeが開発中の「Project Neo」。 まだbeta版ですが、使えるようでしたのでいじってみました! 早速なにか作ってみましょうか! UIはこのような感じ。 たしかにPhotoshopやIllustratorぽい画面。 でもインストール型ではなくてSaaSでした。

任意の画像の色塗りをしたりクオリティをアップさせたりするControlNetのエクステンション「MistoLine」を試してみる

MistoLineはあらゆるタイプの線画入力に適応できるSDXL-ControlNetモデルで、手描きのスケッチやControlNetの様々な線画プリプロセッサ、モデル生成アウトラインなどの線画に基づいて、高品質の画像 (短辺が 1024 ピクセル以上) を生成できるとのこと。 (MistoLineは線画プリプロセッサごとに異なる ControlNet モデルを選択する必要もないとのことでした。) 今回はこのMistoLineを試してみたいと思います。 🌐プロジェクトページ

text2appの時代に突入。ノーコードでアプリが作れるAIツール「Create.XYZ」がとにかくすごい!

今回試してみたCreate.XYZはプログラミングの知識がなくても、AIを利用して簡単にWebサイトやアプリケーションを作成できるツールです! ユーザーが自然言語で入力した指示(プロンプト)を元に、AIが自動的にコードを生成し、Webサイトやアプリの構造やデザインを構築してくれるという超優れもの。 下記からアクセス。UIもシンプルでわかりやすいです! まず登録が必要ですが、無料で結構遊べます。 Create.XYZの主な機能主な機能を4つにまとめました! プロンプト入

画像に照明効果を付与できるIC-LightをComfyUIで試してみる

ControlNetの開発者であるlllyasviel氏が画像に照明効果を付与できる「IC-Light」を作っていて、その性能のよさにXでも話題になったのでいじってみたいと思います! こちらもControlNet同様オープンソース。素晴らしい🥳 プロジェクトページ🌐プロジェクトページ類はこちら 早速いじってみるデモのUIはこんな感じでした。 ドレスを着たねこちゃんで試してみたのですが、とても良い感じに変換されました! 話題になっているだけあって使い方や特性を公開してい

任意の画像に対する質問になんでも答えてくれるミニマムオープンソースAIツール「moondream」を試してみる

moondreamとはMoondream は任意の画像に対して現実世界の質問に答えることができるコンピューター ビジョンモデル。オープンソースで配信されています。 現在のモデル市場からすると非常に小さく、パラメーターは 16 億しかないとのこと。 この小ささで、携帯電話などを含むさまざまなデバイス上でローカル実行できるようになっているのが売りみたいですね。 プロジェクトページ類🌐プロジェクトページ類はこちら。 試してみるmoondreamは超シンプルにアップロードした画像

テキストでサラッとUIコンポーネントを作ってくれる「OpenUI」をいじってみる

今回は「Open UI」というチャットベースでUIコンポーネント(画面上に表示するUIのパーツ)の構築ができるAIツールを試してみたいと思います。 最近はtext to appもだいぶ流行っています。最近はCreate XYZも大人気ですね! 🌐プロジェクトページはこちら ということで早速ローカルで起動! 無料にこだわる私は今回も無料のLLMを使いたく、Ollamaのllama3で設定しました。 Ollamaにllama3を入れた時の記事はこちら それでは早速いじ

Ollamaと連携してDifyでRAGチャットボットを完全無料で作って遊ぶ

前回すごいすごいと話題になってたDifyがオープンソースだと知りなんとなくインストールしてみました。今回はそれの続きです! RAGチャットボット制作にはchatGPTのAPIを使ってもよかったのですが、せっかくなのでここまで来たらLLMも無料のもので全部無料でやりたい欲がでてしまい少し調べるとOllamaとの連携でDifyができる記事見つかりそれでやってみることにしました。 ありがたや~! ということで記事通りにやってみた結果がこちら! 超かんたん😊すばらしい😊😊😊

OllamaでMeta社製のオープンLLM「Llama3」を試してみる

今回はこれまでで最も高性能なオープンに利用可能な LLMと名高いMeta Llama 3を試してみたいと思います。 🌐 Meta Llama 3の詳しい説明はこちら👇 Xでも話題です! Claude 3 SonnetやGPT-3.5等と比較しても優れていると評価されているとか…!! ということで早速このLlama3をOllamaで試してみたいと思います。 Ollamaを導入済みであればLlama3のインストールはこのコードを入れるだけ。 ollama run lla

ちまたで人気のローコードLLM アプリ開発プラットフォーム「Dify」をWindowsのローカルで動かす

いま大人気のローコードなAIシステムの開発環境のLLMツール「Dify」。 あまりに人気なもんだから流石に調べておかなきゃ〜と思ったらこれがまあすごい。 オールインワンのワークスペースで視覚的に生成型AIアプリを作成、何百もの独自/オープンソース LLM とのシームレスな統合ができちゃうという異常なツールです。 このDify、クラウドサービスだと200回分のGPT無料トライアルができるのでちょっといじってみたい!という人にも優しい設計。 しかし通常はプロで59ドルします。

Ollamaを使ってMicrosoftの軽量オープンソースLLMの「phi-3」をローカルで試してみる

ちまたでGPT3.5より優秀かも?と話題になっているMicrosoft製のオープンソースLLMの「phi-3」。これはスマートフォンのローカルでも動かせるくらいの軽さということで話題になってたのでちょっといじってみたいと思います! ちなみにPhi-3は2024年4月リリースしたてで、Phi-3-mini(3.8GB)、Phi-3-small(70GB)、Phi-3-midium(140GB)があって、Phi-3-miniはシリーズ最小モデルでしたのでそれを試してみようと思い

仮想着せ替えができるAIの「IDM-VTON」で遊んでみる

今回は任意のモデルに仮想試着が手軽にできるIDM-VTONを試してみようと思います! プロジェクトページ類はこちら。 デモのUIはこんな感じでした。 それでは早速モデルと洋服を用意して試してみます。 長袖でしたがちゃんと半袖の花柄Tシャツを着てくれました! 柄もほぼ破綻してないです。すごい。 つぎは柄シャツの男性にニットカーディガンをきせたいと思います。 いいですね、次はこの美しい女性にめちゃダサセーターを着てもらいたいと思います。 さて、これからはすこし難しく

元画像にマテリアルイメージ画像一枚で反映させるトレーニング不要のAI「ZeST」を試してみる

画像から画像へマテリアルを転送し、ゼロショットでトレーニング不要というAIの「ZeST」を今回は試してみたいと思います! 🌐プロジェクトページ類は以下。 それでは早速いじってみたいと思います! サンプルがあったので試しにそちらでテスト。 インプットしたかぼちゃに対してマテリアルがしっかりと反映されていますね! オリジナルの画像でも試してみたいと思います。 まずはマグカップと緑色の液体が入った瓶。 赤いバッグと黄色い帽子。 精度がめちゃ高いです!だいぶ思い通りにマ