マガジンのカバー画像

CV

134
運営しているクリエイター

#AI

はじめてのキーポイント検出 by YOLO


やってみました。意外と楽しいのでシェア。

キーポイント検出とはキーポイント検出とは、画像や動画に現れる物体のランドマークを検出する行為です。ランドマークとは、間接、目、鼻など、物体中の重要部位のことです。

この技術を用いると、スポーツをしている人のフォーム分析や、料理をしている人の動きの特徴を分析することが可能となります。

YOLOv7 poseによるキーポイント検出の解説として、以下が分

もっとみる
【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈


はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう!

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる
【お試しコード付き①】Qwen2-VLで画像内容を解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう!

使い方ガイ

もっとみる
Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

ソフトウェアエンジニアのホーリーデイです。
今回は論文解説の記事です。

2024年は、AIの進化において大きなマイルストーンの年となりました。Qwen2-VLは、1年にわたる開発の成果としてリリースされ、画像や動画の理解、デバイス操作、そして多言語対応において画期的な進化を遂げたビジョン言語モデルです。

この記事では、Qwen2-VLの強化された機能、モデルアーキテクチャの更新点、そしてそのパ

もっとみる
OpenAI の Vision Fine-Tuning を試す

OpenAI の Vision Fine-Tuning を試す

「OpenAI」の「Vision Fine-Tuning」を試したのでまとめました。

1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。

ファ

もっとみる
OpenAI API の Vision Fine-Tuning の概要

OpenAI API の Vision Fine-Tuning の概要

以下の記事が面白かったので、簡単にまとめました。

1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによ

もっとみる
Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

1.Grounded-Segment-Anythingとは、テキスト入力に基づいてあらゆる物体を検出し、セグメンテーションを行うことができる視覚AIシステム。
このシステムは、Grounding DINOとSegment Anythingを組み合わせることで、オープンワールドのシナリオにおいて多様な視覚タスクを実行する能力を持っています。
ユーザーがテキストで対象物を指定すると、システムはその物体

もっとみる

画像認識 Grounding Dinoを試してみる

インストール方法注意: GrounDinoのインストールは難解かつエラーハンドリングも不十分であるため、以下のインストールステップを確実に行ってください。前後すると動作しない等の問題が発生します。

- Visual Studio with C++ support(cl)をインストールする

Visual Studio Installerをインストール、起動し、「Build Tools」インストー

もっとみる
テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

「Object Cutter」とはObject Cutterはテキストプロンプトだけで画像内のあらゆるオブジェクトに高品質の HD カットアウトを作成できます。手作業はまったく必要ないところがありがたいところ。
しかもオブジェクトは透明な背景で利用できるため、他の場所に貼り付けることができます。早速試してみたいと思います!

🌐プロジェクトページ💪さっそく試してみるそれでは早速試してみようとい

もっとみる
一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活!Depth Anything がバージョン 2 で復活しました。
現在の他の方法よりも 10 倍高速とのこと。すごい!
さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。

Depth Anything V2とは?Depth Anything V2はカメラ1台で撮影し

もっとみる
動画での深度推定AIの「ChronoDepth」を試してみる

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。
深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。
これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜
なお、モデルはStable Video Dif

もっとみる
綺麗&早い背景除去モデル「BiRefNet」を試してみる

綺麗&早い背景除去モデル「BiRefNet」を試してみる

BiRefNetとは色々お世話になることが多い背景除去モデル。BiRefNetはまさしく新しく出たモデルとのことでちょい話題になっていたので試してみようと思います。
1024x1024 画像の推論には 5.5G GPU メモリが必要とのこと。ありがたさの極み、MITライセンスでした。

🌐プロジェクトページ💪早速試してみるということでデモ画面がこちら。

で早速試したものがこちらです!

スラ

もっとみる
画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

EVF-SAM2とはEVF-SAM はSAM2 とテキスト プロンプトを使用してビデオ内のオブジェクトをセグメント化してくれるモデルです。
いままでのSAMではできなかったけど、EVF-SAM2リリースによって精度高く可能になったということで試してみました!

🌐プロジェクトページ類📸写真を試してみるデモでは写真とビデオ両方試せるようになっていました。

ということでまずは写真から試してみたの

もっとみる
Google Colab で SAM 2 を試す

Google Colab で SAM 2 を試す

「Google Colab」で「SAM 2」を試したのでまとめました。

1. SAM 2「SAM 2」(Segment Anything Model 2) は、画像や動画のセグメンテーションを行うためのAIモデルです。目的のオブジェクトを示す情報 (XY座標など) が与えられた場合に、オブジェクトマスクを予測します。

具体的に何ができるかは、以下のデモページが参考になります。

2. セットア

もっとみる