CV - AI｜thomas

やってみました。意外と楽しいのでシェア。

キーポイント検出とはキーポイント検出とは、画像や動画に現れる物体のランドマークを検出する行為です。ランドマークとは、間接、目、鼻など、物体中の重要部位のことです。

この技術を用いると、スポーツをしている人のフォーム分析や、料理をしている人の動きの特徴を分析することが可能となります。

YOLOv7 poseによるキーポイント検出の解説として、以下が分

もっとみる

ホーリーデイ

2024年9月26日 22:40

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう！

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる

ホーリーデイ

2024年9月25日 21:42

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう！

使い方ガイ

もっとみる

ホーリーデイ

2024年9月24日 02:08

Qwen2-VLのリリース！進化したビジョン言語モデルの全貌

ソフトウェアエンジニアのホーリーデイです。
今回は論文解説の記事です。

2024年は、AIの進化において大きなマイルストーンの年となりました。Qwen2-VLは、1年にわたる開発の成果としてリリースされ、画像や動画の理解、デバイス操作、そして多言語対応において画期的な進化を遂げたビジョン言語モデルです。

この記事では、Qwen2-VLの強化された機能、モデルアーキテクチャの更新点、そしてそのパ

もっとみる

npaka

2024年10月3日 18:41

OpenAI の Vision Fine-Tuning を試す

「OpenAI」の「Vision Fine-Tuning」を試したのでまとめました。

1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。

ファ

もっとみる

npaka

2024年10月2日 09:45

OpenAI API の Vision Fine-Tuning の概要

以下の記事が面白かったので、簡単にまとめました。

1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによ

もっとみる

猩々博士

2024年9月21日 00:58

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

1.Grounded-Segment-Anythingとは、テキスト入力に基づいてあらゆる物体を検出し、セグメンテーションを行うことができる視覚AIシステム。
このシステムは、Grounding DINOとSegment Anythingを組み合わせることで、オープンワールドのシナリオにおいて多様な視覚タスクを実行する能力を持っています。
ユーザーがテキストで対象物を指定すると、システムはその物体

もっとみる

猩々博士

2024年9月19日 22:10

画像認識 Grounding Dinoを試してみる

インストール方法注意: GrounDinoのインストールは難解かつエラーハンドリングも不十分であるため、以下のインストールステップを確実に行ってください。前後すると動作しない等の問題が発生します。

- Visual Studio with C++ support(cl)をインストールする

Visual Studio Installerをインストール、起動し、「Build Tools」インストー

もっとみる

SUTO💡

2024年9月15日 13:09

テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

「Object Cutter」とはObject Cutterはテキストプロンプトだけで画像内のあらゆるオブジェクトに高品質の HD カットアウトを作成できます。手作業はまったく必要ないところがありがたいところ。
しかもオブジェクトは透明な背景で利用できるため、他の場所に貼り付けることができます。早速試してみたいと思います！

🌐プロジェクトページ💪さっそく試してみるそれでは早速試してみようとい

もっとみる

SUTO💡

2024年6月17日 10:39

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活！Depth Anything がバージョン 2 で復活しました。
現在の他の方法よりも 10 倍高速とのこと。すごい！
さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。

Depth Anything V2とは？Depth Anything V2はカメラ1台で撮影し

もっとみる

SUTO💡

2024年6月27日 16:38

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。
深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。
これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜
なお、モデルはStable Video Dif

もっとみる

SUTO💡

2024年8月20日 16:34

綺麗&早い背景除去モデル「BiRefNet」を試してみる

BiRefNetとは色々お世話になることが多い背景除去モデル。BiRefNetはまさしく新しく出たモデルとのことでちょい話題になっていたので試してみようと思います。
1024x1024 画像の推論には 5.5G GPU メモリが必要とのこと。ありがたさの極み、MITライセンスでした。

🌐プロジェクトページ💪早速試してみるということでデモ画面がこちら。

で早速試したものがこちらです！

スラ

もっとみる

SUTO💡

2024年8月22日 11:46

画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

EVF-SAM2とはEVF-SAM はSAM2 とテキストプロンプトを使用してビデオ内のオブジェクトをセグメント化してくれるモデルです。
いままでのSAMではできなかったけど、EVF-SAM2リリースによって精度高く可能になったということで試してみました！

🌐プロジェクトページ類📸写真を試してみるデモでは写真とビデオ両方試せるようになっていました。

ということでまずは写真から試してみたの

もっとみる

npaka

2024年8月16日 22:41

Google Colab で SAM 2 を試す

「Google Colab」で「SAM 2」を試したのでまとめました。

1. SAM 2「SAM 2」(Segment Anything Model 2) は、画像や動画のセグメンテーションを行うためのAIモデルです。目的のオブジェクトを示す情報 (XY座標など) が与えられた場合に、オブジェクトマスクを予測します。

具体的に何ができるかは、以下のデモページが参考になります。

2. セットア

もっとみる

CV

フォローしませんか？

#AI

はじめてのキーポイント検出 by YOLO

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

Qwen2-VLのリリース！進化したビジョン言語モデルの全貌

OpenAI の Vision Fine-Tuning を試す

OpenAI API の Vision Fine-Tuning の概要

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

画像認識 Grounding Dinoを試してみる

テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

動画での深度推定AIの「ChronoDepth」を試してみる

綺麗&早い背景除去モデル「BiRefNet」を試してみる

画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

Google Colab で SAM 2 を試す