マガジンのカバー画像

CV

146
運営しているクリエイター

2024年9月の記事一覧

ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

こんにちは前回はサッカーの選手動画にモザイク処理をかけました。

今回は
ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

にチャレンジします。

ホモグラフィ変換とはホモグラフィ変換は、カメラの視点が斜めになっている場合に必要です。これは、画像上で見えるフィールドが平行四辺形や台形のように歪んでいる場合に、実際のサッカー場の2D平面座標に変換するために使われます。ホモグラフィ

もっとみる
PYTHONでサッカープレイヤーをトラッキングしてモザイク処理をする

PYTHONでサッカープレイヤーをトラッキングしてモザイク処理をする

こんにちは

今回はPYTHONで動画の一部を切り取り
サッカープレイヤーをトラッキングして
さらに人物にモザイクをかける処理をしてみます。

特定の12秒間の動画にして保存Google Driveのマウント

google.colabのdriveモジュールを使って、Google DriveをColabにマウントします。

from google.colab import drivedrive.m

もっとみる
【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!
今日は、AI技術を使ってカメラに映った人物が「父親」か「息子」かをリアルタイムで判別するシステムを作ってみました。AIや顔認識に興味がある方はもちろん、初心者の方にも分かりやすく解説していくので、読んでみてください!

今回作ったもの今回の目標は、USBカメラでリアルタイムに映像を取得し、その映像に映っている人物が「

もっとみる
【杜陵高・定時制】pythonで顔を検出する!(杜陵高校DX化戦略#07)

【杜陵高・定時制】pythonで顔を検出する!(杜陵高校DX化戦略#07)

杜陵高校DX化戦略の第7弾です。

3年次の宮田くんが、テキスト型プログラミング言語『python(パイソン)』の習得中です。
pythonは「情報Ⅰ」の授業でも触れたプログラミング言語です。以下のような特徴がある開発言語です。

pythonの主な用途は、Webアプリケーション開発、AI開発、科学技術計算、データ分析、事務作業の自動化など、多岐にわたる活用がされています。

プログラミングのビギ

もっとみる
現代のピカチュウは初代からどのくらい痩せたのか画像処理で検証してみた

現代のピカチュウは初代からどのくらい痩せたのか画像処理で検証してみた


初めに こんにちは,Umamusume22です.最近,ネットサーフィンをしている最中に初期のピカチュウの方が太っていて可愛いと言われているHPを見つけました[1].確かに初期のピカチュウ(見出し画像の左)と今のピカチュウ(見出し画像の右)を見比べても今のピカチュウの方が痩せていることが分かります.なんていうか昔のピカチュウはずんぐりむっくりしています (ひどい).ライザ〇プのようなbefore

もっとみる

wsl ubuntu 20.04 ORB_SLAM3環境構築

windows ubuntu LTSなどにORB_SLAM3を構築する手順
初心者を対象とします

ubuntuをwsl上にインストールします。やり方(hyper-v等の仮想環境)などの設定は他サイト手順を真似てください。

ubuntuの環境をupdate

Opencv(※c++等で使用するStandAlone)の物を構築します

SLAMの環境構築 SLAMにはいくつかProjectの種類が

もっとみる

Linux/Ubuntu OpenCV

ROSやSLAM等で直接ビルドしたOpenCVを使用する事はマストです
構築方法は各サイトごとにコマンドをぶん投げる程度で構いませんが
以下サイトが非常に有用なので記載致します

https://www.kkaneko.jp/tools/ubuntu/opencv.html

又は下記を参照

上記は他にもかゆい所に手が届くので他技術紹介等もご覧頂きたく存じます

さて、近年においては依然よりOp

もっとみる

はじめてのキーポイント検出 by YOLO


やってみました。意外と楽しいのでシェア。

キーポイント検出とはキーポイント検出とは、画像や動画に現れる物体のランドマークを検出する行為です。ランドマークとは、間接、目、鼻など、物体中の重要部位のことです。

この技術を用いると、スポーツをしている人のフォーム分析や、料理をしている人の動きの特徴を分析することが可能となります。

YOLOv7 poseによるキーポイント検出の解説として、以下が分

もっとみる
【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈


はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう!

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる
【お試しコード付き①】Qwen2-VLで画像内容を解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう!

使い方ガイ

もっとみる
Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

ソフトウェアエンジニアのホーリーデイです。
今回は論文解説の記事です。

2024年は、AIの進化において大きなマイルストーンの年となりました。Qwen2-VLは、1年にわたる開発の成果としてリリースされ、画像や動画の理解、デバイス操作、そして多言語対応において画期的な進化を遂げたビジョン言語モデルです。

この記事では、Qwen2-VLの強化された機能、モデルアーキテクチャの更新点、そしてそのパ

もっとみる
Depth Anything V1とV2の結果を見比べる

Depth Anything V1とV2の結果を見比べる


概要単眼深度推定モデルDepth Anything (以降はV1として記載します)とそのアップデート版にあたるDepth Anything V2を簡単に比較してみました。

V1に比べV2は輪郭がはっきりしており、細部も予測できるようになった印象を受けました。

推論の速度はほぼ同等で、GPU使用量と重みのファイルサイズは同じでした。

Depth Anything V2のSサイズモデルはApa

もっとみる
OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

こんにちは、 バイタリフィアジアのNiheiです。
普段は、生成AIを活用したプロダクト開発のアドバイザーとしてプロジェクトのサポートを行ったり、PM / PMO をしたりしています。

解決したいこと旅行先でふらふらと街を歩いていると、有名な雰囲気を醸している建造物や、歴史的に価値がありそうな何かがあったとします。

そのときに「これってなんだろう?」と思うことはないでしょうか?

実際にそう思

もっとみる
Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

1.Grounded-Segment-Anythingとは、テキスト入力に基づいてあらゆる物体を検出し、セグメンテーションを行うことができる視覚AIシステム。
このシステムは、Grounding DINOとSegment Anythingを組み合わせることで、オープンワールドのシナリオにおいて多様な視覚タスクを実行する能力を持っています。
ユーザーがテキストで対象物を指定すると、システムはその物体

もっとみる