CV｜thomas

2024年8月17日 23:06

動画も高精度に！ComfyUIとSegment Anything Model 2（SAM 2）でセグメンテーションをマスターしよう

コンピュータビジョンの世界に革命をもたらした画像セグメンテーションモデル「Segment Anything Model（SAM）」。その登場から約1年、METAが新たな進化を遂げた「Segment Anything Model 2（SAM 2）」を発表しました。画像だけでなく動画にも対応したこの最新モデル、使い方によってはかなり実用的になり得るでしょう。
本記事では、SAM 2の特徴や機能、そして

もっとみる

Yasu Shiina

2024年8月26日 11:13

Segment Anything Model2(SAM2),Meta AIを使ってみた

先日紹介しましたSAMは、画像認識のモデルでした。
2024年7月29日に発表がありましたSAM2は、動画と画像の両方を認識できるモデルになります。

SAM2のデモサイトのリンクは↓の通りです。

SAMとの違い
SAMは画像認識だけだったので、SAM2は動画も認識できるようになりました。
以下の画像の通り、動画で流れている途中で分類したい箇所を選択して再送すると、その後も分類された状態になりま

もっとみる

bokubo

2024年8月21日 10:50

YOLOv8の転移学習で漫画画像の人物検出をしてみる

概要機械学習に興味があった＆私的な理由で漫画画像の人を検出する必要があったので、機械学習を使って漫画画像内の人物検出を作ってみました。
作ったアプリはこちら↓

※対応画像ファイルはjpg,png,gif

開発環境Python3
Macbook M1 MAX
Render

事前調査画像内の人物検出をするにあたり、YOLOを使うといいよという事をアドバイスいただいたのでこれを使うことに。
YO

もっとみる

npaka

2024年8月16日 22:41

Google Colab で SAM 2 を試す

「Google Colab」で「SAM 2」を試したのでまとめました。

1. SAM 2「SAM 2」(Segment Anything Model 2) は、画像や動画のセグメンテーションを行うためのAIモデルです。目的のオブジェクトを示す情報 (XY座標など) が与えられた場合に、オブジェクトマスクを予測します。

具体的に何ができるかは、以下のデモページが参考になります。

2. セットア

もっとみる

npaka

2024年8月16日 11:45

Google Colab で Florence 2 を試す

「Google Colab」で「Florence 2」を試したので、まとめました。

1. Florence 2「Florence 2」は、Microsoftが開発した軽量なVLM (Vision Language Model) です。キャプション、物体検出、OCRなど、さまざまなビジョンタスクを単一モデルで処理することができます。

2. Colabでの実行Colabでのセットアップ手順は、次の

もっとみる

情報処理学会・学会誌「情報処理」

2024年8月15日 09:47

多角形カーネルに対応した統計的画像フィルタアルゴリズムの高速化

2023年度研究会推薦博士論文速報
［コンピュータグラフィックスとビジュアル情報学研究会］

諸戸雄治
（（株）Preferred Networks　Software Engineer／（株）オー・エル・エム・デジタル　研究開発部門 Visiting Researcher／情報オリンピック日本委員会　育成強化部会）

【背景】画像や動画の共有サイトの普及により，映像や画像を編集することが一般的にな

もっとみる

情報処理学会・学会誌「情報処理」

2024年8月15日 09:26

Label-Efficient Microscopy Image Recognition with Cell Image Characteristics

2023年度研究会推薦博士論文速報
［コンピュータビジョンとイメージメディア研究会］

西村和也
（国立がん研究センター研究所　計算生命科学ユニット　特任研究員）

邦訳：細胞画像特性を用いたラベル効率の良い顕微鏡画像認識

【背景】深層学習により顕微鏡画像の認識が高精度に実現可能になった
【問題】深層学習には撮影環境毎に学習データが必要である
【貢献】細胞画像の特性を活用することにより学習デー

もっとみる

情報処理学会・学会誌「情報処理」

2024年8月15日 09:25

深層学習を用いた偏りのあるデータに対して頑健な学習手法に関する研究

2023年度研究会推薦博士論文速報
［コンピュータビジョンとイメージメディア研究会］

加藤聡太
（（株）センスタイムジャパン　リサーチャー）

【背景】実世界のデータには多くの場合偏りが含まれる
【問題】データの偏りによって予測精度が大幅に下がる傾向にある
【貢献】さまざまな偏りに対して頑健な，深層学習の新たな学習手法を提案した

　近年，画像内に写っている物体を理解する画像認識の分野では，A

もっとみる

情報処理学会・学会誌「情報処理」

2024年8月15日 08:39

高解像度空撮画像・映像を用いた建物被害検出モデルの開発

2023年度研究会推薦博士論文速報
［情報システムと社会環境研究会］

藤田翔乃
（国立研究開発法人防災科学技術研究所研究員）

【背景】地震災害時には多くの建物に被害が生じる
【問題】災害のデータは少ないためモデル構築が困難である
【貢献】災害対応に有効な建物被害検出モデルを開発した

　地震災害時には，建物の被害情報は市町村の役所などの災害対応業務にとって重要な情報である．日本では，過去の

もっとみる

Tatsuya Shirakawa

2024年8月14日 16:56

AlbumentationsのMotionBlurは画像をシフトする

自然画像を対象とした物体検出モデルを学習していてData AugmentationのためにAlbumentationsを使っていたのですが、AlbumentationsのMotionBlurが画像をシフトする事に気づかず、Bounding Boxの真値とずれてハマったので本記事を書きました。

Albumentationsは画像をシフトするサンプルとして以下の画像で説明します。

Bounding

もっとみる

M0T0

2024年8月12日 23:43

Metaのセグメンテーションモデル「SAM2」の論文を読む

この記事の概要Meta AIから発表されたSAM2の論文を解説しています。

SAM2とは動画に対するセグメンテーションモデルです。あるフレームでセグメントしたい物体を選択するとその物体を時間方向にセグメントしてくれます。

SAM2は自身も含むモデルでアノテーションを補助し、さらにモデルを改善していく仕組みで、動画セグメンテーション用の大規模なデーセットを構築しています。

結果、画像と動画の両

もっとみる

J.N

2024年7月17日 12:02

AIを用いて橋梁床版の画像からひび割れ検出を行ってみた

※本ブログはAidemy Premiumのカリキュラム「AI アプリ開発講座」の一環で、受講修了条件を満たすために公開しています。

成果物の橋梁床版ひび割れ検出アプリは下記です。

https://aidemy-final-output-jn.onrender.com/

0. はじめに　～この題材を選んだきっかけ～皆さま初めまして。著者は今ソフトウェアベンダーの技術営業として働いています。最近

もっとみる

Maki@Sunwood.ai.labs

2024年8月10日 02:48

YOLOv8とUltralyticsを使用したオブジェクトカウンティング

はじめにUltralyticsとは

Ultralyticsは、最先端の深層学習モデルと革新的なコンピュータビジョンソリューションを提供する企業です。彼らが開発したYOLOv8は、リアルタイムの物体検出と画像セグメンテーションにおいて、高速性と精度を両立した最新のモデルです。Ultralyticsは、これらの技術を簡単に利用できるPythonライブラリも提供しており、研究者や開発者が最新の AI

もっとみる

ColdBrew

2024年8月3日 16:10

YOLO-NAS物体検出モデルのonnx、Torchscript、TensorRT処理速度評価：EC2編

1. はじめに　本記事では物体検出モデルYOLO-NASを用いて推論処理を行った際の「1フレーム処理速度」とそれから推定される「フレーム処理速度」の評価を行う。
　YOLO-NASはPytorchのモデル形式であるが、本記事ではOnnx、Torchscript、TensorRTのモデルに変換して上記指標を比較して、最もフレーム処理速度の速いモデル形式を明らかにした。

2. YOLO-NASYO

もっとみる

CV

フォローしませんか？

記事一覧