マガジンのカバー画像

CV

113
運営しているクリエイター

#機械学習

YOLOv8の転移学習で漫画画像の人物検出をしてみる

YOLOv8の転移学習で漫画画像の人物検出をしてみる


概要機械学習に興味があった&私的な理由で漫画画像の人を検出する必要があったので、機械学習を使って漫画画像内の人物検出を作ってみました。
作ったアプリはこちら↓

※対応画像ファイルはjpg,png,gif

開発環境Python3
Macbook M1 MAX
Render

事前調査画像内の人物検出をするにあたり、YOLOを使うといいよという事をアドバイスいただいたのでこれを使うことに。
YO

もっとみる
Metaのセグメンテーションモデル「SAM2」の論文を読む

Metaのセグメンテーションモデル「SAM2」の論文を読む

この記事の概要Meta AIから発表されたSAM2の論文を解説しています。

SAM2とは動画に対するセグメンテーションモデルです。あるフレームでセグメントしたい物体を選択するとその物体を時間方向にセグメントしてくれます。

SAM2は自身も含むモデルでアノテーションを補助し、さらにモデルを改善していく仕組みで、動画セグメンテーション用の大規模なデーセットを構築しています。

結果、画像と動画の両

もっとみる
YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

2024 年 2 月に,物体検出モデル YOLO のバージョン 9 が発表されました。"Learning What You Want to Learn" という論文のサブタイトルに、開発者の意気込みがうかがえます。そんな論文を読んで、YOLOv9 が達成したブレイクスルーやその要因について考えてみます。

論文はこちら

実装についてはこちらの記事で書いています。興味がある方は合わせてご覧ください

もっとみる
ResNet 以降のCNNを利用してみる

ResNet 以降のCNNを利用してみる

ResNet (2015)開発者: マイクロソフト

特徴: Skip Connection(スキップ接続)を導入し、非常に深いネットワークの訓練を可能にしました。残差ブロックでは、畳込み層とSkip Connectionの組み合わせになっています。Residual Block(残差ブロック) を導入することで、結果的に層の深度の限界を押し上げることができ、精度向上を果たすことが出来ました。

もっとみる
画像の不正利用を検知するための機械学習アプローチ

画像の不正利用を検知するための機械学習アプローチ

マクアケ開発本部MLチームの濱川です。

この記事では、アタラシイものや体験の応援購入サービス「Makuake」で公開するプロジェクトにおいて、他のプロジェクトの画像が不正に利用されていないかを検知する仕組みについて紹介します。

具体的には、機械学習を活用した物体検出の仕組みと、抽出された物体(画像)から特徴量を抽出する方法に焦点を当てています。手順も含めて紹介しますので、機械学習にこれから取り

もっとみる

現場で使える機械学習活用 ~その④説明性があるAI (XAI) とその活用~

はじめにこのブログは、「現場で使える機械学習活用」をテーマにした4部作のうち4作目です。これらの4部作では「いかにして機械学習を使って現実世界の問題を解決するか」を軸に、陥りやすいポイントやコツを解説していきます。
第4回目は説明性があるAI ( Explanable AI : XAI) とその活用を見ていきます。

機械学習プロジェクトの流れと留意すべきこと

仮想プロジェクトを題材にしたプロジ

もっとみる
Computer Vision x Trasformerの最近の動向と見解

Computer Vision x Trasformerの最近の動向と見解

この記事についてこの記事では、Vision Transformer[1]登場以降のTransformer x Computer Visionの研究で、興味深い研究や洞察について述べていきます。この記事のテーマは以下の4つです。
• Transformerの急速な拡大と、その理由
• TransformerとCNNの視野や挙動の違い
• TransformerにSelf-Attentionは必須

もっとみる
SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

はじめに初めましてD2Cデータサイエンティストの吉井です。

普段はリサーチ関係の業務に携わっておりますが、データ分析で得られた知見を社外の研究会等で発表したり、社内向けに勉強会を開いたりなど、最新の研究に追いつけるよう日々努めております。

今回の寄稿の機会を受けて、最新のトレンドであるNeRFに関連する記事を執筆することに決めました。

…この続きは、エンジニアのための情報共有コミュニティ「Z

もっとみる
labelme2yoloの使い方~Segmentation編~

labelme2yoloの使い方~Segmentation編~

はじめにlabelme2yoloというpythonライブラリを発見

かなり新しいライブラリなので日本語記事が皆無

なら、私が書きましょう☆彡

動作環境Python:3.11.5

ultralytics:8.0.145

labelme:5.3.1

labelme2yolo:0.1.3 ★今回の主役!!

labelme2yoloの使い方labelme2yoloとは?

labelmeで作

もっとみる
自作データセットで物体検出モデル yolov9 を訓練する

自作データセットで物体検出モデル yolov9 を訓練する

先月末に、物体検出モデル「YOLO」のバージョン 9 が発表されたので、手元の PC (Ubuntu 22.04) で動かしてみました。
論文はこちら
Github はこちら

(2024.3.24 追記) 論文紹介を書きました。

※この投稿は 2024 年 3 月 3 日時点 (v0.1) の情報に基づいています。コードは日々更新されており、時間が経てばもう少しユーザーに親切な構成になるとは思

もっとみる
次世代のコンピュータビジョンツール: RoboFlow Supervisionの魅力を徹底解説!

次世代のコンピュータビジョンツール: RoboFlow Supervisionの魅力を徹底解説!

今回は、再利用可能なコンピュータビジョンツール「RoboFlow Supervision」をご紹介します。このツールは、データセットのロードから画像やビデオ上の検出の描画、そして特定のゾーン内の検出数のカウントまで、多岐にわたるコンピュータビジョンタスクをサポートしています。

RoboFlow Supervisionの主な特徴:シンプルなインストール: Python 3.8以上の環境で、数ステッ

もっとみる
第4号「コンピュータビジョンの深層学習ベース化」

第4号「コンピュータビジョンの深層学習ベース化」


Control Color: Multimodal Diffusion-based Interactive Image Colorization

画像に色のヒントを与えて着色するための拡散モデルです。

どんなもの?: 高度に制御可能な対話式画像着色手法であり、無条件および条件付き画像着色を支援し、色溢れや不正確な着色を解決します。

先行研究と比べてどこがすごい?: 複数の条件(テキストプロ

もっとみる
特別号「構成画像検索(Composed Image Retrieval)」

特別号「構成画像検索(Composed Image Retrieval)」


はじめに: 構成画像検索とは構成画像検索とは、画像とクエリ(テキスト)を使って画像を検索することです。例えば、魚の画像と「折り紙」というワードで画像を検索すれば入力した魚に近い折り紙の画像を検索できます。
従来のよくある全部の画像の埋め込みベクトルを事前に計算しコサイン類似度で画像検索するというやり方だと、入力画像との類似画像しか検索できないという問題やクエリを追加して柔軟に検索することができな

もっとみる
end-to-endの文書画像認識モデルDonutをファインチューニングする

end-to-endの文書画像認識モデルDonutをファインチューニングする

DonutはOCRを使わないend-to-endの文書理解モデルです。
Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。

Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそ

もっとみる