マガジンのカバー画像

CV

134
運営しているクリエイター

2023年5月の記事一覧

近未来感のあるEVAというAIリレーショナルデータベースシステムを使ってみた(コード付き)

近未来感のあるEVAというAIリレーショナルデータベースシステムを使ってみた(コード付き)

githubを見ていたら、動画や画像に対して、物体検出、感情分析、数字認識などをリレーショナルデータベースと同じような感覚で行うことができる近未来感のあるEVAというシステムを見つけました。

上記ページを見てみますと、Demoページがありますので、感覚的にどのようなことを検出しているのかがわかりますので、一度見てみることをお勧めします。

いくつかチュートリアルがありますので、興味を持ったチュー

もっとみる
画像認識AI YOLOの改良版「YOLO-NAS」登場

画像認識AI YOLOの改良版「YOLO-NAS」登場

YOLOの改良モデル YOLO-NASが公開されていたので、ひとまず静止画の推論をGoogleColabで試食してみました。最近LLMの開発のニュースばかり見ていましたが、画像認識AIも着々と性能向上しているようです。

なお、カスタムデータセットのファインチューニングはColab無料枠のメモリ容量では動作しないようなので、また機会があれば試してみようと思います。
https://colab.re

もっとみる
3D点群学習モデルPointPillarsを学習から評価まで行う

3D点群学習モデルPointPillarsを学習から評価まで行う

はじめにこんにちは。株式会社Rosso、AI部です。
近年、LiDARや、デプスセンサーから得られる3次元データを使用した、機械学習モデルの手法が発達しています。
本記事では、その中でも、3次元のデータ形式の一つである点群データを使用した物体検出モデル「PointPillars」についてご紹介します。
これらの点群データを用いた機械学習モデルは主に、自動運転に応用されています。
そこで、この記事で

もっとみる
end-to-endの文書画像認識モデルDonutをファインチューニングする

end-to-endの文書画像認識モデルDonutをファインチューニングする

DonutはOCRを使わないend-to-endの文書理解モデルです。
Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。

Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそ

もっとみる