画像認識AI YOLOの改良版「YOLO-NAS」登場
YOLOの改良モデル YOLO-NASが公開されていたので、ひとまず静止画の推論をGoogleColabで試食してみました。最近LLMの開発のニュースばかり見ていましたが、画像認識AIも着々と性能向上しているようです。
なお、カスタムデータセットのファインチューニングはColab無料枠のメモリ容量では動作しないようなので、また機会があれば試してみようと思います。
https://colab.research.google.com/drive/1q0RmeVRzLwRXW-h9dPFSOchwJkThUy6d#scrollTo=tQjCqyL9vCnQ
YOLO-NAS モデル概要
Deci-AI,Incが配布
独自の Neural Architecture Search エンジン (AutoNAC) を活用して、世界最高の精度とレイテンシのパフォーマンスを提供する新しいオブジェクト検出アーキテクチャ
YOLOv8 および YOLOv7 の同等のバリアントよりも 0.5 mAP( mean Average Precision ) 程度正確で、10 ~ 20% 高速
ONNX へのエクスポート用のメソッド等もあり
YOLO-NASライセンス条件下で使用許諾 https://github.com/Deci-AI/super-gradients/blob/master/LICENSE.YOLONAS.md
オープンソース モデルは、SuperGradients と呼ばれる Deci の PyTorch ベースのオープン ソース コンピューター ビジョン トレーニング ライブラリで、研究用 (非商用) の事前トレーニング済みの重みを利用可能
今までのYOLOのバージョンでも十分性能は良かった感があるのですが、それよりもさらに認識率、レイテンシともに数値が向上しているようなので、期待できますね。
Google Colabで試食
ライブラリーのインストール
!pip install super_gradients
ライブラリインストール後、ランタイムを再起動のこと
モデルのインスタンス化
import super_gradients
yolo_nas = super_gradients.training.models.get("yolo_nas_l", pretrained_weights="coco").cuda()
予測(静止画)
predictメソッドに以下を指定すると検出してバウンディングボックスをレンダリングして出力してくれます。
PIL Image
Numpy Image
Image fileへのパス
Video fileへのパス
イメージフォルダのパス
URL (イメージのみ)
閾値はconfで指定(例: conf=0.25)
!wget https://picsum.photos/id/441/1024/768.jpg
yolo_nas.predict("768.jpg").show()
yolo_nas.predict("https://picsum.photos/id/342/1024/768").show()
yolo_nas.predict("https://livecam.weathernews.jp/livecam615/livecam/org/410000150/2023-05-06/2023-05-06-00-06-51.jpg").show()
簡単!いい感じ。
予測(動画ファイル)
2023/05/07追記
自宅のゲーミングPC(RTX3090)のWSL環境でFHD動画ファイルの推論も試してみました。特に詰まることもなく静止画の場合と全く同じ作業で、さくっと変換できました。
note本文にはムービーを貼れないようなので、お見せできないのが残念ですが、渋谷スクランブル交差点の人込みや自動車を気持ち良いくらい認識してくれました。みなさんもお試しアレ。😃
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?