見出し画像

WSL2でYOLO-Worldを試してみる

「強力なオープンボキャブラリー検出機能とグラウンディング機能を備えた次世代の YOLO 検出器」らしいYOLO-Worldを試してみます。

V100で52.0 FPSをたたき出す性能とのこと。これは楽しみです。

(注)Hugging Faceのリポジトリで試しています。GitHubのほう、requirements.txtがまだcommitされていないようでして。

使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Processor
・Mem: 64 GB
・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB)
・GPU: NVIDIA® GeForce RTX™ 4090 (24GB)
・OS: Ubuntu22.04 on WSL2(Windows 11)
です。


1. 準備

venvを構築して、

python3 -m venv yolo-world
cd $_
source bin/activate

リポジトリをクローンして、

git lfs install
git clone https://huggingface.co/spaces/stevengrove/YOLO-World
cd YOLO-World

パッケージのインストールです。

pip install -r requirements.txt

以前、onnxruntimeがGPUを認識しないということがあったので(詳細は以下の記事を参照)、

pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu

としておきます。

2. 試してみる

アプリの起動

以下のコマンドを実行です。

python app.py

Gradioが起動してきました。

このときのGPUメモリの使用量は1.2GB です。

試してみよう

では、M2UGenのアイコンを使って、試してみましょう。ボキャブラリーも適当に入力します(「headphone, sheep, player, tape」と指定)。

で、Submitボタンを押下すると・・・

をー、指定したボキャブラリー3つとも認識しましたよ。しかも速い。
このときのGPUメモリは 1.5 GB(+0.3GB)でした。

3. まとめ

GPUのメモリ、2GBもあればデモは動きます。

この記事が気に入ったらサポートをしてみませんか?