WSL2でYOLO-Worldを試してみる
「強力なオープンボキャブラリー検出機能とグラウンディング機能を備えた次世代の YOLO 検出器」らしいYOLO-Worldを試してみます。
V100で52.0 FPSをたたき出す性能とのこと。これは楽しみです。
(注)Hugging Faceのリポジトリで試しています。GitHubのほう、requirements.txtがまだcommitされていないようでして。
使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Processor
・Mem: 64 GB
・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB)・GPU: NVIDIA® GeForce RTX™ 4090 (24GB)
・OS: Ubuntu22.04 on WSL2(Windows 11)
です。
1. 準備
venvを構築して、
python3 -m venv yolo-world
cd $_
source bin/activate
リポジトリをクローンして、
git lfs install
git clone https://huggingface.co/spaces/stevengrove/YOLO-World
cd YOLO-World
パッケージのインストールです。
pip install -r requirements.txt
以前、onnxruntimeがGPUを認識しないということがあったので(詳細は以下の記事を参照)、
pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu
としておきます。
2. 試してみる
アプリの起動
以下のコマンドを実行です。
python app.py
Gradioが起動してきました。
このときのGPUメモリの使用量は1.2GB です。
試してみよう
では、M2UGenのアイコンを使って、試してみましょう。ボキャブラリーも適当に入力します(「headphone, sheep, player, tape」と指定)。
で、Submitボタンを押下すると・・・
をー、指定したボキャブラリー3つとも認識しましたよ。しかも速い。
このときのGPUメモリは 1.5 GB(+0.3GB)でした。
3. まとめ
GPUのメモリ、2GBもあればデモは動きます。
この記事が気に入ったらサポートをしてみませんか?