【ローカルLLM】Runpodで65Bモデルを動かす
LLamaベースのローカルLLMは、パラメータ数に応じて7B/13B/30B(33B)/65Bの4つのクラスがある。
65B(650億パラメータ)モデルを動かす場合、4ビット量子化しても40GBほどのGPUが必要。最近、AI動画生成を試す目的でクラウドGPUに課金したので、ついでに65Bのモデルも動かしてみた。
使ったのはRunpodというクラウドサービス。StableDiffusionユーザーで使っている人が時々いてるらしく、利用手順は例えばこちらの記事に詳しい。
G