大容量メモリGPUで生成AI (LLM) を楽しむ (GPU選定編)

2023年9月9日 15:16

僕の現在のメイン環境は、NVIDIA Quadra RTX 8000 (48GB) とNVIDIA Telsa P40 (24GB) である。

「Google Colabは使わないんですか？」
「……」

全くその通りだ。自分でも最初はGoogle Colabのお世話になるのが良いと思う。面倒なハードウェア構築という作業もなく、あっさりと生成AI (LLM) 本体そのものと取り組める。ある程度は無料枠で使えるのだから、Googleさんのご厚意にあやかるのが賢明だ。今や何でもシェアリングの時代だから、コーヒー・メーカーだけでなくてコンピューティング環境のお世話になるのが「時代の流れ」というものだ。

しかし……

時代に取り残された一発勝負の企画屋＆三文作家としては、なぜか最初に足元を固めたくなってしまう。それで10年くらい前のAIブームでも、なぜか生まれて初めてデスクトップPCというものに手を出して、最後は自分で部品を取り寄せて「自作PC」まで行き着いてしまった。

要するにおばかさんなのですな。

それはさておき、少し生成AI (LLM) のことを調べただけで、GPUメモリが致命的に重要であることが理解できた。GPUメモリだけで処理困難な場合はCPUメモリやSSD退避といった方法でモデル実行(生成)を可能にする支援ツールなども登場し始めているが、それはあくまで「GPUメモリが不足した時も処理継続させるための回避策」なのである。

結局のところ、GPUメモリ量(VRAM)が十分に確保できないと、何もできないという構図なのである。

さてそれではGPUメモリ(VRAM)量に着目して最新GPU価格を調べてみると… すごいねえ。皆さん、よくまあ70万円近いGPUを何枚も購入していると感心させられてしまう。

それでは今まで販売されたすべてのNVIDIA製GPUから手頃なものはないか… と探してみると、意外なものが引っかかった。

それが24GBメモリ版のNVIDIA Telsa P40だ。僕がAIブームの時に購入したGeForce 980TiやTITAN Xは、いずれもMaxwellアーキテクチャだ。その一世代あとがPascalアーキテクチャで、Volta… と続いていく。

ちなみにメモリだけで勝負するならば、NVIDIA Telsa M10という32GBメモリを搭載したGPUが存在する。

ただしこれ、残念ながら僕のGeForce 980TiやTITAN Xのように、古き良きMaxwellアーキテクチャだ。そしてNVIDIAのドライバ提供サイトを確認すると、24GB搭載のM40などは存在するものの、M10は見当たらない。

なお会社ではAIブームの頃にKeplerアーキテクチャのK40ナントカを購入したと記憶しているが、こちらはサポートされている。そう考えると、M10は何か事情があってサポート対象外となったのか、ドライバとしては同じだといった理由でM40あたりと見做して利用することになっているのかもしれない。

いずれにしても僕はNVIDIAのGPUのことは殆ど知らないので、リストに表示されていないモデルは避けた方が無難そうだ。それにeBayを覗いてみたら、NVIDIA Telsa P40 (24GB) は200ドルくらいで販売されていた。先のようにMaxwell - Pascal - Volta … と続いているので、Pascalの方が性能面では若干アップしているハズだ。13B(130億)パラメータ版LLMだと26GB以上のGPUメモリが必要ということになるので心惹かれるが、消費電力の225Wというところを見ても、かなり非力であることが感じられる。

ちなみに手元にあるTITAN XもMaxwellアーキテクチャ版のTITAN Xだけれども、TDPは250Wである。フルパワーだと発熱問題で耐えられないので、自作で簡易水冷式の冷却機構へ換装した代物だ。パッシブ冷却ならば250Wにしても大丈夫であるハズなのに、これはなんとなくNVIDIA自身がM10にリミッターをかけているっぽい気がする。

ど・ち・ら・に・し・よ・う・か・な・？

そうして僕は、NVIDIA Telsa P40を購入することにした。

(続く… のか？)

Ｐ．Ｓ．
hatakeyamaの公式っていうのがあって、現在のLLMではパラメータ数の2倍が必要GPUメモリ量(VRAM量)の目安量となる。量子化の場合は4bitだと16bit半精度演算を削減することにって、1/4に削減される。だから13B版は26GBメモリが必要だけれども、4bit版なら7GB程度あれば動かせるという算段になる。

この記事が気に入ったらサポートをしてみませんか？