LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由

erukiti

2024年4月24日 15:30

もしあなたがLLMを使ったプロダクトを何かしら開発している、もしくは興味があるのなら、メモリを大量に積んだMac Studioの購入を検討すべきです。

対象読者

NVIDIAが絶対にいいという人はこの記事の対象読者ではありません。また、用途によって、ローカルマシンによるローカルLLMが向いてる・向いてないは明確にあるので、向いてない用途にしか使わない人も対象読者ではありません。あしからず。

また、この記事は別にNVIDIAをdisる意図はありません。みんな違っていい。NVIDIAもいい選択肢ですが、Mac Studioも悪くないですよ、と言いたい。

結論

LLMプロダクト開発において、今年はもはやローカルLLMを無視できない、してはいけない状況です。

LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意できるようなアジリティを持つのが望ましいですね。ここでいうマシンはNVIDIA GPUでもMacでもどちらでもかまいません。

Mac Studioはコスパがよく、かつノーメンテナンスでいけるため、いま買うならメモリ96GBか、メモリ192GBのどちらかのMac Studioが最善手です。

ローカルLLMが賢くなってこれまで出来なかったことができるようになるのでローカルLLMを無視できない
ローカルLLMを高速検証するためにローカルマシンがほしいよね
Mac Studioはいいぞ

NVIDIAを使いたい人は使えばいいと思います。それを否定するつもりはないです。素晴らしいですねNVIDIA。純利益率めちゃくちゃ高いですよね！

しっかりシステムを組めばNVIDIAがいいのはわかりますが、お手軽に大規模LLMを動かせられるのがMac Studioにおける最大のメリットです。ご理解ください。

補足記事

にて、LLMプロダクト開発がどういうものなのか？について書いてみました。なぜ Mac Studio なりローカルLLMなりを試してみると良いのか？の理解をする助けになるかもしれません。

前提

さて、この議論において、前提となる知識がいくつかあるので簡単に解説していきます。

前提1: LLMプロダクトの最前線はもはやGPT-4ではない

これは大前提なので、認識をそろえておきたいのですが、OpenAIのGPT-4はもはや、何も考えずに選ぶべき最先端モデルではありません。

タスクによりますが、AnthropicのClaude3 Opusの方が良いモデルです。これまでのGPT-4では出来なかったこともOpusでは出来るようになっています。特にロングコンテキストの扱いがとても強いです。そのため新たな事業の探索をする人なんかはOpusを、せめて検証くらいはしていることでしょう。

つまり、LLMプロダクト開発の最前線にいる人はここ二ヶ月ほどはみんなClaude3 OpusやHaikuについて大量の研究をすでにしているはずです。もし自分がそういう立場にありながらOpusやHaikuを一度も触っていなければ、あなたには二ヶ月分のビハインドがあります。

前提2: Apple Silicon Mac は UMA （Unified Memory Architecture）である

これは意外と知らない人がいるようなので説明します。

Apple Silicon つまりM1, M2, M3などを積んだMacはUMAというメモリアーキテクチャを持っており、UMAではCPUとGPUの間で自由なメモリ割り当てができます。つまり、96GBのM2 Macがあれば、96GB全部とは言わないが、かなり膨大なメモリをGPUに割り当てられます。

大規模なLLMを動かすためには膨大なGPUメモリが必須です。そのため、十分なメモリを積んでUMAによりGPUに割り当て可能なApple Silicon Macは賢いローカルLLMを動かすのにとても良い選択肢です。

AMDのAPUもUMAなので同じことができるかもしれないですが、あいにく筆者は最近のAMD状況を追いかけてないので、詳しい人いたら補足お願いします。たしかAMD APUにはGPUメモリの割り当て可能なサイズ上限があった気がします。

前提3: 今年になってローカルLLMが実用レベルになった

去年2023年はカタログスペックだけはGPT-4クラスというモデルはありましたが、大半はガッカリでしたね。去年のローカルLLMは実質GPT-3.5クラス（かそれ以下）でした。

でも、今年登場したCommand-R+ やLlama3:70b なんかは実運用においても本当にGPT-4に匹敵するかタスクによっては超える実性能です。

ということで、GPT-3.5クラスがGPT-4クラスになると何がうれしいのでしょうか？

圧倒的に賢いです。GPT-3.5とGPT-4には超えられない圧倒的な壁があります。言語操作能力も大きく違いますし、知識も違いますし、有能さも違います。指示に従ってくれる度合いも違います。何から何までも違います。

つまり、今年になって、ローカルLLMが実用的になったといえます。

前提4: LLMのAPIは金がかかりすぎる

GPT-4 APIを叩いてる人は、料金請求におびえていることでしょう。なんならAPI代金が高すぎて諦めた事業は多くないですか？そういう話を何度も何度も聞いてます。

そこで、頑張ってプロンプトをチューニングしてなんとかGPT-3.5やClaude3 Haikuを使っている人もいるでしょう。

さすがにもはやGPT-3.5を使っている人も少ないことでしょう。なぜならClaude3 Haikuは、GPT-3.5よりも賢く、安く、早いため完全上位互換だからです。

ただ、Haikuを使ってすら、お金は無視できません。本当にやりたいことを考えたときHaikuですらコストを無視できず、やれない事業もまだまだ多いでしょう。

ところが、ローカルLLMをローカルで動かす場合はコストをかなり無視できます。もちろんものすごく用途が限られるという大前提はあるものの、ローカルで動かす場合は、ハードウェアの購入費用と、ランニングコストのみです。

Mac Studioは、NVIDIA GPUと比較とすると、絶対的なGPU演算性能は劣りますが、発熱量（電力消費）が遙かに小さいという点は優位です。

24時間365日動かし続けても、API利用料金よりは遙かに小さいです。

LLMプロダクト開発のフェイズが変わりました

さて、ここまでの前提で述べた通り、GPT-4だけ触っていればいい時代は去年で終わりました。すでにClaude3 OpusやHaikuを使いこなしている人も多いでしょう。

さらに、ここ最近GPT-4クラスのローカルLLMが連発されていることから、より広範囲にモデルを検証しなければいけない時代になりました。

ローカルLLMであればAPIアクセスのコストを踏み倒せるため、ローカルLLMを使うことで「これまで出来なかったこと」ができるようにもなります。

前述の通り、二ヶ月前にLLMプロダクション開発は「Claudeを積極的に検証する必要がある」フェイズに入りました。

そしてここにきてさらにフェイズが進みました。もうおわかりですよね。「ローカルLLMを積極的に検証する必要がある」フェイズに入りました。

ローカルLLMを動かすことが大切になった

ということは、ローカルLLMを動かすためのマシンが必要です。

メモリ32GB/36GBあたりを積んでいるApple Silicon Macを使っている人は幸いです。
7Bや13B程度までの軽量なモデルなら、あなたのMacで動かすこともできるでしょう。しかも面倒なソフトウェアをインストールしなくても、Homebrewでollamaなりllama.cppなりをインストールするだけで簡単に動きます。素晴らしいですね！

ただ、メモリ16GBのMacだとそこらへんのモデルも多分厳しいです。動かせるとしたらPhi3の3.8B位の小さなモデルでしょうか。

Windowsマシンで十分なGPUメモリとNVIDIAを積んだマシンを持ってる人も幸いです。メモリサイズに応じたLLMを動かせられるはずです。

でも、本当に賢いモデルを動かしたい場合は、たとえばllama3:70BやCommand-R+などの大規模のモデルを動かす必要があるでしょう（正確に言うとCommand-R+は商用利用は禁止なので検証とか研究用途にのみ使って良いという制約はあります）

最低でもGPUメモリ64GB以上は見ておいた方が良いでしょう。恐らく今年の間に実用的な本当に賢いモデルは大抵はそれくらいの重さで登場し続けるはずです。

それくらいのメモリ量を考えたとき、NVIDIA GPUを使う場合は、コンシューマGPUなら複数台を乗せる必要がありますし、プロユースならA100なりH100なりの80GBのメモリを積んでるようなGPUが必要になるでしょう。

複数台のGPUやプロユースのGPUを動かす場合、筐体のサイズ、電源、筐体内部の構造、ハードウェアの相性、ケーブリング、冷却、それらを組み立てて、巨大なマシンの置き場所などと、とにかく考えなければいけないことが大量です。ソフトウェア面でもNVIDIAのデバイスドライバやCUDAのインストールなどセットアップがとてもしんどいですし、マルチGPUに対応したコードが必要です。つまり、やけくそにしんどいです。僕はもう二度とやりたくもありません。

そう考えたとき、実は最も安価で、かつ楽に動かせるのがMac Studioです。

M2 Mac Studioならメモリ96GBを45万円前後、192GBを90万円前後で購入できます。前提として書いたようにUMAなので、メモリの大半をGPUメモリとして割り当てられるため、大規模LLMをオンメモリで動かすことができます。M2 Mac StudioはM3の時よりもまだ円安が進行してなかったので少しお得です。ほんの少し。

難点は、今後近いうちにM3 Mac Studioや来年くらいにはメモリ512GB搭載可能なM4 Mac Studioが出ると言われています。買い時は難しいです。でもどうなるかわからない製品予想をするよりは、今それが必要かを考えるべきですね。

もちろん、値段とセットアップの大変さと電気代などを無視して良いならNVIDIAをガン積みするのは本気で良い選択です。Mac Studioより遙かに性能も高いでしょうし、CUDAがそのまま使えるので互換性も圧倒的に高いはずです。Macの場合はMLXが対応してくれないと厳しい、みたいなところはあります。

ガチならNVIDIA買えばいいと思うよ　
お手軽目指すならMac Studioがいいと思うよ

はい、NVIDIAが素晴らしいと思う人はNVIDIAを使ってください。それを否定するつもりはありません。お手軽で安価で低消費電力路線として、Mac Studioを推奨しているので、ガチな人はNVIDIA買えばいいと思います。頑張って！！

LLMプロダクトを開発する会社は、メンバーのためにLLMが動く環境を提供しなければならない

ローカルLLMなりを動かすとして、実際にプロダクトとしてモノにするためには、めちゃくちゃ膨大な実験を繰り返す必要があります。これを自費でやらせるのは無謀ですよね？

会社の費用として、マシンを購入するか、クラウドを借りるか、どちらかの必要がありますが、クラウドの場合、利用料で青天井になってしまうため、ケチりたくなるのが世の常です。でも、最先端の事業開発でケチって開発が遅れたりできることが制限されてしまえば、本末転倒ですよね。

ローカルマシンであればいくら使っても電気代が少し増える程度です。

この差は圧倒的です。

まとめ

今年はローカルLLMを使い始める年である。使い始めないと最先端LLMプロダクト開発では、大きなビハインドになる
ローカルLLMを最大限に研究や活用をするためにはローカルハードウェアを買う必要があり、その中でMac Studioは良い選択肢である
最先端LLMプロダクト開発において、Mac Studio（やNVIDIA）を変えないと競争力の面で厳しいかもしれませんね

ちなみに会社でLLMプロダクトをやってないけど、LLMプロダクト作りに興味がある人も是非自費でMac Studioを買ってみてください。僕は買いました！！（本当にローカルLLMがすごいのか確証がなくて、人柱したかったので）

ちなみに自費で買う場合、元々Macを持ってる人にとっては「新しいMacを買ったけど違いはメモリサイズだけだよなー」になるかもしれない、という難点があることはご報告申し上げます。