![見出し画像](https://assets.st-note.com/production/uploads/images/134776114/rectangle_large_type_2_fa4c23fcdaf916dc4e2a8f44a6419c0f.jpeg?width=800)
ローカルで推論を始めるためのLLMをダウンロードする方法について
前提
Windows 11
Core i5 もしくは Ryzen 5程度のCPU
メモリ 16GB 以上
十分な空き容量 (※ダウンロードするモデルのサイズ * 3倍程度)
gitのインストールを完了している
Hugging Faceよりオフィシャルのモデルをダウンロードする
Sakana AIのEvoLLM-JP-A-v1-7Bを例にダウンロードを行う。まずは、HuggingFaceでモデルを検索して、Files and versionsをクリックする
clone repositoryをクリックすると、クローンする方法が書いてあるので実行する。インターネット回線にもよるが、他のことでもして気長にダウンロードの完了を待とう。(例:下り速度、100Mbpsで15分〜30分程度)
![](https://assets.st-note.com/img/1711118964573-7UhWj97Aw6.png?width=800)
# 一度だけでOK
git lfs install
# ダウンロードのコマンドはこちら
git clone https://huggingface.co/SakanaAI/EvoLLM-JP-A-v1-7B
llama.cppのggufモデルに変換する
llama.cppのディレクトリにSakanaAIというフォルダが置かれており、その直下にモデルファイルがあるとする
⚪︎ディレクトリ構造
llama.cpp (DIR)
convert.py (FILE)
SakanaAI (DIR)
git cloneしたファイル一式(FILES)
Poweshellやコマンドプロンプトなどを使用して実行する
(※既存のファイルやディレクトリはある程度入力してからtabキーを押せば補完してくれるので全て手打ちで入力する必要はない)
# 実行するとggml-model-f16.ggufが作成される
python .\convert.py .\SakanaAI\
# 実行するとmodel.gguf(Q4)が作成される
.\quantize.exe .\SakanaAI\ggml-model-f16.gguf .\SakanaAI\model.gguf q4_0
作成したggml-model-f16.gguf、またはmodel.ggufは、llama-cpp-pythonを介してGPU不要で使うことが出来るが、動作としては4bitでQuantizeしたmodel.ggufの方が動作は軽い
従って、推論するか動作確認を終えたらmodel.gguf以外のダウンロードしたファイルやggml-model-f16.gguf は削除してよい。使用しているハードディスクもしくはSSDの容量を取り戻そう
なお、Hugging Faceよりユーザーがコンバートしたモデル(gguf)をダウンロードする方法もある。自分でコンバートする必要はなくなるので手間は減るが、llama-cpp-pythonを使用する場合はllama.cppのセットアップが必要となるので手間は変わらないこと。また、データの安全性など含めてユーザーを信用できるか確認しないとならない。それ自体はオフィシャルも変わりはしないのだが、いずれにしても使用するときには自分の判断(責任)が重要となるカテゴリだと思っている
推論について
本件は推論するところまでは議論しないが、llama-cpp-pythonなどを活用して試すことが出来る
llama-cpp-pythonのインストールと推論(手間は掛かるがコードを自分で書きたい人向け)↓
自作した推論サーバ、modelフォルダにmodel.ggufを入れるだけで動作する(とりあえず、手軽に推論したい人向け、アプリケーション)↓
![](https://assets.st-note.com/img/1711120450182-2mjXDd5uLY.png?width=800)
おわり!