日本語対応の大規模言語モデル（LLM）をローカル環境で試す：VRAM 8GBの挑戦

2024年4月22日 19:44

はじめに

通常、私は無料のChatGPT3.5を利用してテキスト生成を行っていますが、時にはローカル環境での作業が必要な場合もあります。しかし、私が使用しているデバイスのVRAMは8GBしかありません。そこで、4bit量子化したGPTQモデルを活用して、8GB VRAMのローカル環境で大規模言語モデル（LLM）を動作させる方法を模索しました。

方法

LLMの選定

8GB VRAMで実行できるLLMは、4bit量子化したGPTQモデルのパラメータ数が7Bか13Bに限られます。通常のモデル（今回はELYZA-japanese-Llama-2-13bをテストしました）では、VRAMメモリエラーが発生して実行できませんでした。GPTQモデルは、元のモデルから性能をなるべく落とさずに量子化する技術です。今回はTheBloke/Xwin-LM-13B-v0.2-GPTQというモデルを使用しました。量子化していない元のデータのベンチマークは以下の通りです。

ベンチマーク — LLMの性能を評価するAlpacaEvalによれば、ChatGPTよりも優れた結果が示されています。

モデルは以下で公開されています。

text-generation-webuiを導入している方は、いつものやり方でダウンロード可能です。お持ちでない方は、ターミナルからの操作になります。huggingface-hubというPythonライブラリを用いた方法で、以下を実行するだけです。

pip3 install huggingface-hub

mkdir Xwin-LM-13B-v0.2-GPTQ
huggingface-cli download TheBloke/Xwin-LM-13B-v0.2-GPTQ --local-dir Xwin-LM-13B-v0.2-GPTQ --local-dir-use-symlinks False

プログラムの実行

テストでは以下のプログラムを実行し、生成時間と内容を確認しました。

ここから先は

2,637字

¥ 300

期間限定 PayPay支払いすると抽選でお得に！

ログイン

鬱病と難病により離職しました。皆様のサポートが私の新たな一歩を支える力になります。よろしければご支援お願いいたします。