見出し画像

Text Generation Web UI の利用の覚書メモ

あいかわらず、たまにローカルでLLMを動かしたい欲に駆られていまして、今回も少し触ったので覚書メモです。

さて、これもたまたまですが、Youtubeの下記の動画を見ました。

ローカルというかGoogle Colaboratoryを使ってですが、ざっくり全体像が分かるという感じで、あらためて参考になりました。

しかも丁寧に概要欄に、動画の目次があってスキップできますし、参考リンクも下記の通り役立つものばかり。

スライド :
https://docs.google.com/presentation/...
Google Colab ノートブック : https://colab.research.google.com/dri...
量子化モデルについて解説した記事 : https://note.com/bakushu/n/n1badaf7a91a0
日本語LLMリーダーボード(表示に少し時間がかかります) : https://wandb.ai/wandb/LLM_evaluation...

私にとってはとっても役立つリンクでした。

で、特に個人的に助かったのは、量子化モデルの解説記事ですね。

加えて、下記のドキュメントに飛ぶことができたので、こちらも参考になりました。

https://github.com/oobabooga/text-generation-webui/blob/main/docs/llama.cpp.md

Download the GGUF models directly into your text-generation-webui/models folder. It will be a single file.
Make sure its name ends in .gguf.
q4_K_M quantization is recommended.

上にも書いてあるのですが、text generation web uiで、llama.cppを使う時には、GGUFのq4_K_Mで示されている量子化されているモデルを使うことが良いらしいです。

現時点では、GGUFモデルを選ぶのが良いかと。(2023.9.21)

ちょっと時間がたったので、update.batを走らせたら、text generation web uiはアップデートしたようです。

今回は、前に記事にした、upstage/SOLAR-0-70b が気になったので、ローカルで走らないかなと思ってのトライでしたが…
結論、私のPCではモデルはロード成功しましたが、Helloに何分立っても返事が来ないのでダメでした。(Navidia 3090が1枚ついてるPCです。)

あと、autoで、GPUに自動で割り当てるというのを知ったり、
次の記事で、51まで割当てがどうも可能ということを知ったりです。

パラメータは下記記事に詳しく乗っているが、よくわからなければ「n-gpu-layersをVRAMの余裕ギリギリになるまで上げる」だけ覚えておけばなんとかなる。

上記の記事内より


どうも私の個人PCの3090環境では、7B、13B,30Bのモデルは量子化されているならそれなりに動くけれども、60Bとか70Bとかは無理っぽいということが分かりました。

英語しか自分は使わないぞというなら、GPT4ALLが一番気楽かもしれません。


#AI #AIとやってみた #prompt




この記事が参加している募集

この記事を最後までご覧いただき、ありがとうございます!もしも私の活動を応援していただけるなら、大変嬉しく思います。