ローカルLLM

本

ローカルLLM関連は主にブログで更新しています。 https://sc-bakushu.hatenablog.com/

運営しているクリエイター: Baku

#llamacpp

【llama.cpp】CPUとRAM、どっちが重要？

llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、…

Baku

6か月前

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

2023/12/05：llama.cppが「Qwen」に対応したので試しました。「Qwen」は中国Alibabaグループ…

Baku

6か月前

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

2023/12/12：llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました（現時点でまだmerge…

Baku

6か月前

【ローカルLLM】llama.cppの「投機的サンプリング」を試す

llama.cppに「Speculative Sampling（投機的サンプリング）」という実験的な機能がマージされ…

Baku

9か月前

【ローカルLLM】Colabの標準GPUで「CodeLlama-34B-GGUF」を動かす

Metaがコーディング用の言語モデル「Code Llama」をリリースした。 7月に公開済みのLlama-2を…

Baku

10か月前

GGMLからGGUFへ：llama.cppのファイルフォーマット変更

RedditのローカルLLM板に以下の投稿があった。週明けに「llama.cpp」で使われているGGMLファイ…

Baku

10か月前

【ローカルLLM】llama.cppの量子化バリエーションを整理する

「llama.cpp」はMacBookなどでLlamaベースの大規模言語モデルを動かすことを目標とするアプリケーション。一応CPUのみでも実行でき、GPUの非力な環境でも動かしやすい。 llama.cppの量子化モデル llama.cpp(GGML)では量子化によるモデルサイズ縮小が進んでいる。例えば、下記のHuggingFaceのRepoを見ると、GGML量子化モデルは「q4_0, q4_1, q5_0, q5_1, q8_0, q2_K, q3_K_S, q3_K_M