マガジンのカバー画像

ローカルLLM

28
ローカルLLM関連は主にブログで更新しています。 https://sc-bakushu.hatenablog.com/
運営しているクリエイター

#llamacpp

【llama.cpp】CPUとRAM、どっちが重要?

llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、…

Baku
6か月前
7

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

2023/12/05:llama.cppが「Qwen」に対応したので試しました。 「Qwen」は中国Alibabaグループ…

Baku
6か月前
7

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

2023/12/12:llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました(現時点でまだmerge…

Baku
6か月前
18

【ローカルLLM】llama.cppの「投機的サンプリング」を試す

llama.cppに「Speculative Sampling(投機的サンプリング)」という実験的な機能がマージされ…

Baku
9か月前
10

【ローカルLLM】Colabの標準GPUで「CodeLlama-34B-GGUF」を動かす

Metaがコーディング用の言語モデル「Code Llama」をリリースした。 7月に公開済みのLlama-2を…

Baku
10か月前
11

GGMLからGGUFへ:llama.cppのファイルフォーマット変更

RedditのローカルLLM板に以下の投稿があった。週明けに「llama.cpp」で使われているGGMLファイ…

Baku
10か月前
18

【ローカルLLM】llama.cppの量子化バリエーションを整理する

「llama.cpp」はMacBookなどでLlamaベースの大規模言語モデルを動かすことを目標とするアプリケーション。一応CPUのみでも実行でき、GPUの非力な環境でも動かしやすい。 llama.cppの量子化モデル llama.cpp(GGML)では量子化によるモデルサイズ縮小が進んでいる。例えば、下記のHuggingFaceのRepoを見ると、GGML量子化モデルは「q4_0, q4_1, q5_0, q5_1, q8_0, q2_K, q3_K_S, q3_K_M