ローカルLLM

【ローカルLLM】GPTQ-for-LLaMAによるモデルの量子化を試す

Llama系モデルのGPTQ量子化＆推論に使用できるパッケージには、AutoGPTQの他に、GPTQ-for-LLaM…

Baku

10か月前

10

【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド

ローカルLLMの量子化フォーマットとしては、llama.cpp(GGUF/GGML)とGPTQの2種類が広く使われて…

Baku

10か月前

24

【ローカルLLM】Gradioとllama-cpp-pythonで日本語チャットボットを作る

先日の記事に続き、ウェブUI用のPythonライブラリ「gradio」を使って、簡単なチャットボットを…

Baku

10か月前

28

【ローカルLLM】日本語強めの多言語モデル「OpenBuddy-Llama2」を試す

「OpenBuddy-Llama2-13B」というモデルを試したところ、わりと日本語が良かった。英文和訳など…

Baku

10か月前

19

【ローカルLLM】Colabの標準GPUで「CodeLlama-34B-GGUF」を動かす

Metaがコーディング用の言語モデル「Code Llama」をリリースした。 7月に公開済みのLlama-2を…

Baku

10か月前

11

【ローカルLLM】Gradio+CTranslate2で日本語LLMのチャットUIをつくる

夏になって立て続けに日本語LLMが公開されたので、遅ればせながらいくつか試している。生成A…

Baku

10か月前

17

GGMLからGGUFへ：llama.cppのファイルフォーマット変更

RedditのローカルLLM板に以下の投稿があった。週明けに「llama.cpp」で使われているGGMLファイルが「GGUF」という新フォーマットに変更されるとのこと。フォーマット変更の要点 GGUFは、GGMLよりも拡張性の高いファイルフォーマット。「.bin」から「.gguf」になる。これにより、Llama以外の言語モデル（falcon, rwkv, bloom, etc.）がllama.cppでサポートできるようになる。サポートするモデルは段階的に増える予定。