ローカルLLM

【ローカルLLM】ELYZA-Llama-2を機械翻訳APIとして使ってみる

LLMの物語生成のテスト（趣味）に使うため「TinyStories」というデータセットを日本語訳したい…

Baku

9か月前

16

【ローカルLLM】text-generation-webUIのAPI機能を試す

ローカルLLMをAPI的に使う場合は、llama.cpp（GGUF/GGML）が手軽そう。ただ、大きなモデルでは…

Baku

9か月前

26

【ローカルLLM】GPTQ-for-LLaMAによるモデルの量子化を試す

Llama系モデルのGPTQ量子化＆推論に使用できるパッケージには、AutoGPTQの他に、GPTQ-for-LLaM…

Baku

9か月前

10

【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド

ローカルLLMの量子化フォーマットとしては、llama.cpp(GGUF/GGML)とGPTQの2種類が広く使われて…

Baku

10か月前

23

【ローカルLLM】Gradioとllama-cpp-pythonで日本語チャットボットを作る

先日の記事に続き、ウェブUI用のPythonライブラリ「gradio」を使って、簡単なチャットボットを…

Baku

10か月前

28

【ローカルLLM】日本語強めの多言語モデル「OpenBuddy-Llama2」を試す

「OpenBuddy-Llama2-13B」というモデルを試したところ、わりと日本語が良かった。英文和訳など…

Baku

10か月前

19

GGMLからGGUFへ：llama.cppのファイルフォーマット変更

RedditのローカルLLM板に以下の投稿があった。週明けに「llama.cpp」で使われているGGMLファイルが「GGUF」という新フォーマットに変更されるとのこと。フォーマット変更の要点 GGUFは、GGMLよりも拡張性の高いファイルフォーマット。「.bin」から「.gguf」になる。これにより、Llama以外の言語モデル（falcon, rwkv, bloom, etc.）がllama.cppでサポートできるようになる。サポートするモデルは段階的に増える予定。

【ローカルLLM】QLoRAで「Vicuna-v1.5」の日本語翻訳性能を向上させる

Llama-2(13B)の日本語ファインチューンで試行錯誤している。 fine_tuning521k-jaなどの日本語…

Baku

10か月前

12

【ローカルLLM】ネガティブ・プロンプトがtext-generation-webUIに実装される

「Classifier-Free Guidance (CFG)」が、Transformers&Exllamaに実装され、text-generation-we…

Baku

10か月前

17

【ローカルLLM】QLoRAの複雑なパラメータを（少しでも）整理する

前回の記事でも触れたとおり、QLoRAによるLlama-2のファインチューニングで試行錯誤している。…

Baku

11か月前

29

【llama2.c】15Mに満たない言語モデルで小さな物語を紡ぐ

OpenAIのAndrej Karpathy氏による「llama2.c」が話題になっていた。 CPU環境で「Llama 2 アー…

Baku

11か月前

13

【ローカルLLM】言語モデルに人格を与える

プロンプトを使って、言語モデルに特定のキャラクターとして喋らせる遊び方はよく見かける。「…

Baku

11か月前

14

【Llama-2】FreeWilly2は何がすごいのか？／LLMのベンチマークの整理

MetaによるLlama-2の公開を受け、ファインチューニングしたモデルが多数リリースされている。…

Baku

11か月前

4

【ローカルLLM】Llama 2のコンテキスト長を15Kトークン超に拡大する

せっかくなのでLlama 2を触ってみようと思っていたところ、以下のスレッドに「Exllamaで16Kのコンテキスト長が扱える」とあった。旧Llamaのコンテキスト窓の拡張は以前にも記事にしたが、Llama 2（本来は4000トークン上限）でも一応16,000トークンまで拡張できるそうなので、ともかく試してみた。 Llama-2-13Bで試す最初は手元の環境で試そうとしたが、16KコンテキストにするとVRAM容量が全然足りなさそう。クラウドGPUのRunpodでRT

#Llama

【ローカルLLM】ELYZA-Llama-2を機械翻訳APIとして使ってみる

【ローカルLLM】text-generation-webUIのAPI機能を試す

【ローカルLLM】GPTQ-for-LLaMAによるモデルの量子化を試す

【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド

【ローカルLLM】Gradioとllama-cpp-pythonで日本語チャットボットを作る

【ローカルLLM】日本語強めの多言語モデル「OpenBuddy-Llama2」を試す

GGMLからGGUFへ：llama.cppのファイルフォーマット変更

【ローカルLLM】QLoRAで「Vicuna-v1.5」の日本語翻訳性能を向上させる

【ローカルLLM】ネガティブ・プロンプトがtext-generation-webUIに実装される

【ローカルLLM】QLoRAの複雑なパラメータを（少しでも）整理する

【llama2.c】15Mに満たない言語モデルで小さな物語を紡ぐ

【ローカルLLM】言語モデルに人格を与える

【Llama-2】FreeWilly2は何がすごいのか？／LLMのベンチマークの整理

【ローカルLLM】Llama 2のコンテキスト長を15Kトークン超に拡大する