マガジンのカバー画像

Local LLM

17
運営しているクリエイター

#zephyr

AirLLM:405BのmodelをLocalで動かすと

AirLLM:405BのmodelをLocalで動かすと

去年の年末頃、比較的大きなLLMのmodelでも各層毎にGPUで計算することで少ないGPUメモリでも動かすことができるAirLLMが公開されました。

その方がLlama 3.1 405B modelを8GB VRAM以下で動作させていたので、試してみました。

概要Llama-3.1-405B

言わずもがな、Meta社の現在最高峰のオープンソース、多言語対応、128Kと長いコンテキスト長のmo

もっとみる
DSPy+CoT, RAG series 4/n

DSPy+CoT, RAG series 4/n

RAGシリーズ4回目。

今回は自動でprompt最適化してくれるDSPyを用いたRAGです。

Prompt Engineeringが面倒だと感じる私の助けになってくれるかもしれません。今回は推論タスクで効果を発揮するCoT(Chain-of-Thought)を用います。

0. 環境

1. HotpotQA Dataset

今回はWikipediaの質問応答DatasetのHotpotQA

もっとみる
Starling-RM-7B-alphaとZephyr-7B-betaを簡単に比較

Starling-RM-7B-alphaとZephyr-7B-betaを簡単に比較

今更ですが、Starling-RM-7B-alphaを試してみました。本モデルの詳細は下記でまとめらています。

ベンチマーク

MT Bench, AlpacaEval, MMLUのいずれでもZephyr-7B-betaを上回ります。私個人としてはAlpacaEvalのscoreが高い方が使い勝手が良いように感じています。

0. 環境

1. arXivから論文取得

"super resol

もっとみる
[UI]Chainlitで専門家AIと会話する_Local-LLM+Document Summary Index

[UI]Chainlitで専門家AIと会話する_Local-LLM+Document Summary Index

LLMのUIにはtext-generation-webuiをはじめ様々なものがありますが、今回はChainlit(GitHub)に下記の記事と同じ方法で作成したindexを使ってLocal-LLMに回答してもらうChat-UIを作成します。

クラウドや高性能PCで作成したindexをそれほど高性能でない別のPC内で活用することができます。ほかのユーザーに使用してもらう際にUIはユーザーの認知容易

もっとみる
Local PCに専門家を作る_Local-LLM+Document Summary Index

Local PCに専門家を作る_Local-LLM+Document Summary Index

下記の通常のRAGに対し、LlamaindexのDocument Summary Indexを用いた事例です。

検索に要約文を用い、検索速度をあげつつ、要約文に質問例を追加することでembeddingでの検索の精度をあげることができます。

今回も前回同様に、専門知識が論文や特許になっているような、所謂「研究者」のような専門家チャットAIの実装を試みます。

0. 環境

1. 知識の収集・格納

もっとみる
Local-LLM+LongLLMLingua, RAG series 3/n

Local-LLM+LongLLMLingua, RAG series 3/n

RAGシリーズ3回目。

今回はLlamaindexでLongLLMLinguaを用いたRAGです。
通常のRAGではpromptが長くなりがちで、計算コストが嵩む(ChatGPTなどを使用する場合は費用が嵩む)、性能が低下する(ex.:“Lost in the middle”)、などの課題が生じます。それらの課題を、適切にpromptを圧縮するLLMLinguaとRerankingなどを組み合わ

もっとみる
Local-LLM+Knowledge Graph+RAG, RAG series 2/n

Local-LLM+Knowledge Graph+RAG, RAG series 2/n

RAG(検索拡張生成) システムシリーズ2回目。

今回はLlamaindexでKnowledge Graph(KG)を用いたRAGです。
KGは似た用語でKnowledge Base(KB), Concept Graph(CG)などがありますが、ざっくりと知識をグラフにしたものです。その利点はデータの管理が楽で、新しい知識を追加し続けることができ、情報のソース等のメタデータも取り込むことが可能で

もっとみる
Local-LLM+RAG, 1/n

Local-LLM+RAG, 1/n

特定の情報を基にLLMに応答させる手法として、言わずとも知れたRAG(検索拡張生成) システムですが、関連のテクニックが溢れて大変なので、メモがてら残していきます。

今回はLlamaIndexで子chunksを使ったRecursive Retriever + Node Referencesと検索でhitしたtextの前後のtextも参照するNode Sentence Windowです。

RAG

もっとみる
Local-LLMで特許文献整理

Local-LLMで特許文献整理

Bertopicで特許文献の整理をしてみました。
分類するため、要約にZephyr-7B-βを、要約文のembeddingにbge-large-en-v1.5を使用しました。

対象は、最近また騒がしい半導体を勉強がてら使用しました。

0. 環境

OS:Windows
CPU:Intel(R) Core i9-13900KF
RAM:128GB
GPU:RTX 4090

1. 特許情報取得

もっとみる
Zephyr-7B-βを試した

Zephyr-7B-βを試した

Zephyr-7B-βをαと比較しました。

0. 環境

OS:Windows
CPU:Intel(R) Core i9-13900KF
RAM:128GB
GPU:RTX 4090

1. Arxivの"NLP"論文のabstractを要約

Arxivの"NLP"最新論文の情報を収集

import arxivarxiv_query = "NLP"search = arxiv.Search(

もっとみる