マガジンのカバー画像

LLM

254
運営しているクリエイター

記事一覧

transformersでGGUFを読み込んでみよう!

こんにちは!クロガネです。
transformersでGGUFが読み込めるようになったのでメモがてらに読み込んでみます。

基本的には公式ドキュメントの通りです。
GGUF and interaction with Transformers (huggingface.co)

ちなみに、書いてある通り、ロード時にfp32にde-quantizeされるので特に軽くなりません。ただし、通常通り、tor

もっとみる

大規模言語モデル(LLM)やそのツールの情報整理2024.06版

今月に入って気が付いたのはPhindの無料版に利用回数制限があること。自身に聞かせると1日最大10回らしいが、ログインなしでは実際もっと少なかった。会員登録したり有料プランにすれば使えるだろう想像はつくけど、登録・有料は数を絞りたいし、何より会社のセキュリティールール的に面倒。Microsoft CopilotもEdgeのサイドバーにあるので便利でつい使っていたが、やはり回答精度が良いのは、、、と

もっとみる
Llama 3をReFTでファインチューニング

Llama 3をReFTでファインチューニング


Pythonライブラリpyreftより少ないパラメータ数で、より優れた性能を達成する可能性のあるファインチューニング方式「ReFT」(Representation Fine-Tuning)。
少ないファインチューニングパラメータで、より強力なパフォーマンスを発揮し、ファインチューニングの効率を向上させ、コスト削減を実現します。
そのPythonのライブラリが「pyreft」です。

上記リポジト

もっとみる
WSL2でLlama-3-ELYZA-JPを試してみる

WSL2でLlama-3-ELYZA-JPを試してみる

「『GPT-4』を上回る日本語性能のLLM」はLlama-3-ELYZA-JP-70Bらしいですが、そのファミリーである8Bモデルを試してみます。

8Bのモデルを今回使用します。

elyza/Llama-3-ELYZA-JP-8B

elyza/Llama-3-ELYZA-JP-8B-AWQ

elyza/Llama-3-ELYZA-JP-8B-GGUF

使用するPCはドスパラさんの「GAL

もっとみる
BitTransformer界隈に激震!ついに使える乗算フリーLLMが登場!?

BitTransformer界隈に激震!ついに使える乗算フリーLLMが登場!?

今年の3月ごろに話題になって、それから僕も実験してみたけどさっぱり学習できないBitTransformerに変わり、新たにMutmulFreeTransformerというものが出てきたようだと、NOGUCHI, Shojiさんが教えてくれたので試してみた

ただ、2.7Bモデルが量子化なしで4090で推論できてるとしたらそれだけですごい(というかMutMulFree自体が一種の量子化なのだが)。

もっとみる
「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました

「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました


本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。

もっとみる
Ragas で LangChainのRAG評価 を試す

Ragas で LangChainのRAG評価 を試す

「Ragas」でLangChainのRAG評価を試したので、まとめました。

1. Ragas「Ragas」は、「RAG」を評価するためのフレームワークです。

2. LangChainの準備LangChainの準備手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール!pip install langchain==0.2.0!pip install lan

もっとみる
LangChain で RAGのハイブリッド検索 を試す

LangChain で RAGのハイブリッド検索 を試す

「LangChain」でRAGのハイブリッド検索を試したので、まとめました。

1. RAGのハイブリッド検索「RAG」のハイブリッド検索は、複数の検索方法を組み合わせる手法で、主に「ベクトル検索」と「キーワード検索」を組み合わせて使います。

2. LangChainの準備LangChainの準備の手順は、次のとおりです。

(1) LangChainのパッケージのインストール。

# Lang

もっとみる
Self-RAGについて

Self-RAGについて

Self-RAG: 自己反省による検索強化生成Self-RAGは、検索強化生成(RAG)モデルのパフォーマンスを向上させるための新しいアプローチであり、大規模言語モデル(LLM)が情報の検索時期と取得情報の関連性および品質を評価する能力を持つことを可能にします。この記事では、従来のRAGの限界、Self-RAGの内部動作、そのトレーニングプロセス、実用的な応用、および産業用LLMに革命をもたらす可

もっとみる
WSL2でRWKV-infctx-trainer-LoRAを試してみる...

WSL2でRWKV-infctx-trainer-LoRAを試してみる...

「Infctx-LoRAに4ビット量子化モードを追加し、単一 24GB GPUで14Bモデルのトレーニングを可能にした」らしいRWKV-infctx-trainer-LoRAを試してみます。

24GBという文字列を見ると反応していますね。はい。

使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Proce

もっとみる
言語モデルの知識に対する削除・Unlearning・検出ーNLP2024参加報告③

言語モデルの知識に対する削除・Unlearning・検出ーNLP2024参加報告③

はじめまして、三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)でMUFG AI Studio(以下M-AIS)に所属する上野です。

3月11日~15日にかけて神戸で開催されたNLP2024 (言語処理学会第三十回年次大会)に参加してきました。JDDでは参加メンバーそれぞれが興味深かった発表についてまとめています。

本記事

もっとみる
【論文瞬読】アニメキャラクターとの会話を実現!ChatHaruhi: 大規模言語モデルによるキャラクターロールプレイ技術

【論文瞬読】アニメキャラクターとの会話を実現!ChatHaruhi: 大規模言語モデルによるキャラクターロールプレイ技術

こんにちは!株式会社AI Nestです。今日は、私がとても興味深いと感じた論文をご紹介したいと思います。タイトルは「ChatHaruhi: 大規模言語モデルを用いたアニメキャラクターの現実での再現」。アニメやマンガのキャラクターと会話ができたら楽しいと思ったことはありませんか?この論文は、その夢に一歩近づくための技術的なアプローチを提案しているのです。

チャットボットがキャラクターになりきる!?

もっとみる
ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化

ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化

大規模言語モデル(LLM)において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。

Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降の

もっとみる
複雑な表をLLMに理解させる

複雑な表をLLMに理解させる

はじめにGPT-4o、Gemeniのマルチモーダルが進化したとXで話題になっています、路線図が読み取れた、もえないごみはダメだとXで話題になっています

地域のごみ収集パンフレットを読み解かせようとするとうまくいかない

路線図の方はLLMの学習時に情報を持っていて、与えられた画像が路線図だと認識した可能性が高そうです。もえないごみの収集のようにLLMには未学習の内容を答えさせるにはどうしたら良い

もっとみる