LLM｜thomas

こんにちは！クロガネです。
transformersでGGUFが読み込めるようになったのでメモがてらに読み込んでみます。

基本的には公式ドキュメントの通りです。
GGUF and interaction with Transformers (huggingface.co)

ちなみに、書いてある通り、ロード時にfp32にde-quantizeされるので特に軽くなりません。ただし、通常通り、tor

もっとみる

くすぐったがり

2024年6月17日 00:18

大規模言語モデル(LLM)やそのツールの情報整理2024.06版

今月に入って気が付いたのはPhindの無料版に利用回数制限があること。自身に聞かせると1日最大10回らしいが、ログインなしでは実際もっと少なかった。会員登録したり有料プランにすれば使えるだろう想像はつくけど、登録・有料は数を絞りたいし、何より会社のセキュリティールール的に面倒。Microsoft CopilotもEdgeのサイドバーにあるので便利でつい使っていたが、やはり回答精度が良いのは、、、と

もっとみる

owlet_notes99.9

2024年6月23日 19:13

Llama 3をReFTでファインチューニング

Pythonライブラリpyreftより少ないパラメータ数で、より優れた性能を達成する可能性のあるファインチューニング方式「ReFT」（Representation Fine-Tuning）。
少ないファインチューニングパラメータで、より強力なパフォーマンスを発揮し、ファインチューニングの効率を向上させ、コスト削減を実現します。
そのPythonのライブラリが「pyreft」です。

上記リポジト

もっとみる

noguchi-shoji

2024年6月26日 21:10

WSL2でLlama-3-ELYZA-JPを試してみる

「『GPT-4』を上回る日本語性能のLLM」はLlama-3-ELYZA-JP-70Bらしいですが、そのファミリーである8Bモデルを試してみます。

8Bのモデルを今回使用します。

elyza/Llama-3-ELYZA-JP-8B

elyza/Llama-3-ELYZA-JP-8B-AWQ

elyza/Llama-3-ELYZA-JP-8B-GGUF

使用するPCはドスパラさんの「GAL

もっとみる

shi3z

2024年6月26日 11:30

BitTransformer界隈に激震!ついに使える乗算フリーLLMが登場!?

今年の3月ごろに話題になって、それから僕も実験してみたけどさっぱり学習できないBitTransformerに変わり、新たにMutmulFreeTransformerというものが出てきたようだと、NOGUCHI, Shojiさんが教えてくれたので試してみた

ただ、2.7Bモデルが量子化なしで4090で推論できてるとしたらそれだけですごい(というかMutMulFree自体が一種の量子化なのだが)。

もっとみる

ELYZA, Inc.

2024年6月26日 12:08

「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました

本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。

■

もっとみる

npaka

2024年6月20日 17:02

Ragas で LangChainのRAG評価を試す

「Ragas」でLangChainのRAG評価を試したので、まとめました。

1. Ragas「Ragas」は、「RAG」を評価するためのフレームワークです。

2. LangChainの準備LangChainの準備手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール!pip install langchain==0.2.0!pip install lan

もっとみる

npaka

2024年6月19日 21:34

LangChain で RAGのハイブリッド検索を試す

「LangChain」でRAGのハイブリッド検索を試したので、まとめました。

1. RAGのハイブリッド検索「RAG」のハイブリッド検索は、複数の検索方法を組み合わせる手法で、主に「ベクトル検索」と「キーワード検索」を組み合わせて使います。

2. LangChainの準備LangChainの準備の手順は、次のとおりです。

(1) LangChainのパッケージのインストール。

# Lang

もっとみる

鈴木いっぺい (Ippei Suzuki)

2024年6月13日 08:17

Self-RAGについて

Self-RAG: 自己反省による検索強化生成Self-RAGは、検索強化生成（RAG）モデルのパフォーマンスを向上させるための新しいアプローチであり、大規模言語モデル（LLM）が情報の検索時期と取得情報の関連性および品質を評価する能力を持つことを可能にします。この記事では、従来のRAGの限界、Self-RAGの内部動作、そのトレーニングプロセス、実用的な応用、および産業用LLMに革命をもたらす可

もっとみる

noguchi-shoji

2024年6月1日 00:46

WSL2でRWKV-infctx-trainer-LoRAを試してみる...

「Infctx-LoRAに4ビット量子化モードを追加し、単一 24GB GPUで14Bモデルのトレーニングを可能にした」らしいRWKV-infctx-trainer-LoRAを試してみます。

24GBという文字列を見ると反応していますね。はい。

使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Proce

もっとみる

Japan Digital Design, Inc.

2024年5月30日 15:03

言語モデルの知識に対する削除･Unlearning･検出ーNLP2024参加報告③

はじめまして、三菱UFJフィナンシャル・グループ（以下MUFG）の戦略子会社であるJapan Digital Design（以下JDD）でMUFG AI Studio（以下M-AIS）に所属する上野です。

3月11日～15日にかけて神戸で開催されたNLP2024 (言語処理学会第三十回年次大会)に参加してきました。JDDでは参加メンバーそれぞれが興味深かった発表についてまとめています。

本記事

もっとみる

AI Nest

2024年5月28日 22:42

【論文瞬読】アニメキャラクターとの会話を実現！ChatHaruhi: 大規模言語モデルによるキャラクターロールプレイ技術

こんにちは！株式会社AI Nestです。今日は、私がとても興味深いと感じた論文をご紹介したいと思います。タイトルは「ChatHaruhi: 大規模言語モデルを用いたアニメキャラクターの現実での再現」。アニメやマンガのキャラクターと会話ができたら楽しいと思ったことはありませんか？この論文は、その夢に一歩近づくための技術的なアプローチを提案しているのです。

チャットボットがキャラクターになりきる！？

もっとみる

AIサトシ

2024年5月28日 01:08

ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化

大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。

Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降の

もっとみる

ナッピー通信

2024年5月27日 10:04

複雑な表をLLMに理解させる

はじめにGPT-4o、Gemeniのマルチモーダルが進化したとXで話題になっています、路線図が読み取れた、もえないごみはダメだとXで話題になっています

地域のごみ収集パンフレットを読み解かせようとするとうまくいかない

路線図の方はLLMの学習時に情報を持っていて、与えられた画像が路線図だと認識した可能性が高そうです。もえないごみの収集のようにLLMには未学習の内容を答えさせるにはどうしたら良い

もっとみる

LLM

記事一覧