マガジンのカバー画像

ローカルLLM関連記事

36
運営しているクリエイター

#ChatGPT

LLMのファインチューニング で 何ができて 何ができないのか

LLMのファインチューニング で 何ができて 何ができないのか

LLMのファインチューニングで何ができて、何ができないのかまとめました。

1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。

OpenAIのドキュメントには、次のように記述されています。

しかし実際には、それよりもかなり複雑です。

LLMには「大量のデータを投げれば自動

もっとみる
airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)

airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)

Self-Instructの手法でGPT-4を使用して生成された学習データを使って、ファインチューニングされたLlaMA-13b/7bモデルが公表されていました。

モデルの概要Self-Instructの手法でgpt-4、またはgpt-3.5-turboを用いて、人間が生成したシードを含まず学習データセットを作成(OpenAIライセンスの対象)

airoboros-gpt4

airoboro

もっとみる
ござるな rinna を LoRA でシュッと

ござるな rinna を LoRA でシュッと

さて皆さん。ChatGPT。使うの楽しいですよね?

でも使ってるうちに思いません?

俺だけの最強の LLM が、、、力が欲しい、、、!!

はい。

Newby である私もご多分に漏れずそのストリームに身を任せてしまいました。

とりあえず以前は rinna や CALM をシュッと動かしました。

あの時は Colab も無課金だったなぁ、、、( ゚д゚)(遠い目)

はい。

それはさてお

もっとみる
dolly-v2-12bという120億パラメータの言語モデルを使ってみた!

dolly-v2-12bという120億パラメータの言語モデルを使ってみた!

今回は、Databricks社の機械学習プラットフォームで訓練されたdolly-v2-12bという120億パラメータの言語モデルの紹介となります。以前、Cerebralの130億パラメータではGoogle Colabでうまく動かせませんでしたが、今回は動かすことができました。また、本モデルは商用利用も認められているとのことです。

今回は、以下のサイトを参考にしました。

Google Colab

もっとみる
Google Colab で Cerebras-GPT を試す

Google Colab で Cerebras-GPT を試す

「Google Colab」で「Cerebras-GPT」を試したので、まとめました。

1. Cerebras-GPT「Cerebras-GPT」は、OpenAIのGPT-3をベースにChinchilla方式で学習したモデルになります。学習時間が短く、学習コストが低く、消費電力が少ないのが特徴とのことです。

2. Colabでの実行Google Colabでの実行手順は、次のとおりです。

(

もっとみる
大規模言語モデルの学習コードまとめ

大規模言語モデルの学習コードまとめ

大規模言語モデルの学習コードをまとめました。

1. Alpacaの学習コード「LLaMA 」を標準の「HuggingFace Transformers」の学習コードをでファインチューニングを行います。

「Transformers」はまだ「LLaMA」を公式サポートしてないため、特定のフォーク(68d640f7c368bcaaaecfc678f11908ebbd3d6176)を使用します。

もっとみる
大規模言語モデルRWKVをローカルPCで試す

大規模言語モデルRWKVをローカルPCで試す

清水亮さんが、RWKVを試してたので俺も試してみた。
この時の清水さんのマシンは、A6000積んでる(VRAM48GB)逸般のご家庭用モンスターマシンなので、そのまま動く。そらそうよ。

npakaさんは、Google Colabで動かしている。

というわけで、一般のご家庭用ゲーミングPCでも動くように試してみた。

ちなみに試した環境はWindowsのWSLのubuntu上。
マシンのメモリは

もっとみる
LLM のデータセットまとめ

LLM のデータセットまとめ

LLMのデータセットをまとめました。

1. 事前学習データセット1-1. Text

1-2. Code

2. SFTデータセット2-1. Instruction

・tokyotech-llm/Swallow-Instruct-v0.1 (ja)
 ・tokyotech-llm/Swallow-Instruc

最近話題になった大規模言語モデルまとめ

最近話題になった大規模言語モデルまとめ

最近話題になった大規模言語モデルをまとめました。

1. クラウドサービス1-1. GPT-4

「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。

マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。

現在、「ChatGPT Plus」(有料版)で制限付きで

もっとみる
手元で動く軽量の大規模言語モデルを日本語でファインチューニングしてみました(Alpaca-LoRA)

手元で動く軽量の大規模言語モデルを日本語でファインチューニングしてみました(Alpaca-LoRA)

イントロ最近、ChatGPTやGPT-4などの大規模言語モデル(LLM)が急速に注目を集めています。要約タスクや質疑応答タスクなど様々なタスクで高い性能を発揮しています。これらのモデルはビジネス分野での応用が非常に期待されており、GoogleやMicrosoftが自社サービスとの連携を進めているという報道も相次いでいます。

今回は、手元で動作する軽量な大規模言語モデル「Alpaca-LoRA」を

もっとみる
日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】

日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】

⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。

LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。

OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできません コンテンツ生成者はできません。

もっとみる