見出し画像

最近話題になった大規模言語モデルまとめ

最近話題になった大規模言語モデルをまとめました。

1. クラウドサービス

1-1. GPT-4

GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。

マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。

現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

1-2. Claude

Claude」は「Anthropic」が開発した大規模言語モデルです。

ウェイトリストを公開中です。

1-3. PaLM

PaLM」は、「Google」が開発した大規模言語モデルです。

近日中に「PaLM」が利用できる「PaLM API」のウェイトリストを公開予定です。「PaLM API」は、Googleの大規模言語モデルを簡単に利用できるAPIで、コンテンツ生成やチャットに最適化された対話型モデルや、要約や分類などに最適化された汎用モデルにアクセスできます。
ウェイトリストを公開予定です。

1-4. NEMO LLM

NeMo LLM」は、「NVIDIA」の大規模言語モデルのサービスです。

開発者は独自の学習データを使って多様なサイズのLLM (3B〜530B) をカスタマイズできます。

2. LLaMA

2-1. LLaMA

LLaMA」は、「Meta」によって開発された大規模言語モデルです。

「GPT-3」よりもパラメータ数が少なく、単体GPUでも動作可能でありながら、ベンチマークテストの一部では「GPT-3」を上回りました。リクエストフォームから申請して利用許諾を得ることで、利用できるようになります。

2-2. Alpaca

Alpaca」は、「LLaMA」をファインチューニングしたモデルです。

「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴になります。

デモ、学習データ、データ生成プロセス、ハイパーパラメータは公開されており、モデルの重みや学習コードも今後公開予定です。

2-3. Alpaca-LoRA

Alpaca-LoRA」は、「Alpaca」のデータセットを使って、「LLaMA」をLoRAファインチューニングしたモデルです。

2-4. Guanaco

Guanaco」は、「Alpaca」のデータセットを元に、日本語を含む様々な言語的および文法的タスクをカバーする学習データを追加したデータセットを使って、「LLaMA」をファインチューニングしたモデルです。
プロジェクト進行中です。

2-5. Vicuna

Vicuna」は、「Alpaca」のデータセットを元に、「ShareGPT」などのChatGPTのログを学習データとして追加したデータセットを使って、「LLaMA」をファインチューニングしたモデルです。

デモが公開されています。

2-6. OpenFlamingo

OpenFlamingo」は、「LAION」が開発したマルチモーダルモデルです。

DeepMindの「Flamingo」をオープンソースで再現しました。
デモが公開されています。

2-7. GPT4ALL

GPT4ALL」は、「Nomic AI」が開発した「LLaMA」ベースの大規模言語モデルです。

2-8. Stable Vicuna

Stable Vicuna」は、RLHFで学習した「Vicuna」です。

2-9. Koara

Koara」は、カリフォルニア大学バークレー校のアカデミックチームによって開発された会話データを使用して、「LLaMA」をファインチューニングしたモデルです。

複数のデータセットからフィルター処理したデータで学習しています。

ShareGPT – 30k
Human ChatGPT Comparison Corpus – 87k
Open Instruction Generalist – 30k
Stanford Alpaca (Training dataset for Alpaca) – 52k
Anthropic HH – 50k
OpenAI WebGPT – 20k
OpenAI summarization – 93k

・Koala-All : 全データセットを利用
・Koala-Distill: 最初の2つのデータセット(ChatGPTのログ) のみを利用

「Koala-Distill」は「Koala-All」よりもわずかに優れています。データの量よりも質が重要であるということがわかります。

2-10. GPT4-x-Alpaca

GPT4-x-Alpaca」は、「LLaMA」をGPT4の会話コレクションである「GPTeacher」でファインチューニングしたモデルです。

2-11. WizardLM

WizardLM」は、大量の指示に続く会話で、「LLaMA」をファインチューニングしたモデルです。 このモデルの目新しさは、LLMを使用して学習データを自動的に生成することです。

2-12. WizardVicunaLM

WizardVicunaLM」は、「WizardLM」のデータセット自体をより深く広範囲に処理するというアイデアと、「VicunaLM」のマルチラウンドの会話を導入することでシングルターンの会話の限界を克服するというアイデアを組み合わせたモデルです。

3. OpenCALM

OpenCALM」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。

4. Rinna-3.6B

Rinna-3.6B」は、「Rinna」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。

5. RWKV

RWKV」は、Transformerレベルの大規模言語モデルの性能を持つRNNです。高性能、高速推論、VRAMの節約、高速学習、長い文脈長、自由な埋め込みを実現しています。

6. StableLM

StableLM」は、「Stability AI」が開発したオープンな言語モデルです。

現在、7Bと3Bのモデルが公開されています。

7. RedPajama-INCITE

「RedPajama-INCITE」は、「RedPajamaベースデータセット」で学習した最初のモデルです。LLaMAレシピを可能な限り複製することを目的とした3B・7Bパラメータのベースモデルです。

8. Dolly 2.0

Dolly 2.0」は、「Databricks」が開発したオープンな言語モデルです。

「pythia」ベースのモデルに、Databricksの従業員の間でクラウドソーシングされたデータセットを使って、Instructionチューニングしています。

9. OpenAssistant

OpenAssistant」は、「LAION-AI」が開発した大規模言語モデルです。「GPTNeoX」ベースだけでなく、「LLaMA」ベース、「OPT」ベースなどのモデルも提供しています。

10. MPT-7B

MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。

11. GPT4All-J

GPT4All-J」は、「Nomic AI」が開発したオープンな大規模言語モデルです。

12. Cerebras-GPT

Cerebras-GPT」は、「Cerebras」が開発したオープンな大規模言語モデルです。「GPT-3」をベースに、「Chinchilla」方式で学習しています。

13. ChatGLM

ChatGLM」は、中国語特化のオープンな大規模言語モデルです。ChatGPTと同様の技術を使用して、中文の応答を最適化しています。

関連




この記事が気に入ったらサポートをしてみませんか?