最近話題になった大規模言語モデルまとめ

npaka

2023年3月16日 18:28

最近話題になった大規模言語モデルをまとめました。

1. クラウドサービス

1-1. GPT-4

「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。

マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。

現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

1-2. Claude

「Claude」は「Anthropic」が開発した大規模言語モデルです。

ウェイトリストを公開中です。

1-3. PaLM

「PaLM」は、「Google」が開発した大規模言語モデルです。

近日中に「PaLM」が利用できる「PaLM API」のウェイトリストを公開予定です。「PaLM API」は、Googleの大規模言語モデルを簡単に利用できるAPIで、コンテンツ生成やチャットに最適化された対話型モデルや、要約や分類などに最適化された汎用モデルにアクセスできます。
ウェイトリストを公開予定です。

1-4. NEMO LLM

「NeMo LLM」は、「NVIDIA」の大規模言語モデルのサービスです。

開発者は独自の学習データを使って多様なサイズのLLM (3B〜530B) をカスタマイズできます。

2. LLaMA

2-1. LLaMA

「LLaMA」は、「Meta」によって開発された大規模言語モデルです。

「GPT-3」よりもパラメータ数が少なく、単体GPUでも動作可能でありながら、ベンチマークテストの一部では「GPT-3」を上回りました。リクエストフォームから申請して利用許諾を得ることで、利用できるようになります。

2-2. Alpaca

「Alpaca」は、「LLaMA」をファインチューニングしたモデルです。

「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴になります。

デモ、学習データ、データ生成プロセス、ハイパーパラメータは公開されており、モデルの重みや学習コードも今後公開予定です。

2-3. Alpaca-LoRA

「Alpaca-LoRA」は、「Alpaca」のデータセットを使って、「LLaMA」をLoRAファインチューニングしたモデルです。

2-4. Guanaco

「Guanaco」は、「Alpaca」のデータセットを元に、日本語を含む様々な言語的および文法的タスクをカバーする学習データを追加したデータセットを使って、「LLaMA」をファインチューニングしたモデルです。
プロジェクト進行中です。

2-5. Vicuna

「Vicuna」は、「Alpaca」のデータセットを元に、「ShareGPT」などのChatGPTのログを学習データとして追加したデータセットを使って、「LLaMA」をファインチューニングしたモデルです。

デモが公開されています。

2-6. OpenFlamingo

「OpenFlamingo」は、「LAION」が開発したマルチモーダルモデルです。

DeepMindの「Flamingo」をオープンソースで再現しました。
デモが公開されています。

2-7. GPT4ALL

「GPT4ALL」は、「Nomic AI」が開発した「LLaMA」ベースの大規模言語モデルです。

2-8. Stable Vicuna

「Stable Vicuna」は、RLHFで学習した「Vicuna」です。

2-9. Koara

「Koara」は、カリフォルニア大学バークレー校のアカデミックチームによって開発された会話データを使用して、「LLaMA」をファインチューニングしたモデルです。

複数のデータセットからフィルター処理したデータで学習しています。

・ShareGPT – 30k
・Human ChatGPT Comparison Corpus – 87k
・Open Instruction Generalist – 30k
・Stanford Alpaca (Training dataset for Alpaca) – 52k
・Anthropic HH – 50k
・OpenAI WebGPT – 20k
・OpenAI summarization – 93k

・Koala-All : 全データセットを利用
・Koala-Distill: 最初の2つのデータセット(ChatGPTのログ) のみを利用

「Koala-Distill」は「Koala-All」よりもわずかに優れています。データの量よりも質が重要であるということがわかります。

2-10. GPT4-x-Alpaca

「GPT4-x-Alpaca」は、「LLaMA」をGPT4の会話コレクションである「GPTeacher」でファインチューニングしたモデルです。

2-11. WizardLM

「WizardLM」は、大量の指示に続く会話で、「LLaMA」をファインチューニングしたモデルです。このモデルの目新しさは、LLMを使用して学習データを自動的に生成することです。

2-12. WizardVicunaLM

「WizardVicunaLM」は、「WizardLM」のデータセット自体をより深く広範囲に処理するというアイデアと、「VicunaLM」のマルチラウンドの会話を導入することでシングルターンの会話の限界を克服するというアイデアを組み合わせたモデルです。

3. OpenCALM

「OpenCALM」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。

4. Rinna-3.6B

「Rinna-3.6B」は、「Rinna」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。

5. RWKV

「RWKV」は、Transformerレベルの大規模言語モデルの性能を持つRNNです。高性能、高速推論、VRAMの節約、高速学習、長い文脈長、自由な埋め込みを実現しています。

6. StableLM

「StableLM」は、「Stability AI」が開発したオープンな言語モデルです。

現在、7Bと3Bのモデルが公開されています。

7. RedPajama-INCITE

「RedPajama-INCITE」は、「RedPajamaベースデータセット」で学習した最初のモデルです。LLaMAレシピを可能な限り複製することを目的とした3B・7Bパラメータのベースモデルです。

8. Dolly 2.0

「Dolly 2.0」は、「Databricks」が開発したオープンな言語モデルです。

「pythia」ベースのモデルに、Databricksの従業員の間でクラウドソーシングされたデータセットを使って、Instructionチューニングしています。

9. OpenAssistant

「OpenAssistant」は、「LAION-AI」が開発した大規模言語モデルです。「GPTNeoX」ベースだけでなく、「LLaMA」ベース、「OPT」ベースなどのモデルも提供しています。

10. MPT-7B

「MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。

11. GPT4All-J

「GPT4All-J」は、「Nomic AI」が開発したオープンな大規模言語モデルです。

12. Cerebras-GPT

「Cerebras-GPT」は、「Cerebras」が開発したオープンな大規模言語モデルです。「GPT-3」をベースに、「Chinchilla」方式で学習しています。

13. ChatGLM

「ChatGLM」は、中国語特化のオープンな大規模言語モデルです。ChatGPTと同様の技術を使用して、中文の応答を最適化しています。