見出し画像

【生成AI】入門者としておさえておきたい「大規模言語モデル(LLM)の現状の全体感」(1/3)


世間では、生成AIの話でもちきりになっている。企業内では、誰も彼もが生成AIを話題にする。だけれども、ニュース記事やスタートアップ企業のニュースリリース、今を時めく某研究者のコメントなど、局所的な取り組みについての話ばかり。

これから生成AI、その中でも大規模言語モデル(LLM)について理解したい人にとっては、「木を見て森を見ず」のような説明ばかりで、まったく全体像が理解できない。局所的な話ばかりで、互いの説明が矛盾しているように思えてしまう。

まずは、大規模言語モデル(LLM)に関する話の全体感をおさえておかないと、誰の話に注目したほうが良いのか、今後のトレンドを踏まえて、何に注力していくべきかわからない…

そこで、大規模言語モデル(LLM)に関する最近のサーベイ論文を読んで見て、全体感を整理してみる。全3回にわたり紹介したい。

論文を読んで大規模言語モデル(LLM)の全体感をおさえよう!

今回、大規模言語モデル(LLM)の全体感をおさえるために、次のサーベイ論文をarXivからピックアップして、頭の整理をしてみました。

Shervin Minaee et al. "Large Language Models: A Survey", arXiv:2402.06196v2 [cs.CL] 20 Feb 2024

世界中の最新の論文は、arXivというプレプリントサーバにアップロードされるので、その中で、最近の大規模言語モデルの動向を整理したものを選びました。

生成AIに関する研究は、ものすごい勢いで発展しています。そのため、書店で販売されている書籍などでは、現在の最新の動向はどうしても含まれにくくなっています。そのため最新の論文を読むことにしました。

どんな特徴があるのかという視点から、大規模言語モデル(LLM)とは何かを整理する

まず、入門者にしてみれば、そもそも大規模言語モデル(LLM)とは何か、というところから整理することが必要と感じています。

今会社では、誰も彼もが「大規模言語モデル(LLM)」という言葉を使いますが、本当に同じ理解の下で使っている言葉とは思えないのが実態です。なんとなく大きな翻訳モデルといったイメージの人もいれば、ChatGPT=大規模言語モデルと理解しているように思える人もいます…、そのほかにもっとあいまいなイメージの下で、議論に参加している人も。このように、人によって頭の整理が違う中で、企業内でいくら議論しても、頭の整理には至らないのは当然であろう。

そこで上記の論文を読み整理してみたのが下記となります。

ここで言語モデルという、自然言語を取り扱うためのモデリングがあるという考えは所与として、その中で大規模言語モデル (LLM)はどのように位置付けられるのかから整理しました。

言語モデルには、統計的言語モデル、ニューラル言語モデル、事前学習済み言語モデル、大規模言語モデルの4つに分類されます。ここでいう、統計的言語モデル、ニューラル言語モデル、事前学習済み言語モデルは下表のような説明となります。

大規模言語モデル以外の言語モデルについて

そして、その中で、今回注目している大規模言語モデル (LLM)は、大規模なテキストデータで事前学習された、数百億から数千億のパラメータを含むトランスフォーマ・ベースのニューラル言語モデルとなるものです。大規模言語モデル (LLM)は、事前学習済み言語モデルと比較して、モデルサイズがはるかに大きいだけでなく、より強力な言語理解および生成能力、小規模な言語モデルには存在しない創発的な能力も示すのが特徴となります。

つまり、重要なポイントは、言語モデルの中でも、事前学習の規模を極端に大きくしたことで、従来には見られない創発的な能力を示すようになったものが大規模言語モデル (LLM)ということになります。

参考までに、事前学習済みニューラル言語モデルの発展経緯

ちなみに、大規模言語モデル(LLM)のベースとなる、事前学習済みニューラル言語モデルの発展経緯についても述べておきます。

前述の通り、大規模言語モデル(LLM)は、その規模と創発性が重要な違いであるものの、事前学習済みニューラル言語モデルであることには変わりありません。

そもそも、ニューラルネットワークを使用した言語モデリング自体は、以前より先駆的に開発がなされてきたものです。特に、少し前までは、リカレントニューラルネットワーク (RNN) と長短期記憶 (LSTM)や、ゲートリカレントユニット(GRU)などに基づくニューラル言語モデルとして、これまでも、機械翻訳を含む多くの自然言語アプリケーションに広く使用されてきました。

事前学習済みニューラル言語モデルの発展経緯

その中で、2017年に、トランスフォーマー・アーキテクチャが発明されたことを契機に、ニューラル言語モデルの開発における新たなマイルストーンが達成されたといわれています。

つまり、トランスフォーマーの自己注意機構を適用することで、文書内のすべての単語に対して「注意スコア」を並行計算、各単語が他の単語に及ぼす影響をモデル化できたこと、またトランスフォーマーがRNNよりもはるかに多くの並列化を可能にし、効率的な事前トレーニングを実現ことで、今でいう、大規模言語モデル(LLM)が構築できたということになります。

現状の代表的な大規模言語モデル(LLM)ファミリー

現状に至っては、世界中の様々な企業や団体・組織により、本当に様々な大規模言語モデル(LLM)が開発されています。それらをひとつひとつピックアップして説明するのはとても大変です。

そこで、代表的な3つの大規模言語モデル(LLM)ファミリーとして、GPT Family、LLaMA Family、PaLM Familyがどのようなものか、簡便に整理してみました。

この3つのファミリーをおさえておくだけでも、現在の大規模言語モデル(LLM)の様子の全体感が把握できるのではないかと思います。

GPT Family

よくGPTという言葉を聞くと思います。ChatGPTのGPTですね。このGPTは、Generative Pre-trained Transformersの略で、OpenAIによって開発された、デコーダ専用のトランスフォーマ・ベースの言語モデルのファミリーとなります。

このGPTを使っている言語モデルの例としては、GPT-1、GPT-2、GPT-3、InstrucGPT、ChatGPT、GPT-4、CODEX、および WebGPTなどが挙げられます。
<表>

GPT-1、GPT-2などの初期のGPTモデルはオープンソースとなっています。それに対して、GPT-3やGPT-4などの最近のモデルは、クローズソースであり、API経由でのみアクセス可能な代物です。

最も注目されているのは、GPT-4となり、GPTファミリーの中で最新かつ最も強力な大規模言語モデル(LLM)です。2023年3 月にリリースされたGPT-4は、画像とテキストを入力として受け取り、テキスト出力を生成できるマルチモーダルLLMといわれています。

初期のGPTモデルと同様に、GPT-4 はまず大きなテキストコーパス上の次のトークンを予測するように事前学習され、次にヒューマンフィードバックからの強化学習 (RLHF)を使用して微調整され、モデルの動作が人間の望ましい動作と一致させているものです。

また、一番言葉として多くの人に浸透しているものとして、ChatGPTが挙げられています。LLM開発の最も重要なマイルストーンとも言われます。これは、ユーザが会話を誘導して、質問応答などの幅広いタスクを完了できるようにするチャットボットです。InstructGPTの兄弟モデルであるGPT-3.5 (その後は GPT-4) を利用し、プロンプトの指示に従って詳細な応答を提供するようにトレーニングされているアプリケーションです。

GPT Family

LLaMA Family

Facebookで知っている人も多いMeta社も大規模言語モデル(LLM)を開発しています。同社は、LLaMAという大規模言語モデル(LLM)をリリースしています。

これはGPTモデルとは異なり、LLaMAモデルをオープンソースとして提供しています。つまり、モデルの重みは非営利ライセンスに基づいて研究コミュニティにリリースされているものとなります。

このLLaMAファミリーは、クローズドソースLLMに対抗するための優れたオープンソース LLMを開発することや、ミッションクリティカルなアプリケーション向けのタスク固有の LLMを開発したりするために、多くの研究グループで広く使用され、急速に成長しています。

LLaMA Family

PaLM Family

GoogleもOpenAIやMetaに負けず劣らず、様々な大規模言語モデル(LLM)を開発しています。Googleは、PaLM (Pathways Language Model) ファミリーと呼ばれるモデルを開発しています。

最初の PaLMモデルは、2022年4月にリリースされ、2023年3月まで非公開のままであったものです。540Bパラメータのトランスフォーマ・ベースのLLMです。幅広い自然言語タスクとユースケースを含む 7,800 億のトークンで構成される高品質のテキストコーパスで事前学習したものとなります。

PaLM Family

その他の大規模言語モデル(LLM)

上記の3つの大規模言語モデル(LLM)ファミリーのほかにも、本当に様々な企業や団体・組織が特徴のある大規模言語モデル(LLM)を開発しています。それらについてのリストと簡単な説明は、本稿の最後に資料(有償)として掲示。

本稿の2回、3回の予告

【生成AI】入門者としておさえておきたい「大規模言語モデル(LLM)の現状の全体感」として、第2回、第3回では下記の整理をする予定です。

  • 第2回:大規模言語モデル(LLM)の構築方法の全体像、大規模言語モデル(LLM)の制限

  • 第3回:大規模言語モデル(LLM)の使用方法と拡張方法、大規模言語モデル(LLM)の課題と今後の方向性

資料

本稿でまとめた内容をPDF形式で整理した資料を下記に添付します(有償)。大規模言語モデル(LLM)について、入門者として、全体感を整理したい方はご利用ください。

ここから先は

0字 / 1ファイル

¥ 200

この記事が気に入ったらサポートをしてみませんか?