見出し画像

AIの新時代:大規模モデルの挑戦と未来への道筋

皆様、最新記事「AIの新時代:大規模モデルの挑戦と未来への道筋」へようこそ!この記事では、AIの世界が直面している大きな課題と、それが私たちの未来にどのような影響を与える可能性があるかを探求しています。しかし、これは始まりに過ぎません。より深い洞察と豊富な情報を求める方は、ぜひ私たちのマガジンにアクセスしてください。リンクをクリックするだけで、AI技術の最先端に関する詳細な分析や議論を手に入れることができます。AIの進化と私たちの未来に対するその影響を理解するための貴重なリソースを提供しています。この機会をお見逃しなく!

2023年は大規模モデルの元年であり、中国国産大規模モデルの数が急増している一方で、200を超えていますが、「シェル」は大規模モデルの頭上に漂っている風評の暗雲でした。

年始から年末まで、バイドゥの文心一言から零一万物まで、ByteDanceからGoogle Geminiまで、さまざまな「シェル疑惑」の事件が何度もホットニュースに登場し、その後、関連するパーティーによる説明が清算されました。

AIの非従業者は、シェルを洪水や猛獣のように見ています。真のAIの従業者は、シェルを避けます。しかし、「シェル」自体には明確で正確な定義がないため、業界のシェルの理解は千差万別です。

2024年は、大規模モデルが大規模に実装される元年である可能性があり、いくつかのAI Nativeのアプリケーションが次々に登場するでしょう。大規模モデルアプリケーションのエコシステムの積極的な開発の中で、業界が「シェル」の議論に対して情緒を取り除き、事実に戻ることを期待しています。


大規模モデルの統一「コア」


シェルを理解するためには、「シェル」と「コア」の違いを理解する必要があります。

今日、すべての大規模モデルのコアは、2017年にGoogle Brainチーム(2023年4月にGoogleが買収したAI企業DeepMindと合併してGoogle DeepMindとなった)がリリースしたTransformerニューラルネットワークアーキテクチャから派生しています。

Transformerが登場して以来、過去のRNN(リカレントニューラルネットワーク)とCNN(畳み込みニューラルネットワーク)を徐々に取って代わり、NLP(自然言語処理)の最先端研究の標準パラダイムになりました。

Transformerが誕生した10年前、ハリウッドの大作「トランスフォーマー」が全世界で上映されました。この映画の英語のタイトルは「Transformers」です。映画の中の変形金刚が自由に変身できるように、神経ネットワークのアーキテクチャとしてのTransformerも、アーキテクチャのコンポーネントとパラメータを変えることで、異なるバリエーションを派生させることができます。

Transformerのオリジナルのアーキテクチャには、エンコーダ(Encoder)とデコーダ(Decoder)の2つのコアコンポーネントが含まれています。エンコーダは入力テキストを理解する責任があり、デコーダは出力テキストを生成する責任があります。Transformerのオリジナルアーキテクチャの上で派生した三つのバリエーションのアーキテクチャがあります。それは、エンコーダだけを使用する(エンコーダのみ)、デコーダだけを使用する(デコーダのみ)、および二つの混合体(エンコーダ-デコーダ)です。

これら3つのバリエーションのアーキテクチャはそれぞれ代表的なモデルを持っています。それらは、GoogleのBERT、OpenAIのGPTシリーズモデル、およびGoogleのT5です。今日では、これら3つのモデルの名前は通常、それぞれの背後にあるモデルのアーキテクチャの名前を指すようになりました(以下も同様)。

Transformerのモデルアーキテクチャ図。左側がエンコーダ、右側がデコーダ。画像はGoogleの論文から。

2020年以前、NLPのモデル研究は基本的にアルゴリズムを中心に展開しており、BERT、T5、GPTのアーキテクチャを基にしたモデルが数多く存在していました。この時期のモデルのパラメータは小さく、基本的には10億以下のオーダーでした。その中で、Google BERTのパフォーマンスは群を抜いており、BERTアーキテクチャをベースにしたモデルは一時的に読解の競争ランキングで圧勝していました。

それは2020年、OpenAIが論文を発表し、Scaling Laws(スケールの法則)を初めて提唱した時、NLPの研究が正式に大規模モデルの時代に突入しました。大規模モデルは「大規模な計算能力、大量のパラメータ、大量のデータ」に基づいており、モデルの性能はムーアの法則のように持続的に向上し、知能が現れる瞬間まで続きます。

この期間中、GPTアーキテクチャのパフォーマンスが徐々にBERTとT5を超越し、大規模モデルの主流の選択となりました。今日、1千億パラメータ以上の主流の大規模モデルの中で、Googleが最近リリースしたGeminiがT5アーキテクチャに基づいている以外は、ほぼ全てがGPTアーキテクチャから派生しています。GPTは、大規模モデルアーキテクチャのコアの大統一を達成しました。

大規模モデルの進化ツリー。GPTシリーズは非常に多種多様。画像はGithubから、作者はMooler0410。

大規模モデルの進化のコンテクストから見ると、今日のすべてのモデルは「シェル」Transformerとその3つのバリエーションのアーキテクチャに適合しています。

もちろん、Transformerには「シェルを付けたくない」挑戦者もいます。例えば、2023年12月5日に、カーネギーメロン大学とプリンストン大学の教授が「Mamba」(マンバ)という新しいアーキテクチャをリリースしました。これは、言語モデリングの性能がTransformerと同等でありながら、いくつかの拡張性の制約を解決しました。しかし、この新しいアーキテクチャの具体的なパフォーマンスは、時間の検証が必要です。

モデルアーキテクチャの選択は最初のステップです。Baichuan Intelligenceの創業者でCEOのWang Xiaochuanは、2023年のGravity年末祭で、大規模モデル訓練を「料理」に例えモデルアーキテクチャ(コア)はレシピだけだと語りました。完全な料理を手に入れるには、調理:つまり大規模モデル訓練のプロセス、そして食材:つまりデータが必要です。

大規模モデルの料理プロセスは、プレトレーニング(Pre Train)とファインチューニング(Fine-Tune)の2つの大きなフェーズに大雑把に分けることができます。

プレトレーニングは、大規模モデル訓練の最も核心的な部分で、大量のテキスト情報をモデルに圧縮することにより、学生が一生懸命勉強する過程のように、モデルに世界の知識を持たせます。OpenAIの創設者の一人で、テスラの元AIディレクターのAndrej Karpathyは、2023年5月のMicrosoft Buildカンファレンスで、「プレトレーニングは、スーパーコンピューターで数千のGPUを使って数ヶ月間インターネット規模のデータセットを処理する場所で、訓練時間の99%を占めています」と述べました。

長い事前訓練の後、基底モデル(Base Model)が得られます。この基底モデルに特定の業界のデータセットを追加し、さらに微調整を行うと、ファインチューニングモデル(Fine-tuning Model)または業界モデル、バーチカルモデルと呼ばれるモデルが得られます。

微調整は通常、SFT(監督微調整)+ RLHF(人間のフィードバックによる強化学習)の2つのステップに分けられます。RLHFはOpenAIの革新的な設計であり、これによりモデルは人間の意図と価値観と一致することが可能となり、信頼性の高い対話モデルを訓練するための不可欠な要素となります。

事前訓練のコストは非常に高く、そのため年に一度または数ヶ月に一度しか行われません。OpenAIのChatGPTの訓練には約1200万ドル、MetaのLlama 65Bの訓練には500万ドルがかかりました。これに比べて、微調整のコストは低く、数日または1日で可能です。

そのため、基底モデルに取り組むのは、十分な計算能力と財力を持つ大企業や野心的なスタートアップ企業だけです。「百モデル大戦」では、中国国産の大型モデルが多数存在しますが、そのうち約10%のモデルが基底モデルで、90%のモデルが特定のデータセットを追加して微調整を行う業界モデル、バーチカルモデルです。その中でも最も広く使用されているオープンソースの基底モデルは、現在MetaのLlama 2です。

「オリジナル派」と「模倣派」


事前訓練は大型モデルの最も核心的な部分であり、「シェル」と「自研」の議論が多い部分です。

前述の通り、モデルのアーキテクチャは大型モデルのレシピであり、現在はBERT、T5、GPTの3つのレシピがあります。そして、各レシピには具体的な料理名、すなわち事前訓練フレームワークがあります。この事前訓練フレームワークのレシピに従って料理を作るのが事前訓練の過程です。

確かな事実として、すべての基底モデルを目指す企業は、最初から完全な事前訓練に本当のお金を投じていますが、レシピの由来については2つの派閥に分かれています。

第一の派閥は、文字通りの「自研派」で、レシピから研究を始め、事前訓練フレームワークを自研しています。

この派閥の共通点は、布局が早いことであり、2020年以前に遡ることができ、大型モデルの競争がChatGPTの誕生とともに始まったよりもずっと早いです。

百度はその一つです。2019年には、百度は自研の事前訓練フレームワークERNIEを公開しました。これは今日の文心大モデルであり、現在はERNIE-4.0にアップデートされています。なお、GoogleのBERTと百度のERNIEの名前は、アメリカの有名な子供向け番組「セサミストリート」のキャラクターから取られており、両者は親友の関係です。

ネットワークからの「セサミストリート」のERNIEとBERTの画像

もう1つの初期自己研究事前訓練フレームワークの大規模モデル企業は、知譜AIです。知譜AIは2019年に設立され、2020年末に自己研究事前訓練フレームワークGLMを開始しました。GLMは、Google T5と同様に、エンコーダ-デコーダのアーキテクチャに基づいています。2022年11月には、スタンフォード大学の大規模モデルセンターが全球30の主要な大規模モデルに対して全方位の評価を行い、GLM-130Bはアジアで唯一選ばれた大規模モデルでした。

百度と知譜AIの他にも、技術詳細を公開していない一部のクローズドソース大規模モデルがあり、代表的な企業にはMinimaxなどがあります。

全体として、自前の事前訓練フレームワークを基にした大規模モデル企業は少なく、中国では約5社程度だと思われます。

第二の派閥の大規模モデル企業も、完全な事前訓練プロセスを一から始めていますが、事前訓練フレームワークはオープンソースフレームワークであるLlama 2を基に一部のパラメータを修正しています。これは「模倣派」と呼ばれるものです。

オープンソースコミュニティにとって、これは非常に普通のやり方で、オープンソースの意味は自分の研究成果を公開し、技術の交流と共有を促進し、オープンソースコミュニティ内のより多くの研究者に利益をもたらすことです。

Llama 2も過去のオープンソースモデルに立脚して段階的に発展してきました。例えば、Llama 2のモデルアーキテクチャでは、Pre-normalization(予備正規化)はGPT-3からのインスピレーションを受けており、SwiGLU(活性化関数)はPaLMからのインスピレーションを受けており、Rotary Embeddings(位置エンコーディング)はGPT-Neoからのインスピレーションを受けています。他のモデルも頻繁にこれらのパラメータを改変して事前訓練を行います。

零一万物の創設者である李開復は、「全球の大規模モデルアーキテクチャはGPT2 --> Gopher --> Chinchilla --> Llama 2-> Yiと進化し、大規模モデルの一般的な標準が形成されつつあります。これは、スマホアプリの開発者がiOSやAndroid以外の新たな基本アーキテクチャを自分で作ることはないようなものです」と述べています。

強調すべきは、Llama 2を模倣することが競争力のないことを意味するわけではありません。零一万物は記事の中で、モデル訓練プロセスは料理を作るようなもので、アーキテクチャは料理の原材料と大まかな手順を決定するだけで、良いモデルを訓練するには、「原材料」(データ)と各ステップの詳細なコントロール(訓練方法と具体的なパラメータ)が必要だと述べています。

「オリジナル派」と「模倣派」、どちらが優れているか?この問題については分けて考える必要があります。一言でまとめると、オリジナル派は未来を賭けており、模倣派は現在を賭けています。

ある投資家は、「Llama 2は完璧なアーキテクチャではなく、まだ大いに限定性があり、GPT-3.5のレベルまでやってみることは可能ですが、GPT-4のレベルまでどうやって達成するかはまだ見えていません。もし基本技術アーキテクチャが常にLlama 2に縛られていると、GPTを超える機会はほとんどないでしょう」と述べています。

この投資家が所属する投資機関は、多数の大規模モデル企業に投資しています。投資決定を行う際に、自己研究の事前訓練フレームワークかどうかも、彼らの評価基準の一つです。

あるAI企業の研究開発スタッフは、自己研究の事前訓練モデルの利点は、拡張能力が強いことにあり、「もしオープンソースに基づいていると、バージョン制限があります。例えばLlama 2は7B、13B、70Bの3つのバージョンしかなく、それ以上はありません。もっと大規模にやりたいと思ってもできません」と語っています。

しかし、理想は美しいものの、オリジナルの事前訓練アーキテクチャの利点は、現時点ではまだ理論段階にあります。短期的に見れば、自己研究であれLlama 2を模倣であれ、どちらもGPT-3.5のレベルにあり、性能の差は大きくありません。

別のAI投資家は「現在の段階では、オープンソースフレームワークは基本的にGPT-3.5のレベルに達しているので、オープンソースフレームワークと同レベルの事前訓練フレームワークを一から自己研究するよりも、Llama 2を模倣する方が効率が良く、安定性も信頼性があります。ただし、GPT-4、あるいは次世代のGPT-5の能力に達するモデルを自己研究できる技術力があり、かつ十分な資金を継続的に投入できる場合に限ります。なぜなら、現在の予想では、GPT-5の訓練には3-5万枚のH100が必要で、コストは10-20億ドルになると見られているからです」と述べています。

現在の段階では、競争の焦点は事前訓練フレームワークの性能ではなく、エンジニアリングの能力、通常はAI Infra(AI基盤設備)と呼ばれるものです。

AI Infraの責任者であるCheng Chengは、大規模モデルの発展を3つの段階に分けています:2020年以前のアルゴリズム研究段階、2020〜2023年のデータの段階、そして2023年のAI Infraの段階

彼は、未来の大規模モデルのアルゴリズム研究は必ずInfraの方向に進むと予測しています:スパース化(Sparse Attention、Sparse GEMM / MoE)は2024年の学界と産業界の主戦場となるでしょう。

GPTのデータをつかむ


事前訓練が完了した後は、微調整の段階に入ります。実際には、この段階が大部分の「シェル」大規模モデルが失敗する原因であり、これはデータセットの品質と直接的な関連があります。

データの使用は大規模モデルの事前訓練、SFT、RLHFの各段階で行われます。事前訓練の段階では、データは「多くて精巧ではない」。事前訓練ではインターネットの公開データを使用しているため、異なる大規模モデルが最終的に得る知識の蓄積は近いものになります

明確な差は微調整の段階で現れ、データは「精巧で多くはない」。例えば、Meta Llama 2の研究者が微調整を行う際に、大部分の第三者のSFTデータセットが多様性と品質が不足していることを発見したため、彼らは自分で27540個の高品質なアノテーションデータセットを作成し、SFTの効果を著しく向上させることができました。

しかし、すべての企業がMetaのように豊かな財源を持っているわけではありません。より効率的に高品質のデータセットを取得する方法はありますか?
はい、ChatGPTなどの対話モデルのデータを「盗む」ことで得ることができます。

ここでの「盗む」は、盗みを指すのではなく、ChatGPTやGPT-4などの対話モデルが生成したデータを直接微調整に利用することを指します。これらの生成データは、データの多様性を保証しつつ、OpenAIにより調整された高品質のデータです

米国の電子商取引スタートアップ、RebuyのAIディレクターであり、深層学習の博士であるCameron R. Wolfeは、この大規模モデルの研究手法を「模倣学習」(Imitation Learning)と呼び、模倣学習は明らかに「知識蒸留」(Knowledge Distillation)からの影響を受けていると述べています。

知識蒸留は、機械学習における標準的なモデル圧縮方法で、複雑なモデルを「教師モデル」と見なし、簡単なモデルを「学生モデル」と見なし、教師が学生に知識を移す方式を通じて知識を移行します。

模倣学習の原理、画像は Cameron R. Wolfeのブログから

MetaがLlama 1シリーズのモデルを発表した後、速やかにオープンソースコミュニティではさまざまな模倣モデルが誕生しました。著名なものには、スタンフォード大学やカリフォルニア大学バークレー校などの高等教育機関から提供されたAlpaca、Vicuna、Koala、NomicAIが提供するGPT4ALLなどがあり、これらのモデルはすべてChatGPTの会話データを微調整に使用しています

特筆すべきは、OpenAIはサービス規約で、ChatGPTで生成されたデータを使用してOpenAIと競合するモデルを開発することを明確に禁止していることです。そのため、これらの模倣モデルは商用利用することはできません。

しかし、事実上、各種の商用モデルは、「盗」データを通じて微調整のショートカットを行っており、これは公然と知られている秘密であり、国籍に関係なく行われています。

2023年12月、バイトダンスとGoogle Geminiの「疑わしいシェル」事件はまさにこれが発端でした。バイトダンスの応答によれば、2023年初頭に一部のエンジニアがOpenAIのAPIサービスを実験的なモデル研究に適用したが、リリースされることはなく、その後、その行為は禁止されました。現実的に見れば、バイトダンスは「全てのモデルが犯す一つのエラーを犯したに過ぎない」

あるNLP研究の科学者は、「OpenAIはバイトダンスがお金をかけてモデルを作り出すことができると予感して、事前に抑圧したのかもしれない。しかし、実際には、これはバイトダンスが大規模なモデルを訓練することを制限する効果はなく、純粹に『侮辱』するためだけだ」と語っています。

Google Geminiも同様の状況です。高品質の中国語データセットが不足しているため、Googleは文心一言を通じて大量の中国語会話データを取得し、Geminiの「教師」とする可能性が高いです。しかし、OpenAIを追いつこうという焦りからか、データクリーニングや自己認識の調整などの作業が完全に行われていなかったため、Geminiは教師の文心一言を自分自身と誤認してしまったのかもしれません。

シェルを厚くすることが競争力


Llama 2を模倣して事前学習し、微調整段階でChatGPTのデータを「盗む」こと、これらは「シェル」論争の主なシーンであり、大規模モデルの訓練過程でモデルの能力を決定するキーとなるシーンです。もし、モデルの推論と応用まで範囲を広げれば、「シェル」のシーンはさらに増えます。

AIアシスタントMonicaの共同創設者Sukiは、「シェル」の四段階の進化を共有しました:

一段階:OpenAIのインターフェースを直接引用し、ChatGPTが何を答えるか、シェル製品が何を答えるか。UI、形状、コストを重視。

二段階:Promptの構築。大規模モデルは研究開発に例えることができ、Promptは要求仕様書に例えられます。要求仕様書が明確であればあるほど、研究開発の実現が精密になります。Promptを活用した製品は、自社の高品質なPromptを蓄積することができます。高品質なPromptを作成し、Promptを配布することが重要です。

三段階:特定データセットのエンベディング。特定のデータセットをベクトル化し、一部のシーンで自分のベクトルデータベースを構築することで、ChatGPTが回答できない質問に対応することが可能です。たとえば、特定の業界や個人データなどです。エンベディングは段落テキストを固定次元のベクトルにエンコードし、これにより意味の類似度を比較しやすくなります。プロンプトと比べて、より精密な検索が可能となり、より専門的な回答を得ることができます。

四段階:微調整(Fine-Tuning)。高品質のQ&Aデータを使用して二次訓練を行い、モデルが特定のタスクをより理解するようにする。EmbeddingとPromptの両者が大量のTokenを消費するのに対し、微調整は大規模モデル自体の訓練であり、消費するtokenは少なく、応答速度も速い。

Llama2のアーキテクチャを模倣して事前学習することも含めれば、これは第五段階と考えることができます。これら五つの段階は、大規模モデルの「シェル」の各シーンをほぼカバーしています。

特筆すべきは、上記の行為が「シェル」と呼ばれるべきか否かは、業界内でも意見が分かれている。

特定のシーンから離れて「シェル」について議論することは、ラベルを貼る行為です。業界がシェルに対する汚名化を取り去り、異なる進化段階のシェル行為を正常なビジネス行為として見ることで、大規模モデルの優劣をより理性的に客観的に分析することができます。

「シェル」に競争力はありますか?Sukiは、AIアプリケーション製品が第一段階と第二段階に留まっている場合、それは必然的に閾値が非常に低い製品であり、何の障壁もありません。どのシーンで、いつ、どのように第三段階と第四段階の能力を使うのかが、キーとなる問題です。

コストを下げて、「シェル」を厚くすることで、自然と競争力が生まれます。

この記事が気に入ったらサポートをしてみませんか?