LLaMA 2はオープンソースの大規模言語モデルであり、GPT-4の性能に近づけるための大きな進歩です。商業目的と研究目的の両方で使用可能であり、Microsoftとの提携も行われています。LLaMA 2は安全性にも重点を置いており、安全ガイドラインの違反率が低いことが報告されています。ただし、商業利用には条件があり、700万人以上のユーザーがいる場合はMetaの許可が必要です。LLaMA 2はコーディング能力が弱いとされており、GPT 4と比較しても劣るとされています。LLaMA 2の使用方法については、MetaのHugging Faceリポジトリからモデルとコードをダウンロードすることができます。
公開日:2023年7月19日
※動画を再生してから読むのがオススメです。
LLaMA 2は今朝リリースされたばかりで、オープンソースの大規模言語モデルにおける大きな飛躍を象徴している。
オープンソースのモデルをGPT-4の性能に大きく近づけます。
LLaMA 2は研究目的および商業目的の両方で完全にオープンソースです。ほぼ完全にオープンソースです。
それについてはまた後で話そう。
私は76ページのホワイトペーパーを読みましたし、すべてのニュースも読みました。そして今日の動画では、学んだ中で最も興味深いことをすべて共有します。
ビデオの最後には、今日からLLaMA 2を使い始める方法をお見せします。
さあ、始めよう!
今朝リリースされたばかりのLLaMA 2は、メタAIによると、クローズド・ソース・モデル、別名ChatGPTの代替になるとのことです。
Meta AIは引き続きオープンソースコミュニティに貢献していますが、正直言って、それは私自身にとって本当に驚きです。
世界のトップテック企業とHugging Facesオープンソースコミュニティへの貢献のグラフを見てください。
このようなモデルを作成するのに必要なリソースを考えると、これは特に真実である。世界で最も賢い人々、1トンの計算能力、高価なデータセット、データセットだけで2500万ドルという試算もある。
LLaMA 2のホワイトペーパーは膨大で、モデルの詳細、トレーニング段階、ハードウェア、データ・パイプライン、アノテーション・プロセスなど、すべてのレシピが綴られている。
それでは、もう少しスペックを説明しよう。
LLaMAには2つのフレーバーと3つのサイズがある。
ベースとなるLLaMA 2モデルと、対話に特化したLLaMA 2チャットモデルがある。
どちらも70億、130億、700億のパラメーターサイズがある。
また、多くの人が大規模言語モデルのスイート・スポットと考える340億パラメータも作成したが、公表はしていない。
それについてはまた後で話そう。
LLaMA 2は、NVIDIA a100GPUのクラスタを使ってトレーニングされた。NVIDIAは、現在進行中のAIの波から恩恵を受け続けている。
MetaはLLaMA 2を40以上のデータセットでトレーニングし、コンテキストのサイズを2,000から4,000トークンに倍増させた。
現在、4,000はまだそれほど大きくないが、LLaMA 1モデルでそうであったように、その後の微調整されたモデルは、コンテキストウィンドウのサイズを大幅に拡大する可能性が高い。
また、より大きなモデルの推論スケーラビリティを向上させるために、グループ化されたクエリー・アテンションと呼ばれる新しい技術も使われる。
最後に、私が本当に興味深いと思うことだが、彼らはホワイトペーパーと発表の一部として、実際に二酸化炭素排出量について話している。
学習プロセスにおいて、これらのモデルは膨大な計算能力を必要とし、その計算能力はすべて電力で賄われている。
もちろん、その電力の生産による炭素排出もあります。
だから、効率と環境への悪影響を考慮すれば、私は良いことだと思う。
さて、私が驚いたこと、そして非常に興味深いと思ったことのひとつは、メタがこの件でマイクロソフトと提携したことだ。
もちろん、マイクロソフトは完全にクローズド・ソースの大規模言語モデルであるOpenAIに莫大な投資をしている。
では、なぜそのようなことをしたのでしょうか?
ChatGPTと明らかに競合しているのに、なぜマイクロソフトはオープンソースのモデルと提携したのでしょうか?
さて、発表を見てみましょう。
私たちは、開発者が構築するモデルの種類に選択肢を提供し、オープンとフロンティアのモデルをサポートします。そして、LLaMA 2の新バージョンを初めて商用顧客にリリースする際に、metaの優先的なパートナーとなることに興奮しています。
ここで、フロンティアというキーワードを指摘しておきたい。
それは最先端のモデル、別名GPT-4を指しています。
つまり、オープンソースモデルとGPT-4という優れたモデルを明確に区別しているのだ。
ですから、これはMicrosoftが投資し、オープンソースに貢献するという細かいバランスです。それは彼らのCEOであるサティア・ナデラのおかげで、彼らの文化の中核要素となっており、また、オープンAIとChat GPTへの数十億ドルの投資を保護することでもあります。
さて、私がLLaMA 2の最も重要だと考える点について話そう。
LLaMA 1に話を戻すと、それは信じられないほどパワフルなモデルで、metaからリークされ、微調整されたバージョンの波を生み、オープンソースのllmルームに火をつけた。
しかし、LLaMA 1の大きな欠点は、商業的に利用できないことだった。
研究目的で使うことはできるが、その上に製品や会社を作ることはできなかった。
しかし今、LLaMA 2は商業的に実行可能です。
しかし、LLaMA 2はほぼ完全にオープンソースだと言ったことを覚えているだろうか?
さて、それには1つ注意点があることがわかった。
LLaMA 2の上に構築された製品に7億人以上のユーザーがいる場合、それを使用するにはmetaの許可を得る必要があるのだ。
もちろん、それは企業として抱えるべき問題のひとつであることは想像に難くない。
製品を7億人のユーザーを持つまでに成長させるのであれば、おそらくそのような議論をしたいでしょうし、あるいはすでに独自の内部モデルに投資していることでしょう。
では、なぜそのようなことをしたのでしょうか?
彼らはそれを彼らの最大の競合他社に対してモデルを守るために行いました。
グーグルやマイクロソフト、アマゾンがLLaMA 2を利用し、その上に巨大な製品を構築するのを防ぐためだ。
だから、99.9パーセントのケースでは商業的に実行可能だが、完全にオープンソースで商業的に実行可能とは言えない。
もし私が別の会社を設立するのであれば、LLaMA 2の上に構築し、7億ユーザーの橋を渡るリスクを冒すだろう。
ただ、研究論文や発表に本当に欠けているのは、それのコーディング能力です。
私が調べたところでは、あまり強力なコーディング能力はないようだ。
実際、GPT-4のコーディング能力は、LLaMA 2で可能なものをはるかに凌ぐと言われているのを見たことがある。
さて、LLaMA 2の作業の多くが主眼を置いていると思われる安全性について話そう。
実際、LLaMA 2のホワイトペーパーのほぼ半分が、安全ガードレール、レッドチーム、評価についての記述に費やされている。
さて、ここで340億パラメータモデルに話を戻そう。
なぜ公表しなかったのでしょうか?
彼らは70億パラメーターモデル、130億パラメーターモデルを持っていますが、34億パラメーターモデルは持っていたけどリリースしなかったんです。
その結果、340億パラメータモデルは、他のバージョンのモデルよりも安全性が著しく低いことが判明した。
そのため、レッドチームを十分に行い、安全性をより良いものにする時間がないため、340億パラメータモデルの公開を延期すると発表したのです。
LLaMA 2が他のモデルよりどれだけ安全かを理解するために、このグラフを見てみましょう。
左側にある濃い青色のものは、LLaMA 2モデルです。
右側はオープンソースとクローズドソースのモデルです。
これは違反率で、数値が低いほど良いです。
つまり、基本的に、大規模な言語モデルは、ガイドラインに違反する結果をどのくらいの頻度で出したのでしょうか?
左側をよく見ると、70億、130億、700億のパラメータ・モデルは、違反率という点ではどれもほぼ同じです。
しかし、340億パラメータモデルは他のモデルの2倍です。
そのため、彼らは340億パラメータモデルの発表を延期しているのです。
しかし、私は個人的にこの特定のサイズに非常に期待しています。なぜなら、素晴らしい品質を持つのに十分な大きさでありながら、ハイエンドのコンシューマーグレードのGPUに搭載できるほど小さいからです。
現在、LLaMA 2は検閲されているが、もしLLaMA 1のようなものであれば、検閲を事実上完全に取り除く微調整されたバージョンが登場するだろう。
安全性と有用性について言えば、伝統的にこの2つはトレードオフの関係にある。
トレーニング中に安全性に報酬を与えれば与えるほど、モデルの有用性は低下する。
しかし、この論文の大きな進歩の1つは、Metaがその問題を2つの報酬モデルアプローチで解決したように見えることです。1つは有益さのためのもの、もう1つは節約のためのものです。
この報酬モデルはまだ発表されていないが、ぜひ発表してほしいものだ。
さて、そんなことはさておき、metaは依然としてLLaMA 2とフロンティアモデルとの間には大きな性能差があると言っている。
フロンティアモデルは、オープンAiのGPT-4とグーグルのパーム2だ。
はい、では今度は皆さんが聞きたいと思っている部分、これを今日どのように使うか、実際に教えます。
モデル、重み、コードはmetaのHugging Faceリポジトリからダウンロードできる。
すでに7Bモデルと13Bモデルの完全ホスティング版が存在しています。それらはすべて以下の説明欄にリンクを貼っておきます。
私は、ベースモデルとそのすべての異なるサイズだけでなく、LLaMA 2モデルから生まれる必然的な微調整されたバージョンすべてについて、広範囲にテストを行う予定だ。
すべてのバージョンを私のllmルーブリックにかけ、その結果を報告するつもりだ。
もしこの動画が気に入ったら、高評価とチャンネル登録をお願いします。次の動画でお会いしましょう。