Grok1.5がリリースされ、HumanEvalでGPT-4を抜いた！

2024年3月29日 20:44

xAIは10時間前にGrok1.5を発表しました。コーディング能力であるHumanEvalはGPT-4を抜きましたが、Claude 3 Opusを抜く事はできませんでした。

能力と推論

Grok-1.5 での最も顕著な改善点の 1 つは、コーディングおよび数学関連のタスクにおけるパフォーマンスです。私たちのテストでは、Grok-1.5 は MATH ベンチマークで 50.6% のスコア、GSM8K ベンチマークで 90% のスコアを達成しました。この 2 つの数学ベンチマークは、小学校から高校までの競技問題の幅広い範囲をカバーしています。さらに、コード生成と問題解決能力を評価する HumanEval ベンチマークでも 74.1% のスコアを獲得しました。

HumanEvalとは

HumanEvalは、プログラミングの問題とその答えを集めたデータセットです。OpenAIが人間のプログラマーによって解かれたプログラミングの問題を集めて作成したもので、AIのプログラミング能力、特にコード生成に関するモデルを評価するために使用されます。このデータセットは、プログラムの問題とそれに対する解答例が含まれており、AIがどれだけ人間のようにプログラミング問題を理解して解けるかをテストするために利用されます。具体的には、コーディングにおける論理的思考、問題解決能力、コードの正確性などを測定するのに役立ちます。

長い文脈の理解

Grok-1.5 の新機能は、コンテキストウィンドウ内で最大 128K トークンの長いコンテキストを処理する機能です。これにより、Grok のメモリ容量は以前のコンテキスト長の最大 16 倍に増加し、大幅に長いドキュメントの情報を利用できるようになります。

Grok-1.5 インフラ

大規模な GPU クラスター上で実行される最先端の大規模言語モデル (LLM) 研究には、堅牢で柔軟なインフラストラクチャが必要です。 Grok-1.5 は、JAX、Rust、および Kubernetes に基づくカスタム分散トレーニングフレームワークに基づいて構築されています。このトレーニングスタックにより、チームは最小限の労力でアイデアのプロトタイプを作成し、新しいアーキテクチャを大規模にトレーニングできるようになります。

大規模な計算クラスターで LLM をトレーニングする際の主な課題は、トレーニングジョブの信頼性と稼働時間を最大化することです。Grokのカスタムトレーニングオーケストレーターにより、問題のあるノードが自動的に検出され、トレーニングジョブから除外されます。また、障害発生時のダウンタイムを最小限に抑えるためにチェックポイント設定、データ読み込み、トレーニングジョブの再開も最適化されました。

イーロン・マスクは2025年にAGIを作ると言っているが

果たして来年xAIのAGIは誕生するのでしょうか？Claude 3 Opusと、GPT-4の両方に検証してもらいました。

Claude 3 Opus返答：

2025年までにAGIを開発するというイーロン・マスク氏の主張については、確信を持って言うのは難しいです。 AI 機能の急速な進歩は目覚ましいものですが、ほとんどの専門家は、あらゆる領域で人間レベルの推論に匹敵する汎用人工知能の実現にはまだかなり遠いと考えています。 AI 研究者を対象とした 2022 年の調査では、AGI は 2059 年までに開発されるとの推定中央値が示されています。したがって、専門家のコンセンサスに基づくと、2025 年のタイムラインは非常に楽観的であるように見えます。しかし、タイムラインを予測するのは難しく、予期せぬ突破口が常に可能です。

Anthropic については、公式声明によると、人類を助けるための安全で倫理的な AI システムの開発に重点を置いているようです。しかし、彼らはAGIに積極的に取り組んでいるとは主張していない。憲法 AI に関する彼らの取り組みは、人間の価値観に沿って行動する AI アシスタントを作成することを目的としています。完全な AGI が彼らにとっての目標であるとしても、それはおそらくはるかに長期的な願望となるでしょう。短期的には、Claude のような現行モデルの反復的な改善が優先事項になるようです。

Claude 3 Opus

GPT-4返答：

AGI（汎用人工知能）は、どんな知的タスクも人間と同等にこなすことができるAIシステムのことを指します。イーロン・マスクが2025年にAGIを作るという話は、彼が関わるプロジェクトや企業の目標を示しているのかもしれませんが、AGIの開発に関する予測は非常に困難です。現在、OpenAIを含む多くの研究機関がAGIへ向けて研究を進めていますが、具体的な完成の時期についてははっきりしたことを言うのは難しいです。

AGIの開発には、コンピュータサイエンス、神経科学、心理学、倫理学など、多岐にわたる分野の知見と技術の融合が必要とされます。それに加えて、未来の社会や人類に対する責任を考えると、ただ技術的に可能であるだけではなく、安全性や倫理的な配慮も重要な要素になります。

OpenAIは、AGIを安全かつ責任を持って開発することを目指し、その進捗は社会的な影響や技術的な課題によって変わってきます。したがって、OpenAIからAGIがいつ「完成」するかについては、現時点では予測することはできませんが、OpenAIのミッションは人類全体に利益をもたらすような方法でAGIを実現することにあります。

GPT-4

付録で、Google GEMINIの意見も聞いておきました。
GEMINI返答：

イーロン・マスク氏が2025年にAGIを作ると言っていることについて、実現可能性は様々な意見があります。

実現可能だと考える意見マスク氏は優秀なエンジニアチームを率いており、過去にも不可能と思われていたことを実現してきた実績がある。
AI技術は近年急速に進歩しており、AGI開発に必要な技術も着実に進歩している。
マスク氏は莫大な資金を投入しており、AGI開発に必要なリソースを確保できている。

実現困難だと考える意見AGI開発は非常に難易度の高い課題であり、まだ多くの技術的な課題が残っている。
2025年という期限は短すぎる。
マスク氏は過去にも楽観的な発言をして、後に延期されたことがある。

GoogleのAGI開発については、具体的な時期は公表されていません。しかし、GoogleはAI研究に積極的に投資しており、世界トップレベルの研究者を多数擁しています。そのため、将来的にGoogleがAGI開発を成功させる可能性は十分にあると考えられます。

AGI開発の課題

AGI開発には、以下のような課題があります。脳の仕組みを解明すること
人間レベルの知能を人工的に実現すること
安全性を確保すること

これらの課題は非常に難易度の高いものですが、世界中の研究者たちが日々研究開発を進めており、着実に進歩しています。

AGI開発の将来

AGI開発は人類にとって大きな挑戦であり、成功すれば社会に大きな変革をもたらす可能性があります。しかし、同時に倫理的な問題や安全性の問題など、多くの課題も存在します。

今後、AGI開発がどのように進展していくのか、そしてどのような社会をもたらすのか、注目していく必要があります。

GEMINI

この記事が気に入ったらサポートをしてみませんか？