xAIは10時間前にGrok1.5を発表しました。コーディング能力であるHumanEvalはGPT-4を抜きましたが、Claude 3 Opusを抜く事はできませんでした。
能力と推論
Grok-1.5 での最も顕著な改善点の 1 つは、コーディングおよび数学関連のタスクにおけるパフォーマンスです。私たちのテストでは、Grok-1.5 は MATH ベンチマークで 50.6% のスコア、GSM8K ベンチマークで 90% のスコアを達成しました。この 2 つの数学ベンチマークは、小学校から高校までの競技問題の幅広い範囲をカバーしています。さらに、コード生成と問題解決能力を評価する HumanEval ベンチマークでも 74.1% のスコアを獲得しました。
HumanEvalとは
HumanEvalは、プログラミングの問題とその答えを集めたデータセットです。OpenAIが人間のプログラマーによって解かれたプログラミングの問題を集めて作成したもので、AIのプログラミング能力、特にコード生成に関するモデルを評価するために使用されます。このデータセットは、プログラムの問題とそれに対する解答例が含まれており、AIがどれだけ人間のようにプログラミング問題を理解して解けるかをテストするために利用されます。具体的には、コーディングにおける論理的思考、問題解決能力、コードの正確性などを測定するのに役立ちます。
長い文脈の理解
Grok-1.5 の新機能は、コンテキスト ウィンドウ内で最大 128K トークンの長いコンテキストを処理する機能です。これにより、Grok のメモリ容量は以前のコンテキスト長の最大 16 倍に増加し、大幅に長いドキュメントの情報を利用できるようになります。
Grok-1.5 インフラ
大規模な GPU クラスター上で実行される最先端の大規模言語モデル (LLM) 研究には、堅牢で柔軟なインフラストラクチャが必要です。 Grok-1.5 は、JAX、Rust、および Kubernetes に基づくカスタム分散トレーニング フレームワークに基づいて構築されています。このトレーニング スタックにより、チームは最小限の労力でアイデアのプロトタイプを作成し、新しいアーキテクチャを大規模にトレーニングできるようになります。
大規模な計算クラスターで LLM をトレーニングする際の主な課題は、トレーニング ジョブの信頼性と稼働時間を最大化することです。Grokのカスタム トレーニング オーケストレーターにより、問題のあるノードが自動的に検出され、トレーニング ジョブから除外されます。また、障害発生時のダウンタイムを最小限に抑えるためにチェックポイント設定、データ読み込み、トレーニング ジョブの再開も最適化されました。
イーロン・マスクは2025年にAGIを作ると言っているが
果たして来年xAIのAGIは誕生するのでしょうか?Claude 3 Opusと、GPT-4の両方に検証してもらいました。
Claude 3 Opus返答:
GPT-4返答:
付録で、Google GEMINIの意見も聞いておきました。
GEMINI返答: