見出し画像

ゴールドメダリストのコーダーたちが、自分たちの仕事を代行するAIを構築Meta、2つの新しい24k GPU AIクラスターの詳細を公開



サイード・エザティ
2024年3月13日翻訳記事

電子メールのfb tw

今日のメール
LLMをブレンドして最高のAIモデルを作る

SXSWで大喝采を浴びた反AI感情

🧑‍💻 AIがソフトウェア・エンジニアの需要をどのように破壊するか

10の新しいAIツールとリソース。ツールの全リストはオンライン版をご確認ください。

初のAIソフトウェア・エンジニア、デヴィンを紹介

Cognition社の画期的なAIソフトウェアエンジニアであるDevinをご紹介します。Devinは、様々なソフトウェアエンジニアリングのタスクにおいて、人間と共に、または単独で作業できるように設計されています。Devinは、複雑なエンジニアリングの課題を計画、実行、学習することができ、サンドボックス環境内で開発者ツールを装備しています。ありふれたタスクを処理することで生産性を向上させ、エンジニアがより複雑な問題に集中できるようにします。

Devinの素晴らしい機能には、新技術の学習、アプリケーションの構築とデプロイ、バグの発見と修正、さらにはAIモデルのトレーニングまで含まれる。Devinは、SWE-benchベンチマークで、実世界のGitHubの問題の13.86%を解決し、これまでの最高1.96%から大きく飛躍した。

Devinを支えるAIラボであるCognitionは、AIの推論を進化させ、現在のAIツールを凌駕するAIチームメイトを生み出すことに専念している。著名な業界リーダーに支えられ、多額のシリーズA資金を調達しているコグニションは、AIによって人間の能力を強化することで、様々な分野に革命を起こすことを目指している。

関連記事 金メダリストのコーダーが自分の仕事を代行するAIを構築

WaveのAIコーチと一緒に仕事の目標を達成しよう

今日、トップレベルの人材は、職場で直面する以下のような課題に対処するためにコーチングを活用している。

リーダーシップ

時間管理

問題解決能力

プロフェッショナルとして成長するための現在のアプリや方法論は時代遅れです。

Waveは、毎日のルーチンを構築することでスキルを向上させる革新的な方法を開発しました。

測定可能で簡単🔥です。

Amazon、Stripe、Google、Strapiのリーダーたちがすでに使っています。

今すぐ始めて、優先アクセス権を手に入れよう🙌。

Metaが2つの新しい24k GPU AIクラスタの詳細を公開

Meta社は、従来の16,000 Nvidia A100 GPUから大幅にアップグレードされた24,576 Nvidia Tensor Core H100 GPUを搭載した2つの新しいデータセンター規模のクラスタを発表した。自然言語処理や画像生成などの分野におけるAI研究用に開発されたこれらのクラスタは、メタ社のAI研究スーパークラスター構想の一環である。同社は、2024年末までに350,000個のNvidia H100を含むインフラに拡張し、より複雑なAIモデルをサポートする能力を強化する計画だ。

2つのクラスタはネットワークインフラが異なり、一方はRDMA over Ethernetソリューションを使用し、もう一方はNvidia Quantum2 InfiniBandファブリックを採用している。どちらも、大規模AIワークロード向けに設計されたオープンGPUハードウェアプラットフォームであるMetaのGrand Tetonを利用しており、従来のものと比べて帯域幅とパワーが向上している。また、このクラスタにはメタのオープンラックアーキテクチャが採用されており、電源棚の柔軟な配置と、電力効率とスループットのための最適なサーバーバランスを実現しています。

メタは、大規模GPUトレーニングに対応するため、AIソフトウェアフレームワークであるPyTorchを進化させ続けており、オープンなAI開発エコシステムを育成するためにAIアライアンスを導入した。このイニシアチブは、AIの進化における透明性、安全性、責任を確保することを目的としており、将来のAI研究開発の需要に対応するため、インフラの継続的な改善と革新に対するメタのコミットメントを反映しています。

LLMをブレンドして最高性能のAIモデルを作る

このビデオでは、マヤがモデル・ブレンディングと呼ばれる新しい実験技術について説明する。モデル・ブレンディングは、機械学習の専門家でなくても、さまざまなタスクのパフォーマンスを向上させるために、さまざまなモデルを組み合わせることを可能にする。機械学習の素人であるナレーターは、2週間で約20のモデルをブレンドすることに成功し、オープンLLMリーダーボードでのパフォーマンスを向上させた。彼らは、互換性のあるモデルを選択することの重要性や、ブレンドがモデルの性能に与える影響など、モデルのブレンドに関する洞察を共有しています。

ビデオではさらに、モデルブレンドの技術的なプロセスを掘り下げ、タスク演算、スラープ、タイ、ダレ、パススルーなどのさまざまな方法を説明しています。モデルをブレンドするためのPythonツールキットであるMergeKitの使い方をステップバイステップで説明しています。ナレーターは、同じアーキテクチャのモデルを選択する必要性を強調し、ブレンドパラメータを定義するためのYAMLファイルの使用を強調している。その目的は、視聴者がモデルを効率的にブレンドし、さまざまなタスクにおける実用性を最適化できるようにすることだ。

これは、ベンチマークにおけるモデルの性能を歪め、実際よりも効果的であると誤解させる可能性があります。ナレーターは、ブレンドモデルの完全性と有用性を維持するために、トレーニングに使用するデータの純度を確保することを奨励しています。このビデオは、視聴者がよくある落とし穴を避けながら、モデルブレンディングによって独自の高性能LLMを作成できるようになることを目的としています。



この記事が気に入ったらサポートをしてみませんか?