Ai News: 言語モデルが 9.11>9.9 と考える理由、Signal: ブラウジングを超えて: API ベースの Web エージェント、Andreessen Horowitz が Oxygen プライベート GPU クラスターをリリース、その他

2024年10月25日 23:29

アンドリーセン・ホロウィッツがOxygenプライベートGPUクラスタを発表

a16z としても知られる Andreessen Horowitz は、 AIスタートアップ企業をサポートするために「Oxygen」というプライベート GPU クラスターを立ち上げました。これらの企業にとってこれは素晴らしいニュースです。なぜなら、十分な GPU リソースの入手に苦労することが多いからです。Oxygen クラスターには Nvidia H100 GPU が搭載されており、スタートアップ企業はこれを使用して AI モデルのトレーニングと実行を行うことができます。これにより、高価なクラウドコンピューティングサービスに依存する必要がなくなります。

目標は、Google、Meta、Microsoft などの大手テクノロジー企業と競争できる中小企業を支援することです。これらの大企業は長期契約を結ぶことで多くの GPU リソースを簡単に入手できますが、多くのスタートアップ企業にはその余裕がありません。そこで Oxygen が役立ちます。a16z のパートナーである Anjney Midha 氏は、Nvidia H100 GPU の入手が困難であるため、大手クラウド顧客が最初に入手することが多く、スタートアップ企業にとっては困難になっていると述べています。Oxygen は、長期契約や高額な費用をかけずに、必要なときに GPU リソースを使用する機会をこれらのスタートアップ企業に提供します。

Oxygen はこれらの企業を支援するだけでなく、a16z にも利点をもたらします。GPU リソースを提供することで、a16z はクラウドサービスに支払うだけでなく、スタートアップに直接投資することができます。Oxygen クラスターには 20,000 個を超える GPU を搭載できるため、利用可能な最大のプライベート GPU クラスターの 1 つになります。

最近、a16z の共同創設者である Marc Andreessen が Tom Bilyeu とのインタビューで自身の考えを語りました。こちらでご覧いただけます。

マイルズ・ブランデージが OpenAI を離れ、非営利活動に携わる

長年 OpenAI で政策研究者として働いてきたマイルズ・ブランデージ氏は、非営利セクターで働くために退職する。ブランデージ氏は、より大きな影響を与えるために、自分の研究をよりオープンに共有したいと考えている。ブランデージ氏は 2018 年に OpenAI に入社し、ChatGPT のような言語モデルを責任ある方法で使用する方法に取り組んできた。

マイルズ・ブランデージ氏は、OpenAI の変革期に同社を去る。新チーフエコノミストのロニー・チャタジー氏が今後は経済研究チームを率い、他のチームがブランデージ氏のプロジェクトを引き継ぐことになる。OpenAI の広報担当者はブランデージ氏の選択を支持し、同氏の仕事に感謝の意を表した。

OpenAIでは最近、CTOのミラ・ムラティ氏や最高研究責任者のボブ・マグルー氏を含む上級幹部が相次いで退職しており、社内の方向性の違いが浮き彫りになっている。

Google、AI生成テキスト透かし技術「SynthID Text」を発表

Google は、AI によって作成されたテキストに透かしを入れたり識別したりできる SynthID Text という新しいツールをリリースしました。このツールは、Hugging Face プラットフォームと Google の最新の Responsible GenAI Toolkit を通じて無料で利用できます。SynthID Text は、生成されたテキスト内でトークンが分散される方法を調整し、透かし情報を埋め込むことで機能します。これにより、テキストの見栄えを保ちながら、AI によって生成されたコンテンツを特定できます。

このツールは Google の Gemini モデルに統合されており、切り取られたり、書き直されたり、変更されたりしたテキストでも識別できます。ただし、短いテキスト、翻訳、事実に関する質問への回答にはそれほど効果的ではありません。中国やカリフォルニアのように AI コンテンツに関する世界的な規制が強化されれば、透かし技術はすぐに標準になるかもしれません。

OpenAI、効率性向上のためsCMをリリース

OpenAIは、画像や3Dモデルの作成を大幅に高速化するsCM（Stochastic Consistency Model）という新しい手法を導入しました。わずか2ステップで高品質の結果を生成できるため、特に高解像度の作業では50倍高速になります。たとえば、15億のパラメータを持つモデルは、特別な改良を施さなくても、1つのA100 GPUを使用してわずか0.11秒でコンテンツを作成できます。つまり、sCMは、Stability AIが現在提供している最良バージョンの2倍の速度です。

sCM は、従来の拡散モデルとは異なり、段階的なノイズ除去ステップを省略し、ノイズを直接鮮明な画像に変換します。また、プロセスで時間を処理する新しい方法も導入し、品質と安定性を向上させます。実験では、sCM がさまざまなデータセット、特に ImageNet で非常に優れたパフォーマンスを発揮し、少ない計算能力で 1.88 という優れた FID スコアを達成したことが示されています。このイノベーションにより、ビデオ生成などの分野で推論の負担が軽減され、リアルタイムビデオ作成の新たな可能性が開かれる可能性があります。

第3四半期に大規模モデルプロジェクトが急増

2024年第3四半期には、大規模モデルプロジェクトが大幅に増加し、上半期の276件から369件に達しました。大規模モデルは、特に重要なビジネス領域、人材育成、完全な製品ソリューションなど、さまざまな業界でますます活用されています。9月だけで154件の新規プロジェクトがあり、前月比40％の増加を記録しました。

これらのプロジェクトのほとんどは、北京、広東、上海などの大都市で行われています。エネルギー、教育、政府、金融の各部門は、これらのプロジェクトで非常に忙しくしています。たとえば、中国南方電力網は、大型モデルに関する20以上のプロジェクトを完了しており、そのうち3つは1,000万元を超える費用がかかっています。

プロジェクトを見ると、より多くの資金が投入されていることが分かる。1000万元を超えるプロジェクトが21件、1億元を超えるプロジェクトが2件ある。これらのプロジェクトの用途は多岐にわたるが、依然としてハードウェアの購入に重点が置かれており、投資額の約20％を占めている。企業はまた、この分野のスキル不足を補うために、労働者のトレーニングにより多くの資金を投入している。

Baidu、iFLYTEK、Zhipu AIなどの有名企業はさまざまな分野で成功を収めており、さまざまな分野にわたる大規模モデルの幅広い可能性を示しています。

ElevenLabsによる音声デザイン

自分のアイデアに合う音声が欲しいと思ったのに、なかなか見つからないという経験はありませんか? ElevenLabs は、新しい「音声デザイン」機能でそれを実現しました。テキストプロンプトだけで独自の音声を作成できます。音声をゼロからデザインするようなものです。探している音声がライブラリにない場合は、説明を入力するだけで、音声の準備が整います。このツールは、プロジェクトにカスタムタッチを追加するのに最適です。

Introducing Voice Design.

Generate a unique voice from a text prompt alone.

Is our library missing a voice you need? Prompt your own. pic.twitter.com/ZR21fMb7q7
— ElevenLabs (@elevenlabsio) October 23, 2024

埋め込みの種類: クイックガイド

埋め込みの種類が多すぎて混乱していませんか? あなただけではありません! ここでは、AI プロジェクトに最適な 5 つの一般的な埋め込みの種類について簡単に説明します。

Confused about different embedding types?

You're not alone.

The landscape can be super overwhelming, so here’s a quick rundown of 5 different embedding types for your AI applications:

• Dense Embeddings: The standard form, representing meaning through long sequences of… pic.twitter.com/jd1j17RbcW
— Femke Plantinga (@femke_plantinga) October 23, 2024

高密度埋め込み:データを長い数値シーケンスとして表します。シンプルですが詳細です。詳細はこちらをご覧ください

量子化埋め込み:密な埋め込みに似ていますが、より低い精度 (例: int8) で保存されるため、スペースが節約されます。詳細はこちら。

バイナリ埋め込み:限られた予算でのデータとして考えてください。負の値は 0 に、正の値は 1 になります。非常に効率的です。詳細をご覧ください。

可変次元埋め込み:「マトリョーシカ」スタイル - サイズはニーズに合わせて調整されます。大きいほど良いとは限りません。詳細はこちら。

マルチベクトル埋め込み: 1 つのシーケンスを超えます。例: ColBERT は各単語を個別のベクトルとして保存します。詳細はこちらをご覧ください。

3. Claude 3.5 Sonnet を使用した agent.exe

AIでコンピューターを制御するというアイデアにワクワクしていませんか? 新しい agent.exe アプリは、Claude 3.5 Sonnet でまさにそれを実現します。しかも、オープンソースです! Mac、Windows、Linux で利用できるこのアプリは、ハンズフリーのコンピューター制御に興味のある人なら誰でも利用できます。AI 搭載エージェントで何ができるかを調べるには、素晴らしい方法です。そして、誰にもわかりませんが、2025 年はインテリジェントエージェントが日常のツールになる年になるかもしれません

4.マルチエージェントAIシステムについて学ぶことに興味がある:

CrewAI には、まさにそのための新しいコースがあります。創設者によって作成されたこのコースでは、リードスコアリング、カスタマーサポート、プロジェクト計画などのタスクを処理できるスマートシステムの構築方法を学びます。さまざまなタスクとエージェントを設定し、それらをチームとして機能させ、各ジョブにさまざまな AI モデルを使用する方法を学びます。このコースでは、これらのエージェントを他のシステムに接続し、フィードバックを通じて改善する方法も取り上げます。コースの最後には、ビジネスに真の変化をもたらすカスタムエージェントシステムを作成する方法がわかります。

5. モデルはなぜ 9.11 > 9.9 と考えるのか?

一部の言語モデルが 9.11 を 9.9 より大きいと認識するのはなぜか、不思議に思ったことはありませんか? 理由は想像以上に簡単です。モデルは、通常の数字ではなく「9 月 11 日」のような日付を認識します。TransluceAI のチームは、再トレーニングなしでこの問題を修正する方法を見つけました。これは、AI にも癖があり、時には簡単な調整だけで済むこともあるという楽しいリマインダーです。

ブラウジングを超えて: API ベースの Web エージェント

エージェントがオンラインでどのように機能するかについて考えてみませんか? Web タスクに対処するために、API 専用エージェントとハイブリッドエージェントの 2 種類の AI エージェントが導入されています。API エージェントは、従来のエージェントと同様に、API のみを使用してタスクを完了します。ただし、ハイブリッドエージェントは、API 呼び出しと Web ブラウジングの両方を使用します。WebArena (オンラインタスクのベンチマーク) でテストしたところ、API エージェントはブラウジングベースのエージェントよりも優れたパフォーマンスを発揮しました。さらに印象的なのは、ハイブリッドエージェントが 20% の改善で両方を上回り、タスク全体で 35.8% の成功率を達成したことです。これは、API が利用できる場合、ブラウジングのみよりも強力なアプローチを提供できることを示しています。

In a world where AI agents are traditionally designed to mimic human browsing behavior -- clicking buttons, scrolling, navigating webpages, and interacting with webpages like us -- we asked: What if agents could directly interact with web services using APIs, designed… pic.twitter.com/w148QBTpH0
— Yueqi Song (@yueqi_song) October 23, 2024

https://arxiv.org/pdf/2410.16464

ラマ3モデルファミリー

Llama 3 は、多くの言語を処理でき、問題解決やツールの使用などのタスクを実行できる新しい言語モデルセットです。最大のモデルは 4,050 億のパーツで構成され、非常に長いテキスト (最大 128,000 語) を処理できます。テストでは、Llama 3 は GPT-4 などの他のトップモデルとほぼ同等のパフォーマンスを発揮しました。Llama 3 にはさまざまなバージョンがあり、その中には Llama Guard 3 と呼ばれる追加のセキュリティ用のバージョンもあります。画像、ビデオ、サウンドも理解して処理できるため、あらゆる種類のコンテンツを扱うのに非常に便利です。

did you notice something new on arxiv today? pic.twitter.com/iuwPve2gZf
— AK (@_akhaliq) October 23, 2024

調査エージェントによる言語モデルにおける行動の引き出し

言語モデル (LM) は、そのオープンエンドな性質により、さまざまな動作を示すことができます。調査エージェントは、望ましくない反応や知識のギャップなどの特定の動作を検索することで、これらの動作の調査に役立ちます。この動作の引き出しは、潜在的なリスク (モデルの「脱獄」など) を特定し、モデルの安全性と信頼性を向上させるのに役立ちます。

ラピッドサブ

RapidSubs は、99 の言語で字幕を作成できる、無料で使いやすいアプリです。TikTok、YouTube、その他のプラットフォームに最適で、ユーザーは字幕をカスタマイズしてエンゲージメントとアクセシビリティを向上させることができます。登録は必要ありません。

ハギングフェイス & Github

Aimgen.ai: AI画像生成の頼れるツール

Aimgen.ai は、 AIで画像を作成するための使いやすい Web サイトです。モダンなデザインとシンプルなレイアウトがユーザーを魅了します。主な機能には、Figma、Sketch、Adobe XD、Adobe Photoshop の 4 つの一般的なファイル形式をサポートするランディングページが含まれます。これにより、画像を簡単にカスタマイズできます。

投資ニュース: グラノーラが2,000万ドルを確保

会議メモを取るための AI 搭載アプリである Granola は、シリーズ A 資金調達で 2,000 万ドルを調達しました。この印象的なラウンドは Spark Capital が主導し、Nat Friedman や Lightspeed などの著名な投資家が資金を提供しました。Granola は、AI テクノロジーを使用してユーザーが会議を記録し、メモを改善するのに役立ちます。2023 年 5 月のリリース以来、5 倍の成長を遂げ、今ではベンチャーキャピタリストだけでなく幅広いユーザーを魅了しています。

このアプリは、カレンダーや Zoom などのビデオツールにリンクして、会議の音声を録音し、メモを自動的に整理します。特別な機能により、ユーザーは会議中に重要なポイントを書き留めることができ、AI がこれらのメモを改善します。Granola は、新しい資金を活用してエンジニアリングチームを拡大し、CRM 統合や来年予定されているモバイルアプリなど、企業向けの新機能を追加する予定です。

Fixify、ITソリューション向けに2,500万ドルを調達

自動化と人間の専門知識を組み合わせてITの問題に取り組むスタートアップのFixifyは、シリーズAラウンドで2,500万ドルを調達しました。この資金調達ラウンドは、Costanoa VenturesとDecibel Partnersが主導しました。2023年に設立されたFixifyは、テクノロジー企業がリソースに多額の投資をすることなくITの問題を効率的に解決できるようにすることを目指しています。

同社はこの資金を使ってチームと顧客基盤を拡大する予定で、現在15社にサービスを提供しています。FixifyはJiraやServiceNowなどの既存のITシステムに接続し、ITの問題の分類と解決を容易にします。このモデルは生産性を高め、コストを削減するため、多くの投資家の注目を集めています。

詳細については、Fixify の Web サイトをご覧ください。

Sensei、非接触型店舗向けに1,600万ドルを確保

ポルトガルのスタートアップ企業Senseiは、ヨーロッパでの非接触型店舗技術を強化するために1500万ユーロ（約1600万ドル）を調達した。この資金調達はBlueCrow Capitalが主導し、さまざまな投資家からの寄付も含まれており、小売分野での事業拡大を目指している。

Senseiは、コンピュータービジョンやAIセンサーなどの先進技術を活用して買い物をより簡単にする。同社は2026年までに中央ヨーロッパと北ヨーロッパに1,000の完全自動化店舗を展開することを目指している。今回の資金調達は、非接触型ショッピング市場での成長と他社との競争に役立つだろう。

Zhiyuan Lingxi X1 オープンソースプロジェクト

概要: このプロジェクトは、完全なヒューマノイドロボットの設計とコードを誰でも使用できるように共有するという点で特別です。

提供されるリソース: 図面、図表、手順書など、1.2 GB を超えるソフトウェアおよびハードウェアマテリアルが含まれています。これらは、開発者がロボットを自分で構築するのに役立ちます。

組み立て：初心者でもロボットを組み立てて歩かせることができます！

ソフトウェアコンポーネント: ロボットの動作をシミュレーション、学習、制御するためのコードが多数含まれています。

機械設計: ロボットは PowerFlow R86 および R52 と呼ばれる特殊なモーターを使用します。これにより、ロボットの動きがより簡単になり、制御性が向上します。

グリッピングテクノロジー: OmniPicker と呼ばれる特殊なグリッパーが搭載されており、ロボットが効率的に物を拾うのに役立ちます。

ダウンロードリンク:

BOMと図面:

入手先: Baidu Cloud と Google Drive で見つけることができます

コードリポジトリ:

コードの種類: 使用できるコードには、推論コードとトレーニングコードの 2 種類があります。

Triton & vLLM ワークショップ:

イベントの焦点: このワークショップでは、Triton コンパイラーテクノロジの新しい改善点と、それが推論を支援する大規模モデルでどのように機能するかについて説明します。

目標: 中国における技術交流を促進し、Triton テクノロジーを推進することを目指します。

主なトピック: カーネルの最適化、パフォーマンスの向上、さまざまな企業の実践的なケーススタディが含まれています。

ビデオリプレイ: こちらから視聴

PPT ダウンロード: Baidu Cloud

OpenAI Triton コンパイルプロセス

アーキテクチャ: Triton コンパイラのステージ (フロントエンド、オプティマイザー、バックエンド) について説明します。

プロセス: Triton が Pythonカーネルを GPU 向けに最適化されたマシンコードに変換する方法を説明します。

IR レイヤー: 中間表現 (IR) の 3 つのレイヤー (Triton IR、Triton GPU IR、LLVM IR) について説明します。

Ray 分散コンピューティングフレームワークの紹介

概要: カリフォルニア大学バークレー校 RISELab によって開発された Ray は、特に AI およびビッグデータアプリケーション向けに分散コンピューティングを最適化します。

機能: Plasma 経由のメモリ共有、ハイパーパラメータ調整および強化学習の機能が含まれます。

Dask との比較: Ray は機械学習プロセスの強化に重点を置いていますが、Dask は大規模なデータサイエンスに重点を置いています。

LLM データ管理

SemDeDup メソッド: 大規模な Web データにおけるセマンティック重複排除の手法を導入し、パフォーマンスを犠牲にすることなく冗長性を削減することでトレーニング効率を向上させます。

冗長データのカテゴリ

冗長データとは何ですか? 冗長データとは、機械学習モデルのトレーニングを遅くする可能性のある余分な情報または重複した情報です。

冗長データの種類:

重複エントリ: これらは同じデータのコピーであり、モデルを混乱させる可能性があります。

不要な機能: 一部のデータポイントはモデルの学習に役立たない可能性があるため、削除できます。

トレーニング効率への影響: 冗長データが多すぎると、モデルが迅速かつ効果的に学習することが難しくなります。

大規模言語モデル (LLM) のための CUDA フリー推論

パフォーマンスメトリック: Triton を使用すると、さまざまなモデルに対して CUDA が提供する速度の 78% ～ 82% を実現できます。つまり、CUDA がなくても高速に作業できるということです。

カーネル最適化: Triton は、カーネルと呼ばれるモデルによって実行される作業を高速化するのに役立ちます。これは、Transformer モデルが結果をどれだけ速く提供できるかを向上させるために重要です。

自己回帰言語モデルの推論能力

トレーニング方法: 自己回帰モデルは、一度に 1 つの単語を推測して学習します。この方法は、実際の推論に関してはいくつかの制限があります。

将来の方向性: これらのモデルをより適切に推論できるように構築するための新しい方法を考える必要があります。

大規模モデルにおける従来の NLP の重要性

大規模モデルの利点: 大規模モデルは、コンテキストを理解し、例から一般化し、さまざまな機能を表現するのに優れています。小規模モデルよりも学習と適応が優れています

Ai News: 言語モデルが 9.11&gt;9.9 と考える理由、Signal: ブラウジングを超えて: API ベースの Web エージェント、Andreessen Horowitz が Oxygen プライベート GPU クラスターをリリース、その他