見出し画像

Weekly AI and NLP News — April 8th 2024

Clip source: Weekly AI and NLP News — April 8th 2024 | by Fabio Chiusano | NLPlanet | Apr, 2024 | Medium

Weekly AI and NLP News — April 8th 2024

ChatGPTは登録無しで使用可能に、Stable Audio 2.0リリース、そしてOpenAIのSoraで作成された最初の音楽ビデオの登場

Fabio Chiusano: NLPlanet

ニュース情報

  • Stability AIのStable Audio 2.0をご紹介。Stable Audio 2.0は、音楽生成AIの重要な進化をもたらし、自然言語プロンプトを介したオーディオからオーディオへの変換を提供し、効果音や改良されたスタイル転送による創造的な可能性を拡大します。最新バージョンでは、簡潔なプロンプトから3分間までの高品質(44.1 kHz)の構造化された曲の生成をサポートしています。

  • ChatGPTの即時利用を開始。ChatGPTは新規ユーザーに即座に利用可能となり、初期のアカウント作成を必要とせずにAIとのインタラクションを提供します。

  • OpenAIのSoraが初のミュージックビデオを制作し、それは幻覚のようです。OpenAIは、テキストからビデオへのエンジンであるSoraの能力を示し、August Kampの曲「Worldweight」のミュージックビデオをエンジンの能力だけで完全に制作しました。

  • OpenAIがカスタムモデルトレーニングプログラムを拡大。OpenAIは、独自の業界ニーズに合わせたAIモデルの開発をサポートするために、カスタムモデルイニシアチブを拡大し、高度なハイパーパラメータの最適化とスケーラブルな手法による強化された微調整に焦点を当てています。これはDevDayで発表されました。

  • LambdaがAI向けのクラウドを拡大するための5億ドルのGPUバック施設を発表。Lambdaは、NVIDIA GPUによって強化されたAI志向のクラウドサービスを拡充するために、シリーズCの投資ラウンドに続いて5億ドルの資金調達に成功しました。

  • テスラがAIチームの報酬を増額:イーロン・マスク。イーロン・マスクのもと、テスラは激化する業界競争の中で専門家を引き留め、新たな人材を引き付けるためにAIチームの報酬を増額しており、エンジニアのイーサン・ナイトがOpenAIの採用試験に続いてマスクのxAIプロジェクトに移籍したことが示されています。この戦略は、テスラの重要な自動運転およびヒューマノイドロボティクスの取り組みへのコミットメントを維持することを目指しています。

技術的なリソース

  • Stanford CS 25 Transformers Course (Open to Everybody)。スタンフォード大学の人気セミナーコース、CS25は、人工知能のTransformerモデルに焦点を当て、プロフェッショナルなライブストリーミングを通じて一般公開されています。2024年春学期では、より大きな会場、社交イベント、ネットワーキングの機会などの改良が予定されています。出席者は、OpenAIやGoogleなどの業界リーダーによる週次セッションを期待でき、デジタルアートや神経科学などの分野に適用されたLLMの進展についてカバーします。

  • Tool use (function calling) with Claude。Claude 3ツールの使用のパブリックベータフェーズが始まり、外部クライアントサイドツールとの強化された相互作用や、タスク機能の拡張のためのカスタマイズ機能が提供されます。

  • Introduction to State Space Models (SSM)。State Space Models (SSM)は、動的システムのための深層学習でますます影響力を持ち、2021年10月の「Efficiently Modeling Long Sequences with Structured State Spaces」論文で注目を集めています。ここでは、実用的な応用では広く使用されていないものの、人工知能の分野でのTransformerアーキテクチャの代替手段の進化を強調する重要な理論的枠組みであるS4モデルに焦点を当てています。

  • AI Infrastructure Explained。この記事では、AI技術の進化におけるAIインフラストラクチャの重要性に焦点を当て、効率的な並列計算のためのGPU、必要なソフトウェアエコシステム、さまざまなGPUクラウドプロバイダについて説明しています。クラウドプロバイダは、Hyperscalers、Specialized Cloud Providers、Inference-as-a-Service/Serverless Endpointsの3つのカテゴリに分類され、多様なAIアプリケーションに対応しています。

論文関連

  • Deepmind Mixture-of-Depths: Speeding Up Models By 50%。研究者たちは、トランスフォーマーベースの言語モデルがシーケンス内の異なる位置に計算リソース(FLOPs)を動的に分配できるようにする方法を開発しました。各層で自己注意とMLP操作に関与するトークンの数を制限するtop-kルーティングメカニズムを導入することで、モデルは事前に設定された計算予算を効率的に管理します。このアプローチにより、同様の計算量と訓練時間を使用する従来のモデルと同等の性能を持つだけでなく、1回のフォワードパスあたりのFLOPsを大幅に削減し、ポストトレーニングサンプリング時に50%以上の速度向上を実現します。

  • Long-context LLMs Struggle with Long In-context Learning。新しい研究では、LongICLBenchというベンチマークを紹介し、大規模言語モデル(LLMs)を長いインコンテキスト学習と極端なラベル分類タスクでテストするよう設計されています。この研究では、入力長が2Kから50Kトークンの6つのデータセットを使用し、モデルが広範な入力と正確な予測のための広範なラベルスペースを理解する必要性を強調しています。13のLLMsの評価は、特に174のラベルを持つ複雑なタスクでの性能が低く、ほとんど理解できないことを示しました。モデルはまた、シーケンスの後半に現れるラベルに偏っており、長く詳細な文脈に対する推論能力の不足を浮き彫りにし、LLMの能力向上のための大きな余地を示唆しています。

  • Training LLMs over Neurally Compressed Text。この論文では、ニューラルテキストコンプレッサによって高度に圧縮されたテキストを使用して大規模言語モデル(LLMs)を訓練する方法について調査しています。これにより、従来のサブワードトークナイザーと比較してパープレキシティが高くなりますが、より短いシーケンス長により、生成ステップが減少し、レイテンシが低下します。

  • Many-shot jailbreaking。この研究では、「many-shot jailbreaking」という技術を紹介し、大規模言語モデルを複数の欺瞞的な対話でだまして禁止された応答を提供させる方法を示しており、この脆弱性とモデルのインコンテキスト学習能力との関連を明らかにしています。

  • Octopus v2: On-device language model for super agent。新しい研究では、20億のパラメータを持つオンデバイス言語モデルを紹介し、精度とレイテンシの観点でGPT-4を上回り、クラウドベースのモデルのプライバシーとコストの懸念に対処しています。

この記事が気に入ったらサポートをしてみませんか?