AIニュース:Twitter RunwayがAct-One、Investment CrewAIがサードパーティのモデルを使用してビジネスタスクなどを自動化
OpenAIが初のチーフエコノミストを採用
OpenAIは、初のチーフエコノミストとしてアーロン・チャタジー氏を任命した。チャタジー氏は以前、バイデン大統領の下で米国商務省のチーフエコノミストを務め、オバマ大統領の経済諮問委員会の上級エコノミストでもあった。また、デューク大学でビジネスと公共政策を教えている。OpenAIでは、経済成長や雇用機会などのトピックに焦点を当て、人工知能( AI)が経済にどのような影響を与えるかを研究する。
チャタジー氏は、米国でのコンピューターチップ開発に約2,800億ドルを割り当てた2022年のCHIPS法の施行に尽力した。同氏の経験と人脈は、OpenAIがチップ設計を模索する上で有益となる可能性がある。
同日、OpenAIはスコット・スクールズ氏を最高コンプライアンス責任者として採用した。スクールズ氏は米国司法省の司法次官補を務めた経歴を持ち、Uberのコンプライアンスチームを率いた。同氏はOpenAIの取締役会やチームと協力し、同社が法律を遵守し、倫理基準を維持するよう努める。
Anthropic が新しい Claude 3.5 Sonnet AI モデルをリリース
Anthropic は Claude 3.5 Sonnet モデルのアップグレード版をリリースしました。このモデルでは、「Computer Use」API と呼ばれる機能を通じてデスクトップ アプリケーションを制御できるようになりました。この新しい機能により、モデルはキーボード入力、マウス クリック、カーソルの動きをシミュレートし、事実上、人間がコンピューターを使用しているかのように動作します。開発者は、Anthropic API、Amazon Bedrock、Google Cloud の Vertex AI を通じてこの機能をテストできます。
主な特徴:
スクリーンインタラクション: Claude 3.5 Sonnet は、スクリーンショットを使用してユーザーインターフェイスを分析し、クリックなどのアクションを実行するためのマウスの動きを追跡できます。また、ソフトウェアツールを使用して、データ処理やフォームの入力などの複雑なタスクに取り組むこともできます。
パフォーマンスの向上:更新されたモデルは、命令実行とツール使用の精度が向上し、エンコード タスクにおいて OpenAI の GPT-4o を上回りました。マルチステップ タスクを処理し、間違いがあった場合に自動的に修正できます。
制限事項:多くのデスクトップ コマンドを実行できますが、スクロール、ズーム、および一部のクイック アクションには対応していません。Anthropic では、簡単なタスクから始めることを推奨しています。
セキュリティ対策: Anthropic は、この機能の潜在的なセキュリティ リスクを認識しています。同社は、ソーシャル メディアや政府の Web サイトとのやり取りを回避するための高リスク操作分類器など、悪用を防ぐシステムを構築しています。また、API 経由で生成されたスクリーンショットは、参照用に少なくとも 30 日間保存されます。
市場アプリケーション: Claude 3.5 Sonnet の初期ユーザーには、アプリケーション検証を自動化する Replit が含まれ、Canva はデザイン タスク向けの機能を検討しています。Anthropic は、より低コストでより優れたツールの使用を実現するため、よりコスト効率の高いバージョンである Claude 3.5 Haiku をリリースする予定です。
Stability AI、多様な画像のための新しい安定拡散モデルを発表
Stability AI は、より多様な画像を作成することを目的とした最新の画像生成モデル、Stable Diffusion 3.5 シリーズを発表しました。このシリーズには以下が含まれます。
Stable Diffusion 3.5 Large:最大 1 メガピクセルの画像を生成できる最も強力なモデルです。
Stable Diffusion 3.5 Large Turbo:画質は若干劣りますが、より高速なバージョンです。
Stable Diffusion 3.5 Medium:モバイル デバイスとラップトップ向けに設計されており、0.25 メガピクセルから 2 メガピクセルの画像解像度をサポートします。Medium バージョンは 10 月 29 日にリリースされます。
3.5 シリーズは、複雑なプロンプトを必要とせずに、さまざまな肌の色や特徴を持つ人々の画像を作成できます。最高技術責任者の Hanno Basse 氏は、トレーニング中に複数のプロンプト バージョンを使用して、モデルが幅広い画像の概念を理解できるようにしたと説明しました。
他の企業も同様の機能を試したが、ソーシャルメディアで反発を受けた。Stability 新しいバージョンでもあいまいなプロンプトに基づく出力品質に問題がある可能性があることを認めている。
ライセンス モデルは変わりません。非商用利用の場合は無料ですが、100 万ドルを超える収益を上げている企業にはエンタープライズ ライセンスが必要です。Stability AI は、微調整とカスタマイズのための ControlNet モデルをまもなくリリースする予定です
新しい Mochi オープンソース ビデオ生成モデル
Mochi 1 は、優れたモーション パフォーマンスとテキスト プロンプトへの応答性を提供する新しいオープン ソース ビデオ生成モデルです。Apache 2.0 ライセンスに基づいて構築されており、現在は 480p 解像度のビデオ生成をサポートしていますが、後日 720p HD バージョンも予定されています。このモデルは 30fps のフレーム レートを実現し、最大 5.4 秒の長さのビデオを作成でき、流体や髪の動きなど、高い一貫性とリアルな効果を実現します。
Mochi 1 は 10 億のパラメータ拡散モデルに基づいており、現在利用可能な最大のオープンソース ビデオ ジェネレーターとなっています。長いビデオ コンテキストを処理でき、独自のフィードフォワード レイヤーやクエリ キーの正規化などの最適化機能を備えています。このモデルは、共同プロンプト エンコーディングを使用する従来のモデルとは異なり、テキスト処理に単一の T5-XXL モデルを使用します
極端に動きの激しいシーンでは時々苦労しますが、将来のバージョンでは解像度と制御の向上を目指しています。Mochi 1 は研究と商業の両方での使用を想定して設計されており、エンターテイメント、教育、ロボット工学などの分野に革新的なソリューションを提供します。
Runway が Act-One をリリース: キャラクター パフォーマンスを簡単に作成
複雑な設定に悩まされることなく、キャラクターが生き生きと動くのを見たいと思ったことはありませんか? Runway の Act-One をご紹介します! この新しいツールを使用すると、1 つのビデオとキャラクター画像だけを使用して、素晴らしいキャラクター パフォーマンスを生成できます。複雑なモーション キャプチャや複雑なリギングは必要ありません。
Act-One は何をしますか?
Act-One は、俳優の演技の特別な雰囲気を捉え、それを使ってキャラクターをアニメーション化します。以前は、顔のアニメーションを作成するのは少し面倒でしたが、今では、携帯電話で撮影できる簡単なビデオだけが必要です。
複雑な設定は忘れてください。1 つのビデオをさまざまなキャラクター デザインやスタイルに適用できます。映画のようなシーンを作成する場合でも、リアルな表現を作成する場合でも、Act-One を使用すると簡単にできます。さまざまなカメラ アングルと焦点距離に対応しているため、キャラクターがさまざまな感情を美しく表現できます。
そして、ここがエキサイティングな部分です: Act-One はまもなく誰でも試すことができます!
Perplexity が Pro Search を導入: クエリをレベルアップ
Perplexity が新しくなりました。新しい Pro Search モードでは、より深く、より階層化された質問をして、好奇心を刺激することができます。つまり、複雑なトピックに深く入り込み、自分に合った回答を得ることができます。
実際に動作しているところを見てみたいですか? サンプルクエリを試してみて、Perplexity が質問にどのように適応するかを確認してください。
イデオグラム キャンバス: クリエイティブな遊び場
画像に関するあらゆるニーズに応えられる無限のスペース、Ideogram Canvas をご紹介できることを嬉しく思います。写真やブランド画像を簡単にアップロードし、当社の優れた Magic Fill 機能と Extend 機能を使用して、AI が生成した素晴らしいコンテンツと組み合わせることができます。創作を楽しんでください。
このツールは、画像の整理、生成、編集、結合をすべて 1 か所で行うのに最適です。
DreamCut AI: 簡単なビデオ編集
動画を簡単に編集したいですか? DreamCut をチェックしてください! この AI動画エディターはブラウザーで動作するため、どのデバイスでも使用できます。3 か月の努力と 50,000 行を超えるコードを経て、DreamCut は動画編集をより快適にします。
DreamCut を使用すると、AI 音声ダビング、スマート チャット アシスタント、インスタント メモ、目を引くビデオ/画像生成などにより、コンテンツを強化できます。現在は初期ベータ版であるため、無料アカウントにサインアップして機能を試してみることができます。
Replit のエキサイティングなアップデート: Claude の新機能
Replit の会長から素晴らしいニュースが届きました。Claude のコンピューター使用機能が、Replit Agent で正常に動作するようになりました。つまり、人の助けを借りずに自力で実行できるエージェントの実現に近づいているということです。楽しみな時代がやって来ます!
シグナル: データ最適化に関する新たな研究
新しい研究では、適応型データ最適化 (ADO) について説明しています。これは、モデルをトレーニングするときにさまざまなデータ ソースを管理するのに役立ちます。ADO はスケーリング法則を使用して、必要に応じてデータの組み合わせを変更し、トレーニング プロセスを容易にし、より適切に成長できるようにします。
https://arxiv.org/pdf/2410.11820v1
事実、フェッチ、推論: 言語モデルのテスト
大規模言語モデル (LLM) が実際の状況でどの程度うまく機能するかを確認するために、FRAMES と呼ばれる新しいデータセットが作成されました。このデータセットは、LLM が正確な回答を提供できるか、重要な情報を見つけられるか、複雑な質問を検討できるかどうかを確認し、LLM の機能を完全に理解できるようにします。
言語モデルの透かし
ウォーターマークは、大規模な言語モデルの出力を追跡するための一般的な方法になりつつあります。新しい方法では、モデルの内部に直接アクセスしなくてもウォーターマークを行うことができるため、ユーザーはこの機能をより簡単に利用できるようになります。
https://arxiv.org/pdf/2410.02099
GUI エージェント: デジタル世界を探索する新しい方法
新しい論文では、グラフィカル ユーザー インターフェイス (GUI) エージェントの改善方法に関する興味深いアイデアが紹介されています。エージェントは、私たちが周囲を見るときと同じように、視覚的なグラウンディングを利用できます。この研究では、さまざまなプラットフォームで適切に機能する、よりスマートなエージェントを構築するために、膨大な数の GUI 要素を使用しています。
HuggingFace と GitHub
オートライズプロ
AutorizePro は、不正アクセスの検出に役立つ Burp プラグインです。Autorize プラグインをベースに AI分析モジュールを追加しています。このアップグレードにより、誤報が削減され、不正アクセスの脆弱性の検出がはるかに容易になります。
メタ・リングア
Meta Lingua は、PyTorch を使用して大規模言語モデル (LLM) をトレーニングするためのシンプルで効率的なライブラリです。LLM を研究するすべての人にとって使いやすいフレームワークを提供します。
投資と資金調達
CrewAIはサードパーティのモデルを使用してビジネスタスクを自動化します
CrewAIについて詳しく見る
João Moura 氏が立ち上げた CrewAI は、レポートの要約や新入社員のオンボーディングなどの日常的なオフィス業務を自動化によって簡素化することを目指しています。CrewAI は、従来のロボティック プロセス オートメーション (RPA) を使用する代わりに、OpenAI や Anthropic などのサードパーティ モデルを採用して、より柔軟なワークフロー自動化を実現しています。ユーザーは CrewAI プラットフォーム上で自動化プロセスを作成し、ダッシュボードで監視できます。
CrewAI の主な特徴は、柔軟な AI エージェント システムです。これにより、ユーザーはビジネス ニーズに最適な AI モデルを選択し、1,000 を超えるアプリケーションに接続して、データのプライバシーを維持しながら効率を向上させることができます。Moura 氏は、AI には問題が発生する可能性があるものの、古いロボティック プロセス オートメーション (RPA) システムよりも信頼性が高いことが多いと述べています。
CrewAIは、Boldstart Ventures、Craft Ventures、Earl Grey Capital、Insight Partnersなどの投資家から1,800万ドルを調達しました。Courseraの共同創設者であるAndrew Ng氏と、HubSpotの設立を支援したDharmesh Shah氏も投資しました。CrewAIは現在、評価額1億ドルで、最初の1年間で150社の顧客を獲得しています。
同社はこの資金をコア製品の拡張と現在の16名のチーム拡大に充てる計画だ。事業拡大に伴い、CrewAIは来年の夏までにキャッシュフローがプラスになると予想している。
ハイライトAIが独立資金1000万ドルを調達
今年初め、ゲームビデオ編集ツールで知られるスタートアップ企業 Medal は、クロスプラットフォーム AI アシスタント アプリの Highlight をリリースしました。Medal は現在、Highlight を独立した企業として、1,000 万ドルの資金を調達しています。
このラウンドはGeneral Catalystが主導し、Valor、SV Angel、Conviction Embedも参加した。Medalも、7月に調達した1,300万ドルのうち300万ドルをHighlightに投資した。
Highlight は、ユーザーが画面、音声メモ、またはドキュメントをアップロードし、大規模言語モデル (LLM) を使用して質問できるデスクトップ アプリです。また、会議の音声を書き起こすこともできるため、後で関連コンテンツを見つけやすくなります。Highlight には、要約、書き直し、コンテキストの説明などの一般的な AI アシスタント機能が含まれています。
同社は将来、処理した単語数に応じてサービス料金を請求する予定だが、現在は無料で利用できる
Interface.ai、銀行が顧客のリクエストを処理できるよう3,000万ドルを調達
金融機関における顧客とのやり取りを自動化するプラットフォームである Interface.ai は、3,000 万ドルの資金調達ラウンドを完了しました。このうち 2,000 万ドルは株式による資金調達、1,000 万ドルは負債による資金調達です。これまでは自己資金のみで運営していた Interface が外部資金を調達するのは今回が初めてです。
CEO の Srinivas Njay 氏は、北米の 100 を超える金融機関がこのプラットフォームを信頼していると述べました。このプラットフォームは毎日何百万もの顧客とのやり取りを管理し、年間数千万ドルの収益をもたらしています。Njay 氏は、インドで父親が経営する信用組合にインスピレーションを受けました。この会社を設立する前は、Microsoft と EA で働いていました。
Interface.ai の主力製品には、顧客サービス リクエストを処理する音声およびテキストベースの AIエージェントが含まれています。これらのエージェントは、住宅ローンの支払いの変更や新規口座の開設などのタスクを支援でき、銀行は過去のチャットに基づいてカスタマイズするオプションがあります。
この3,000万ドルは、北米とインドにおけるインターフェース社の120名のチーム拡大と市場参入の加速化に役立つだろう。
ソケット、ソフトウェアサプライチェーンのセキュリティ強化のため4000万ドルを調達
ソケットについて学ぶ
Socket はオープンソース コードのセキュリティ問題の発見を支援するスタートアップ企業です。同社はソフトウェア サプライ チェーンのセキュリティ向上のため、4,000 万ドルを調達しました。資金調達は Elad Gil 氏と Andreessen Horowitz 氏が主導し、Yahoo の共同設立者 Jerry Yang 氏や OpenAI の会長 Bret Taylor 氏などの著名な投資家が支援しました。
Socket の創設者兼 CEO である Feross Aboukhadijeh 氏は、通常のセキュリティ ツールでは、特にオープンソース部分の最近のソフトウェアの依存関係に関連する問題が発生することが多いと述べています。Socket のソリューションは、これらの部分における有害なアクティビティを探し出し、開発者に潜在的なリスクについて警告します。
現在、Socket は 100 社を超える顧客をサポートし、7,500 社を超える組織の 300,000 のコード ベースを保護しています。また、毎週 100 件を超える新しいサプライ チェーン攻撃を発見しており、他の多くの企業よりも優れたパフォーマンスを発揮しています。
Socket は OpenAI と Anthropic の AI 技術を使用してリスクをまとめ、ライセンスが遵守されているかどうかを確認します。Aboukhadijeh 氏は、この資金調達ラウンドを「先制的」と表現しました。これは、特に AI 生成コードがセキュリティ上の問題をさらに引き起こす可能性があるため、同社が将来に備えるのに役立つことを意味します。
この新たな資金により、Socket は総額 6,500 万ドルを調達しました。同社はエンジニアリング、製品設計、販売に重点を置き、従業員数を 32 人から 50 人に増やす予定です。
勉強
強化学習コースの概要
アリゾナ州立大学 (ASU) のこのコースでは、2019 年から 2024 年までの教師の授業ノートから作成されたメインの教科書を使用して強化学習を教えます。コースの Web サイトから教科書、ビデオ講義、スライドにアクセスできます。
章の要約
第1章: 正確な動的計画法と近似的な動的計画法
この章では、次の内容について学習します。
AlphaZero は、オフラインでモデルをトレーニングし、オンラインでゲームをプレイするのに役立ちます。
予測可能な結果を扱う決定論的動的プログラミング。
ランダム動的計画法の問題に対する正確な解と近似解。
無限の時間にわたる問題を理解する方法。
強化学習と意思決定の例とテクニック。
第2章: 値空間における近似
この章の内容は次のとおりです。
限られた時間内に決定論的な問題を解決する。
複数ステップの意思決定を行うためのテクニック。
マルチエージェント システムやベイズ最適化など、さまざまな状況に対応するロールバック アルゴリズム。
第3章 学習の価値と戦略
ここでの焦点は次の通りです。
近似値を学習するためにニューラル ネットワークを使用する。
コスト関数と戦略のトレーニング。
ポリシー勾配およびその他の関連方法。
https://web.mit.edu/dimitrib/www/RLCOURSECOMPLETE%202ndEDITION.pdf
vLLM 2024 の現状
主な特徴:
LLama や Mixtral などのモデルで効率的に動作します。
Nvidia GPU や Google TPU などの一般的なハードウェアと互換性があります。
CUDA カーネル最適化などの高度な技術を使用してパフォーマンスを最適化します。
新機能:
データを管理し、効率を高めるための新しい方法をサポートします。
リアルタイムのシステムパフォーマンス監視を提供します。
マルチ GPU および分散システムのサポートを可能にします。
LLM 推論で KV キャッシュを使用し、Q キャッシュを使用しない理由
説明:
Q の動的な性質: クエリ (Q) は新しい入力ごとに変化するため、保存が難しくなります。ただし、キー (K) と値 (V) は同じままです。
効率: KV キャッシュを使用すると必要な計算が削減され、推論が高速化されます。
メモリの使用: K と V のみをキャッシュすると、Q が毎回変わるため、メモリと帯域幅が節約されます。
高性能な PyTorch 演算子を書くには Mirage をお試しください
ミラージュとは何ですか?
Mirage は、効率的な GPU カーネルを自動的に作成するのに役立つツールです。そのため、GPU プログラミングについて詳しい知識は必要ありません。手動でコーディングする場合と比べて、パフォーマンスを大幅に向上できます。
ミラージュの利点
使い方は簡単: PyTorch で何をしたいのかを伝えるだけです。
パフォーマンスの向上: 処理を高速化するための最適な方法を自動的に見つけます。
信頼性: 作成されたコードが適切に動作することを確認します。
Radix-Tree とは何ですか?
基数ツリーは、保存されたキーと値のペアをすばやく見つけて一致させるのに役立つ特別なツールです。これにより、プロセスの実行速度が向上します。
要点:
すばやくアクセスできるように、KV 値をツリー構造で保存します。
最も有用な KV ペアのみを保持します。
各入力に対して最適な一致を効率的に見つけます。
SMACタスクへの新しいアプローチ
実験の概要:
著者は、SMAC (StarCraft Multi-Agent Challenge) を使用して、大規模言語モデル (LLM) で決定木コードを生成する新しい方法をテストします。
利点:
明確な戦略: 複雑なニューラル ネットワークとは異なり、生成される戦略は理解しやすいものです。
より少ないインタラクション: 従来の方法と比較して、環境とのインタラクションが少なくて済みます。
優れた移転性: 戦略は類似のタスクに簡単に適応できます。
AIコンパイラ開発日記 - 序文
プロジェクトの目標:
このプロジェクトの目的は、 AIコンパイラを構築し、開発の過程を共有することです。重要な機能をすべて含めながら、プロセスを簡素化したいと考えています。
重点分野:
フレームワーク統合: Python を使用してTorch などのニューラル ネットワークに接続します。
グラフ最適化: MLIR を使用してパフォーマンスを向上させます。
メモリの最適化: メモリ使用量を改善してパフォーマンスを向上します。
量子化: 大規模なモデルの高速化に役立ちます。
コード生成: さまざまな操作に効率的なコードを作成します。