AIニュース: Cohere Aya Expanse、Meta Quant Llama、AnthropicAI Claudeのアップグレードなど
CohereForAIのAya Expanseモデルリリース:
CohereForAI は、言語のギャップを埋めるために設計されたAIモデルのセットである Aya Expanse をリリースしました。このプロジェクトは、さまざまな言語にわたる長年の研究の成果です。Aya Expanse は、グローバルとローカルの両方のニーズに応えることに重点を置いています。詳細は公式発表をご覧ください。
Microsoft の OmniParser モデル:
Microsoft は、Hugging Face で OmniParser モデルを導入しました。このツールは UI スクリーンショットを構造化データに変換し、既存の AI がユーザー インターフェイスを理解して操作しやすくなります。Hugging Face に詳細が記載されています。
Cohere の新しい多言語 AI モデル:
Cohere と CohereForAI は、23 の言語をサポートする 2 つの新しい AI モデルをリリースしました。Hugging Face で 8B と 32B のサイズで利用できるこれらのモデルは、複数の言語にわたって AI の言語機能を向上させることを目的としています。
Meta の量子化ラマ モデル:
Meta は、Llama モデルの量子化バージョン (1B および 3B) を発表しました。これらのモデルは、より高速に実行し、メモリ使用量が少なくなるように最適化されており、リソースが限られたデバイスに適しています。これらは、Hugging Face および Meta のプラットフォームで利用できます。
Google DeepMind の SynthID ツールがオープンソース化:
Google DeepMind は SynthID ツールをオープンソース化しました。SynthID は AI 生成テキストにデジタル透かしを追加して、その信頼性を検証します。このリリースについては Demis Hassabis 氏と Sundar Pichai 氏が説明しました。
AnthropicAI の Claude の最新情報:
AnthropicAI はモデル Claude をアップグレードし、記述、コード作成、視覚化の作成機能を強化しました。また、正しい数学的解答を提供する新しい分析ツールもあります。詳細はプレビューでご確認ください。
Google DeepMind の MusicFX DJ と音楽 AI サンドボックス:
Google DeepMind は、MusicFX DJ と Music AI Sandbox にリアルタイム音楽作成用の AIツールを導入しました。これらのツールにより、ユーザーは AI の助けを借りてライブで音楽を生成できます。
MidJourney の新しい画像エディター:
MidJourney は、ユーザーが画像をアップロードし、テキスト プロンプトを使用して編集できる画像エディタをリリースしました。ユーザーは、シーンやテクスチャなどに変更を加えることができます。デモは Twitter でご覧いただけます。
Meta の LongVU モデル:
Meta は、適応型圧縮を使用して長いビデオをよりよく理解する LongVU モデルをリリースしました。このモデルは、ビデオベースの質疑応答テストで優れたパフォーマンスを発揮し、競合他社を上回りました。
ビスタドリーム:
VistaDream は、1 枚の写真から 3D 画像を生成する新しいツールです。2D 画像を 3D モデルに変換するように設計されており、GitHub で調べることができます。
Raspberry Pi AI HAT+ リリース:
Raspberry Pi は、13 TOPS と 26 TOPS のパフォーマンス オプションを備えた Hailo AI アクセラレータを搭載した AI HAT+ をリリースしました。詳細については、Scobleizer および Raspberry Pi の発表をご覧ください。
LangChainの記念日:
オープンソースの AI プロジェクトである LangChain は 2 周年を迎え、小さなプロジェクトから重要な AI ツールへと成長したことを示しました。
arXiv と Hugging Face の統合:
arXiv と Hugging Face の新しい接続により、論文、モデル、データセットを簡単に見つけられるようになり、AI 研究の改善に役立ちます。
MIT の多感覚知能研究グループ:
MIT メディアラボは、さまざまな感覚入力を処理する AI の作成に重点を置いた多感覚インテリジェンス研究グループを立ち上げました。チームは現在、人材を募集しています。
OSWorldのベンチマークの進捗状況:
OSWorld の AI ベンチマークが向上し、精度が 7% から 22% に上昇しました。これにより、スタートアップ企業に新たな機会が生まれます。
SplineによるAI音声+3D統合:
Spline は 3D リアルタイム テクノロジーに AI 音声を追加し、OpenAI のリアルタイム API を活用したインタラクティブな会話体験を実現しました。
Hugging Face と GitHub: AI とテクノロジーの最新情報
テキストから画像への変換を高速化する Flux.1 Lite
Flux.1 Lite は、FLUX.1-dev モデルのより高速で軽量なバージョンです。メモリ使用量を抑えながらテキストから画像を素早く生成します。メモリ使用量を 7GB 削減し、精度を落とさずに速度を 23% 向上させます。24GB のコンシューマー GPU で実行され、Hugging Face で Alpha 8B モデル チェックポイントが利用できます。
柔軟な画像作成のためのOmniGen
OmniGen は、さまざまな種類のプロンプトで機能する画像生成モデルです。使いやすく、追加のツールを必要とせずに入力画像の詳細を認識できます。OmniGen のコードとモデルの重みは GitHub で入手できるため、ユーザーは微調整したり、より多くの機能を探したりできます。
画面解析用の OmniParser
OmniParser は、UI のスクリーンショットを構造化された形式に変換するツールです。クリック可能な領域と重要な詳細を認識することで、AI がアプリと対話する方法の改善に役立ちます。人気のある Web サイトからデータを収集し、さまざまなデバイスやアプリで動作します。
Aya Expanse: 多言語 AI モデル
Cohere が AI 向けに作成した Aya Expanse は、23 の言語を理解するモデルです。80 億のパラメータがあり、Hugging Face で試すことができます。このモデルは、改良された Transformer アーキテクチャに基づいており、Creative Commons ライセンスの下で共有されています。
開発者向け GitHub API インターフェース
GitHub に Google API のパブリック リポジトリが追加されました。REST および gRPC プロトコルをサポートしており、開発者はプロトコル バッファを使用してライブラリを作成し、コードを生成できます。各 API は、Google の製品構造に合わせて独自のフォルダに整理されています。
Reddit: Yann Lecun が AI 予測について語る
ヤン・ルカン氏は AI 開発についての考えを語りました。彼は、5 ~ 7 年以内に動物のような能力を持つ AI が登場し、10 年以内に人間のような知能を持つ AI が登場すると考えています。その要点は次のとおりです。
AIにおけるアクティブラーニング
今日の AI は、動物のように自ら学習したり、世界とやりとりしたりすることはできません。しかし、能動的な学習への移行によって、すぐに状況が変わる可能性があります。
AIと動物を比較する
現在、AI は感覚スキルや感情を必要とするタスクでは動物ほど熟練していません。しかし、AI はコーディングやコンテンツ作成など、動物にはできない作業には優れています。
課題とブレークスルー
AI は順調に進歩していますが、いくつかの課題により進歩が遅れる可能性があります。ただし、新たな発見により進歩が加速される可能性があります。
汎用AIへの複数の道
Yann Lecun 氏は、真に人間に似た AI を作成するには、Transformer モデルだけでは不十分だと考えています。おそらく、さまざまな方法を組み合わせる必要があるでしょう。
https://www.reddit.com/r/singularity/