AiNews: LangChainAI が新世代の AI アプリケーションを開発、Transformers.js v3 が WebGPU サポート付きでリリース」など

2024年10月23日 19:03

Anthropicは開発者とユーザー向けにいくつかのクールなアップデートを開始しました。

36 では、より優れたサポートを提供する Claude 3.5 Sonnet と Claude 3.5 Haiku が導入されました。Claude は、画面を見て、マウスを動かし、ボタンをクリックし、人間のように入力できる本物のアシスタントです。これにより、視覚的な支援が必要なタスクの自動化が容易になり、日常的なニーズに対応する仮想アシスタントとして機能します。

Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. We’re also introducing a new capability in beta: computer use.

Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP
— Anthropic (@AnthropicAI) October 22, 2024

Anthropic の新しいコンピュータ使用 API

Anthropic は、開発者とユーザー向けにエキサイティングな新しいアップデートをリリースしました。Claude 3.5 Sonnet と Claude 3.5 Haiku がリリースされ、どちらもスキルが向上しています。Claude は、画面を見て、カーソルを動かし、ボタンをクリックし、人間のように入力するなど、本物のヘルパーのように動作できるようになりました。これにより、日常業務の仮想アシスタントのように、視覚的な支援を必要とするタスクの自動化が容易になります。

New @AnthropicAI Computer Use feels surreal.

But don't take my word for it. We made a template on Replit for you to try.

Watch me fork the template, ask the agent to go to YouTube, find a video, and even skip the ads -- all in a few minutes. pic.twitter.com/qbeJAJVz1o
— Amjad Masad (@amasad) October 22, 2024

Mochi 1: オープンソースのビデオ生成

Mochi 1 は、動画作成に最適なオープンソースツールで、無料で使用できます。Apache 2.0 ライセンスに基づいているため、クリエイターは高価なソフトウェアを購入することなく動画を作成できます。動画作成が好きな方は、モデルの詳細を簡単に見つけて使い始めることができます。

Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.

magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce pic.twitter.com/YzmLQ9g103
— Genmo (@genmoai) October 22, 2024

LangChainのAI強化

LangChainAI は、 AI システム間のリアルタイム共有をよりスムーズにする 2 つの魅力的なツール、LangGraph と CopilotKit の CoAgents を導入しました。これらのツールは、AI のやり取りをより自然に感じさせ、全体的なエクスペリエンスをよりユーザーフレンドリーにするために設計されています。

A new wave of AI apps with agent-native UX is emerging, from Replit Agent to v0. Using LangGraph + @CopilotKit's new CoAgents extension, developers can build agent-native React applications.

In CopilotKit's blog, see how to use:
• Real-time state sharing to match user… pic.twitter.com/gzzvLmm00x
— LangChain (@LangChainAI) October 22, 2024

Transformers.js v3 アップデート

コーディングに興味のある方のために、Transformers.js v3 では WebGPU がサポートされるようになりました。これにより、以前のバージョンと比較してパフォーマンスが最大 100 倍高速化されます。また、120 を超えるモデルアーキテクチャもサポートされるため、AI モデルの展開がより高速かつ効率的になります。Node.js、Deno、Bun を使用する開発者には特におすすめです

After more than a year of development, we're excited to announce the release of 🤗 Transformers.js v3!

⚡ WebGPU support (up to 100x faster than WASM)
🔢 New quantization formats (dtypes)
🏛 120 supported architectures in total
📂 25 new example projects and templates
🤖 Over… pic.twitter.com/095ky3ePC9
— Xenova (@xenovacom) October 22, 2024

BitNet の革新的なアーキテクチャ

BitNet は、パラメータあたりのビット数を減らすことでモデルのサイズを縮小する新しいアーキテクチャ 1.58b を開発しました (値は -1、0、1 の 3 つのみ)。つまり、モデルはパフォーマンスを維持しながらメモリ使用量を削減します。これは、大規模モデルを扱う人にとっては大きなメリットです。

You can fine-tune a base language model to the BitNet 1.58b architecture. You dont necessarily have to train a model from scratch.

i.e. you can fine-tune an existing model to 1.58 bits!

---

Now BitNet is a special transformers architecture that represents each parameter with… https://t.co/d0PNpHEuQL pic.twitter.com/YQhEAWE7YM
— Rohan Paul (@rohanpaul_ai) October 21, 2024

Gradio の Mochi 1 と Allegro: テキストからビデオへ

Gradio の Mochi 1 は、ビデオ生成にさらなるパワーを追加し、オープンソースモデルとクローズドソースモデルの間のギャップを埋めています。別のオープンソースモデルである Allegro を使用すると、720p で 6 秒の短いビデオを作成できます。どちらのツールも、クリエイターに商用ソフトウェアに縛られることなく、新しいビデオ作成の可能性を自由に探求する権利を与えます。

Mochi 1

Dramatically closes the gap between closed and open video generation models. ✅
Apache 2.0 license 🤯
High-fidelity videos
Strong prompt adherence
Model available on 🤗 Hub pic.twitter.com/XAN6N8AHY2
— Gradio (@Gradio) October 22, 2024

合成データと情報検索

LLM エージェントは合成データの作成に役立ち、AI と情報の検索方法を改善します。Omar Sar0 は最近の論文でこれについて説明し、これらのツールが情報の収集と使用の方法をどのように変えているかを示しました。

https://twitter.com/omarsar0/status/1848521204828688736

Lots of people and companies are sleeping on the power of synthetic data.

LLMs are ridiculously good at generating synthetic data but it's not straightforward plus we need more novel and complex data for not only improving LLMs but also systems built on LLMs (agents, RAG, etc.)… pic.twitter.com/lD3bvvElCL
— elvis (@omarsar0) October 21, 2024

Meta のモデルトレーニング用新ツール

Meta は、PyTorch と連携して AI モデルのトレーニングを容易にするシンプルなライブラリである Meta Lingua を導入しました。これは、新しい AI モデルを試したり、既存のモデルを微調整したりしたい研究者や開発者に最適です。

We recently released Meta Lingua, a lightweight and self-contained codebase designed to train language models at scale. Lingua is designed for research and uses easy-to-modify @PyTorch components in order to try new architectures, losses, data and more. pic.twitter.com/iPpGnKtFEd
— AI at Meta (@AIatMeta) October 22, 2024

Allegro: オープンソースのテキストからビデオへの変換モデル

オープンソースのテキストからビデオへのモデル Allegro は、テキストを 15 フレーム/秒、720p 解像度の 6 秒間のビデオに変換する新しい無料ツールです。Hugging Face と GitHub で確認でき、ブログ投稿とレポートで詳細を確認できます。

Act-One: AI 駆動型キャラクターアニメーション

Act-One の Gen-3 Alpha は、キャラクターアニメーションのゲームを変えています。モーションキャプチャなどの複雑な設定を必要とせず、1 本のビデオまたは画像から表現力豊かなキャラクターパフォーマンスを作成できます。これにより、AI を使用してキャラクターに命を吹き込みたいアニメーターやゲームデザイナーに新たな可能性が開かれます。

Introducing, Act-One. A new way to generate expressive character performances inside Gen-3 Alpha using a single driving video and character image. No motion capture or rigging required.

Learn more about Act-One below.

(1/7) pic.twitter.com/p1Q8lR8K7G
— Runway (@runwayml) October 22, 2024

HuggingFace & GitHub: テキストからビデオへの変換と画像生成技術

アレグロ

Allegro は、テキストからビデオを作成するオープンソースモデルです。720×1280 解像度、30 フレーム/秒で、高品質で詳細な 6 秒間のビデオを作成できます。このモデルは、1 億 7,500 万のパラメータを持つ VideoVAE と 28 億のパラメータを持つ VideoDiT という 2 つの強力なツールを使用して効率的に動作します。

餅1

Mochi 1 は、リアルなアクションを示し、指示によく従うトップクラスのビデオ生成モデルです。100 億のパラメータを持ち、非対称拡散トランスフォーマーと呼ばれる特別な設計を採用しています。Mochi 1 は、最低 480p の解像度でビデオを作成できます。

安定拡散 3.5 大

Stable Diffusion 3.5 Large は、高品質の画像を作成するモデルです。書かれた指示をよく理解し、QK 正規化と呼ばれる特別な方法により、よりスムーズにトレーニングできます。このモデルは、ビジネスプロジェクトと個人プロジェクトの両方に使用できます。

安定拡散3.5ラージターボ

このバージョンでは、敵対的拡散蒸留 (ADD) と呼ばれる手法を使用して、テキストプロンプトから優れた画像を作成します。効率的で、アートワーク、教育、クリエイティブプロジェクトに最適です。

Granite-3.0-8B-インストラクト

Granite-3.0-8B-Instruct は、80 億のパラメータを持つ言語モデルです。12 の言語を処理でき、テキスト分類、質問への回答、多言語会話などのタスクに適しています。このモデルは、IBM の Blue Vela スーパーコンピューターでトレーニングされました。

オープンソースの金融データツール

yfinance は、Yahoo! Finance から株式市場データをダウンロードできる無料ツールです。過去のデータや株主の詳細など、株式情報を取得するためのさまざまなオプションを提供し、調査や学習に最適です。また、データを要求する回数を減らすのに役立つ機能もあります。

Reddit ハイライト

安定拡散3.5大放出

Stable Diffusion 3.5 Large モデルのリリースには、新しい機能と改良が付属しています。

快適なUIサポート

Stable Diffusion 3.5 は ComfyUI と互換性があり、ユーザーは Large バージョンと Large Turbo バージョンの両方で新しいワークフローを試すことができます。

商用利用ライセンス

コミュニティライセンスでは商用利用が許可されており、年間収益が 100 万ドル未満の企業にとっては Flux DEV の優れた代替手段となる可能性があります。

画質とパフォーマンス

初期のテストでは、画像の品質は良好であるものの、長いキューを Flux ほどうまく処理できない可能性があることが示されています。このモデルは、正確な手を生成するのにまだ苦労しています。

モデルバリエーションとVRAM要件

12GB の VRAM と内蔵クリップを備えたシステム向けに、より小型の fp8 バージョンも用意されています。

LoRA モデル

さまざまなアートスタイルに合わせてさまざまな LoRA モデルが提供され、SD 3.5 で創造的な可能性が広がります。

https://www.reddit.com/r/StableDiffusion/