AiNews: LangChainAI が新世代の AI アプリケーションを開発、Transformers.js v3 が WebGPU サポート付きでリリース」など
Anthropicは開発者とユーザー向けにいくつかのクールなアップデートを開始しました。
36 では、より優れたサポートを提供する Claude 3.5 Sonnet と Claude 3.5 Haiku が導入されました。Claude は、画面を見て、マウスを動かし、ボタンをクリックし、人間のように入力できる本物のアシスタントです。これにより、視覚的な支援が必要なタスクの自動化が容易になり、日常的なニーズに対応する仮想アシスタントとして機能します。
Anthropic の新しいコンピュータ使用 API
Anthropic は、開発者とユーザー向けにエキサイティングな新しいアップデートをリリースしました。Claude 3.5 Sonnet と Claude 3.5 Haiku がリリースされ、どちらもスキルが向上しています。Claude は、画面を見て、カーソルを動かし、ボタンをクリックし、人間のように入力するなど、本物のヘルパーのように動作できるようになりました。これにより、日常業務の仮想アシスタントのように、視覚的な支援を必要とするタスクの自動化が容易になります。
Mochi 1: オープンソースのビデオ生成
Mochi 1 は、動画作成に最適なオープンソース ツールで、無料で使用できます。Apache 2.0 ライセンスに基づいているため、クリエイターは高価なソフトウェアを購入することなく動画を作成できます。動画作成が好きな方は、モデルの詳細を簡単に見つけて使い始めることができます。
LangChainのAI強化
LangChainAI は、 AI システム間のリアルタイム共有をよりスムーズにする 2 つの魅力的なツール、LangGraph と CopilotKit の CoAgents を導入しました。これらのツールは、AI のやり取りをより自然に感じさせ、全体的なエクスペリエンスをよりユーザーフレンドリーにするために設計されています。
Transformers.js v3 アップデート
コーディングに興味のある方のために、Transformers.js v3 では WebGPU がサポートされるようになりました。これにより、以前のバージョンと比較してパフォーマンスが最大 100 倍高速化されます。また、120 を超えるモデル アーキテクチャもサポートされるため、AI モデルの展開がより高速かつ効率的になります。Node.js、Deno、Bun を使用する開発者には特におすすめです
BitNet の革新的なアーキテクチャ
BitNet は、パラメータあたりのビット数を減らすことでモデルのサイズを縮小する新しいアーキテクチャ 1.58b を開発しました (値は -1、0、1 の 3 つのみ)。つまり、モデルはパフォーマンスを維持しながらメモリ使用量を削減します。これは、大規模モデルを扱う人にとっては大きなメリットです。
Gradio の Mochi 1 と Allegro: テキストからビデオへ
Gradio の Mochi 1 は、ビデオ生成にさらなるパワーを追加し、オープン ソース モデルとクローズド ソース モデルの間のギャップを埋めています。別のオープン ソース モデルである Allegro を使用すると、720p で 6 秒の短いビデオを作成できます。どちらのツールも、クリエイターに商用ソフトウェアに縛られることなく、新しいビデオ作成の可能性を自由に探求する権利を与えます。
合成データと情報検索
LLM エージェントは合成データの作成に役立ち、AI と情報の検索方法を改善します。Omar Sar0 は最近の論文でこれについて説明し、これらのツールが情報の収集と使用の方法をどのように変えているかを示しました。
https://twitter.com/omarsar0/status/1848521204828688736
Meta のモデルトレーニング用新ツール
Meta は、PyTorch と連携して AI モデルのトレーニングを容易にするシンプルなライブラリである Meta Lingua を導入しました。これは、新しい AI モデルを試したり、既存のモデルを微調整したりしたい研究者や開発者に最適です。
Allegro: オープンソースのテキストからビデオへの変換モデル
オープンソースのテキストからビデオへのモデル Allegro は、テキストを 15 フレーム/秒、720p 解像度の 6 秒間のビデオに変換する新しい無料ツールです。Hugging Face と GitHub で確認でき、ブログ投稿とレポートで詳細を確認できます。
Act-One: AI 駆動型キャラクターアニメーション
Act-One の Gen-3 Alpha は、キャラクターアニメーションのゲームを変えています。モーションキャプチャなどの複雑な設定を必要とせず、1 本のビデオまたは画像から表現力豊かなキャラクターパフォーマンスを作成できます。これにより、AI を使用してキャラクターに命を吹き込みたいアニメーターやゲームデザイナーに新たな可能性が開かれます。
HuggingFace & GitHub: テキストからビデオへの変換と画像生成技術
アレグロ
Allegro は、テキストからビデオを作成するオープンソース モデルです。720×1280 解像度、30 フレーム/秒で、高品質で詳細な 6 秒間のビデオを作成できます。このモデルは、1 億 7,500 万のパラメータを持つ VideoVAE と 28 億のパラメータを持つ VideoDiT という 2 つの強力なツールを使用して効率的に動作します。
餅1
Mochi 1 は、リアルなアクションを示し、指示によく従うトップクラスのビデオ生成モデルです。100 億のパラメータを持ち、非対称拡散トランスフォーマーと呼ばれる特別な設計を採用しています。Mochi 1 は、最低 480p の解像度でビデオを作成できます。
安定拡散 3.5 大
Stable Diffusion 3.5 Large は、高品質の画像を作成するモデルです。書かれた指示をよく理解し、QK 正規化と呼ばれる特別な方法により、よりスムーズにトレーニングできます。このモデルは、ビジネス プロジェクトと個人プロジェクトの両方に使用できます。
安定拡散3.5ラージターボ
このバージョンでは、敵対的拡散蒸留 (ADD) と呼ばれる手法を使用して、テキスト プロンプトから優れた画像を作成します。効率的で、アートワーク、教育、クリエイティブ プロジェクトに最適です。
Granite-3.0-8B-インストラクト
Granite-3.0-8B-Instruct は、80 億のパラメータを持つ言語モデルです。12 の言語を処理でき、テキスト分類、質問への回答、多言語会話などのタスクに適しています。このモデルは、IBM の Blue Vela スーパーコンピューターでトレーニングされました。
オープンソースの金融データツール
yfinance は、Yahoo! Finance から株式市場データをダウンロードできる無料ツールです。過去のデータや株主の詳細など、株式情報を取得するためのさまざまなオプションを提供し、調査や学習に最適です。また、データを要求する回数を減らすのに役立つ機能もあります。
Reddit ハイライト
安定拡散3.5大放出
Stable Diffusion 3.5 Large モデルのリリースには、新しい機能と改良が付属しています。
快適なUIサポート
Stable Diffusion 3.5 は ComfyUI と互換性があり、ユーザーは Large バージョンと Large Turbo バージョンの両方で新しいワークフローを試すことができます。
商用利用ライセンス
コミュニティ ライセンスでは商用利用が許可されており、年間収益が 100 万ドル未満の企業にとっては Flux DEV の優れた代替手段となる可能性があります。
画質とパフォーマンス
初期のテストでは、画像の品質は良好であるものの、長いキューを Flux ほどうまく処理できない可能性があることが示されています。このモデルは、正確な手を生成するのにまだ苦労しています。
モデルバリエーションとVRAM要件
12GB の VRAM と内蔵クリップを備えたシステム向けに、より小型の fp8 バージョンも用意されています。
LoRA モデル
さまざまなアート スタイルに合わせてさまざまな LoRA モデルが提供され、SD 3.5 で創造的な可能性が広がります。
https://www.reddit.com/r/StableDiffusion/