Aiニュース:Gen-3 Alpha Turboで高度なカメラコントロールが利用可能に: すべてのショットをより正確に、ビッグモデル圧縮KVキャッシュの新たなブレークスルーなど
Claude PDF Image Viewer: チャートやグラフィックを含むドキュメントの扱いを改善
Claude の新しい PDFビューアでは、文書内のテキストと画像の両方を「表示」できるようになりました。このアップグレードは、複雑なファイル、特にチャートやグラフィックを含むファイルを理解するのに大いに役立ちます。この機能をプレビューするには、Claude のプレビュー リンクにアクセスしてください。
Gen-3 Alpha Turbo の高度なカメラコントロール
Gen-3 Alpha Turbo の最新のカメラ アップデートにより、ユーザーはショットの方向とシーンの強度を制御できるようになり、最適な角度を簡単に得ることができます。詳細については、Gen-3 Turbo のアップデートをご覧ください。
DexMimicGen: 人間の助けを少なくしてロボットに複雑なスキルを教える
DexMimicGen は、ロボットが人間による数回のデモンストレーションだけで難しいタスクを学習できるように、偽のデータを作成するツールです。人間の動きをコピーし、実際の動作を繰り返すことなく、ロボットに大量のトレーニングを提供します。このように、ロボットはこれらのシミュレーションを通じて「経験」を積むことができ、実際のタスクを実行するときにパフォーマンスを向上させることができます。
脱獄により一時的に新たな可能性が開かれた
ほんの一瞬ですが、ユーザーは O1 モデルのインターフェースに完全にアクセスでき、画像のアップロードやプロンプト処理の独自のオプションを利用できるようになりました。フルアクセスのウィンドウは閉じられていますが、将来のリリースの可能性に対する関心が高まっています。
GPT-4.0 を使って 4 日間で 250 ドルの掃除ロボットを作る
わずか 4 日間で 250 ドルをかけて、GPT-4.0 を搭載した掃除ロボットが作られました。このプロジェクトは、オープンソース ツールと手頃な価格のハードウェアのおかげで、ロボット工学がいかに身近なものになっているかを示しています。
新しい Ada-KV キャッシュ圧縮方式により、大規模モデルのメモリ負荷が軽減されます。
研究者らは、データを効率的に圧縮することで大規模なAIモデルのメモリを節約する Ada-KV 技術を開発しました。これにより、長いシーケンスを作成するときにストレージの過負荷を防ぎ、よりスムーズで高速な処理が可能になります。Ada-KV は、モデルの各部分が実際に必要とするものに基づいてメモリを使用するため、従来の方法よりも柔軟性が高くなります。
AIエージェントがSQLiteコードの脆弱性を発見
AI 搭載エージェントが、パターンと過去の脆弱性データを分析して、SQLite のコード内のバグを発見しました。この新しいアプローチは、従来のテストでは見逃される可能性のある複雑な問題を発見することで、セキュリティを向上させる AI の可能性を示しています。
NVIDIA、インテルに代わりダウ・ジョーンズに加わる
11月8日より、Nvidiaがダウ・ジョーンズ指数でインテルの地位を奪う。これは、AI技術にとって重要なGPU製造においてNvidiaがいかにリーダー的存在になったかを示している。NvidiaのGPUは現在、特にAI分野で人気が高まっており、一方、インテルは追いつくのに苦労している。
マイクロソフトとa16zがAI規制提案に反対
マイクロソフトとアンドリーセン・ホロウィッツ(a16z)は、特に新しい法案 SB 1047 に関連して、政府に AI 規制を緩和するよう促すために協力している。両社は、AI 開発はイノベーションを促進するために柔軟であるべきだと主張している。両社は、政府の介入は成長を鈍化させる可能性があると考えており、代わりにテクノロジー業界の自主規制を推進している。
協調検証による大規模言語モデルの改善
この論文では、大規模言語モデル (LLM) の推論能力を向上させる新しい方法について説明しています。主なアイデアは次のとおりです。
新着情報?
推論検証フレームワーク: この論文では、さまざまなソリューションをレビューすることで推論をチェックするシステムを紹介しています。このシステムでは複数のパスを作成し、Math-Rev と Code-Rev という 2 種類の検証者を使用して最適な回答を見つけます。これらの検証者は、正解と不正解の両方から学習することで改善されます。
2 つのアプローチを組み合わせる: Chain-of-Thought (CoT) と Program-of-Thought (PoT) の手法を組み合わせます。CoT は推論の明確な手順を提供し、PoT は回答を確認する正確な方法を提供します。この組み合わせにより、検証の精度と信頼性が大幅に向上します。
実験結果
検証システムでは、参照を必要とせずにトレーニングし、既存の方法よりも優れたパフォーマンスを発揮する SimPO と呼ばれる方法を使用します。
GSM8k や MATH などのいくつかのベンチマークで最先端の結果を達成しました。
Qwen-72B-Instruct でテストしたところ、GPT-4 よりも優れたパフォーマンスを発揮しました。
この方法は特に弱いモデルに役立ち、LLaMA2-7B などのモデルのパフォーマンスを大幅に向上させます。
制限事項
新しいサンプリングおよび並べ替え方法により、計算負荷がさらに増加します。
現在の検証者は全体的なソリューションを評価しますが、各推論ステップを詳細に評価しません。
このアプローチは、短いタスクにはうまく機能しません。
https://arxiv.org/pdf/2410.05318
効率的なパラメータ共有のための緩和再帰トランスフォーマー
この論文では、大規模な言語モデルの展開を容易にする、Relaxed Recursive Transformers と呼ばれる手法を紹介します。
主なイノベーション
再帰構造:元の Transformer モデルをパラメータ共有モデルに変換します。この変更により、パフォーマンスを高く保ちながら、必要なパラメータ数とメモリを削減できます。
階層的 LoRA 緩和:再帰レイヤー間に LoRA モジュールを追加することで、パラメーターの共有と独立したレイヤー間の妥協点を見つけます。
継続的な深さ方向のバッチ処理戦略:この方法は、早期終了オプションと組み合わせることで、推論速度を 2 ~ 3 倍向上させます。
主な結果
パラメータ圧縮: Gemma モデルは、パフォーマンスの低下がほとんどなく、パラメータが 2B から 1B に削減され、TinyLlama 1.1B などの同様のサイズのモデルよりも優れたパフォーマンスを発揮しました。
推論の高速化:早期終了戦略により、推論が 2 ~ 3 倍高速化されました。LoRA モジュールは追加の計算能力を使用しますが、全体的なパフォーマンスは大幅に向上しています。
初期化方法:この研究では、さまざまなパラメータ初期化手法をテストし、SVD を使用して LoRA モジュールを初期化する方がゼロから開始するよりも効果的であるという結論に達しました。
入力長を一般化するためのループトランスフォーマー
この論文では、同じ Transformer レイヤーをループすることで異なる長さの入力を処理できる Looped Transformer 構造を紹介します。
主なアイデア
このモデルは、パフォーマンスを維持しながら一般化の精度を向上させるように設計されています。このモデルは、パリティのチェックや 2 進数の加算などの可変長の計算ステップを含む「n-RASP-L」と呼ばれるタスク タイプを定義します。
技術詳細
エンドツーエンドのトレーニング: モデルは各ステップでガイダンスを必要とせずにトレーニングし、最終出力と必要なステップ数のみに焦点を当てます。
入力注入:理解を向上させるために、各ループ中に元の入力を再注入します。
適応停止条件:既知の歩数と信頼レベルに基づいて停止するタイミングを決定する方法が含まれます。
実験結果:ループ トランスフォーマーは、さまざまな長さのタスクにおいて基本モデルよりも優れた結果を示しました。また、トレーニングで使用したよりも長い入力も処理できました。
適応型ループ戦略は、一時停止トークンを使用するなどの代替手段よりもうまく機能しました。
視覚的な結果から、モデルがいつ停止するかを学習し、適切なステップ数の後に終了できることが示されました。
https://arxiv.org/pdf/2409.15647
Flow-DPO: マルチエージェント学習による数学的推論の強化
この論文では、複数の LLM が連携して高品質の推論プロセスを作成するフレームワークである Flow-DPO を紹介します。
コアコンセプト
増分出力生成: 1 つの言語モデルが回答の一部を作成し、別のモデルがこれらの部分が完全かどうかを確認します。両方のモデルは同じ基本言語モデルを使用しますが、それぞれのタスクに重点を置くために異なる LoRA アダプターを備えています。
オンライン学習方法:各出力をランダムに展開してトレーニング データ ペアを作成し、モデルをリアルタイムで更新して効率を向上させます。
結果
精度の向上:トレーニング後、MetaMath データセットの精度が大幅に向上しました。
ベンチマークでのパフォーマンス: GSM8K および MATH では、Flow によって生成された推論は、モデルが独自に生成できる推論よりも優れていました。
推論の質:分析により、Flow からの推論の方が詳細で役立つことが示されました。
https://arxiv.org/pdf/2410.22304
天才のパラドックス: LLM が単純な計算問題に苦戦する理由
この論文では、大規模な言語モデルが単純な単語カウントタスクで失敗することが多い理由について説明します。
主な調査結果
仮定への挑戦:この論文では、3 つの一般的な信念に異議を唱えています。
サブワードのトークン化は必ずしもパフォーマンスを低下させるわけではありません。
文字レベルのトレーニングを使用すると、分類にはまだうまく機能します。
単語内の一意の文字の数はパフォーマンスに影響しません。
データの制限:数学とコードに特化してトレーニングされたモデルは、単純なタスクを実行するのに苦労しますが、 Pythonコードを使用して明示的に問題を解決する場合には優れています。
推論によるパフォーマンスの向上:推論方法を使用すると、直接回答するだけの場合に比べてパフォーマンスが大幅に向上します。
提案
研究方法:モデルの限界を責めるのではなく、慎重な実験で仮説をテストすることが重要です。
能力の評価:複雑なタスクに必要なスキルは、必ずしも簡単なタスクに役立つとは限りません。スキルを評価するためのより優れた方法が必要です。
トレーニングの焦点:トレーニング中は推論スキルに重点を置くことが重要です。なぜなら、これらのスキルは特定のタスクのトレーニングよりも重要だからです。
Kotaemon: ユーザーフレンドリーな RAG UI
Kotaemon は、ユーザーがドキュメントとチャットするのに役立つ、オープンソースでカスタマイズ可能なツールです。ドキュメントについて質問するためのシンプルなインターフェースを提供し、OpenAI やローカル モデルなどのさまざまな LLM モデルをサポートしています。
主な特徴
ハイブリッド RAG パイプライン:ドキュメントに関する質問を柔軟に行うことができます。
マルチモーダルサポート:さまざまな種類のコンテンツについて質問できます。
詳細な引用:情報の出典を明確に示します。
複雑な推論:詳細な推論を理解しやすくなります。
AllenAIの大規模モデルシリーズ
詰め込まれたデータセット:
Dolma は、言語モデルをトレーニングするために作成された 3 兆語の大規模なデータセットです。Common Crawl、GitHub、Reddit などのソースからコンテンツを収集します。Dolma の主な目的は、重複データや無関係なデータを除外して、高品質のコンテンツのみを保持することです。
Winbd データ分析ツール:
Winbd を使用すると、単語数をチェックしたり、データ品質を評価したり、さまざまなデータセット間で比較したりするためのツールが提供され、大規模なテキスト データセットの分析が容易になります。
OLMo の評価とモデル:
OLMo モデルには、言語モデルの評価ツールとシンプルな単方向デコーダーが含まれています。レイヤー設計のバランスと公平性を保つために、RoPE や SwiGLU などの機能を備えています。
OLMoE 混合エキスパートモデル:
OLMoE は、より高速で消費電力が少ない OLMo のバージョンです。データを簡単に処理できるようにブロック設計で構築されています。
Molmo & PixMo マルチモーダル モデル:
これらは、画像とテキストの両方で機能する OLMo の特別なバージョンです。LLaVA のようなトレーニング ステップを使用するため、さまざまな種類のデータの処理に役立ちます。
Meta AI の Wukong と推奨のスケーリング法則:
Meta の「Wukong」論文では、より大規模な推奨モデルを構築する方法について説明しています。トレーニングをよりシンプルかつ効果的にするために、さまざまな種類の機能を組み合わせることに重点を置いています。
機能統合: 密なデータ タイプと疎なデータ タイプを組み合わせてスムーズなトレーニングを実現します。
Wukong レイヤー: リンク付きの独自のブロック (FMB および LCB) を使用して、入力と出力のバランスをとります。
出力寸法: 出力サイズを正確に一致させる必要のないタスク向けに設計されています。
Nvidia の Ampere GPU アーキテクチャ:
Nvidia の Ampere アーキテクチャは、 AI作業の高まる需要に対応するために構築されています。
TensorCore の改善: 効率的なディープラーニングのために強化され、精度を向上させるために BF16 と TF32 をサポートします。
MIG: GPU で複数のインスタンスを実行できるため、多くのユーザーが干渉なくリソースを共有できます。
相互接続: NVLINK と NVSWITCH を使用して高速接続を実現し、大規模ネットワークの円滑な実行を支援します。
ウェイモの自動運転向けEMMA
Waymo の EMMA は、以下の点に重点を置いた自動運転用の包括的な AI モデルです。
視覚ベースの認識: レーダーやその他のセンサーを使わず、視覚データのみを使用します。
Gemini Nano 言語モデル: 複雑な指示と車両データを解釈します。
思考の連鎖による推論: 理解を深めるために、各運転決定に推論プロセスを追加します。
ロボットのリアルタイムビデオストリーミング
3 層システムにより、Go2 ロボットからのライブ ビデオ ストリーミングが可能になります。
RTMP および WebRTC プロトコル: ストリーミングには RTMP ( Python内) を使用し、マルチプロトコルのサポートには Simple Realtime Server (SRS) を使用します。
Vue ベースの Web インターフェース: ユーザーは WebRTC を使用してロボットからのライブ ストリームをリアルタイムで視聴できます。