AI ニュース: OpenAI O1、安全性、ビデオ強化などに関する RunwayML
今日は、皆さんが絶対に聞きたい AI の世界からの素晴らしい最新情報をいくつかお届けします。早速見ていきましょう。
Sully の OpenAI O1 ワークフロー
Sully は、OpenAI の O1 を最大限に活用するための秘訣を解説しています。O1 を使ってみて難しいと感じたことがある人は、あなただけではありません。Sully は、O1 に適切な設定を与えることがすべてだと言います。GPT-4 のように何度もやりとりするのではなく、まずしっかりとしたコンテキストまたは構造を構築する必要があります。つまり、長くて詳細なドキュメントを準備し、それを別のモデルに渡して最適化します。それから初めて、それを O1 に渡します。そこで魔法が起こります。とても賢い方法ですよね?
監督 0.24.0 – カテゴリ別のライン横断回数
新しい Supervision アップデートがリリースされました。このアップデートには、ラインの交差をカテゴリ別にカウントする便利な機能があります。このアップデートを待っていた方は、今すぐアップデートをご利用ください。設定も簡単です。30 分以内に、この機能を稼働させることができます。詳細については、GitHub でご確認ください。
https://github.com/roboflow/supervision
LeLaN – 実際のビデオからナビゲーション戦略を学ぶ
次は、カリフォルニア大学バークレー校とトヨタ北米支社による新しいプロジェクト、LeLaN です。これは、ロボットに言語指示を理解して従うことを教えるプロジェクトです。YouTube の動画と事前トレーニング済みのモデルを使用することで、LeLaN はロボットが現実の状況で移動する方法を学ぶことを可能にします。これは非常にすばらしいことです。
[動画] 滑走路 – Gen-3 Alpha Turbo イメージから動画へ
Gen-3 Alpha Turbo では、最初と最後のフレームを指定できるようになり、垂直アスペクト比もサポートされます。
[ビデオ] Hailuo AI – 画像からビデオへ
動画生成AIのHailuoが、Image to Videoをサポートするようになりました。現在は無料で生成できるので、ご興味があればぜひお試しください。
[動画] HeyGen – 見た目が無制限のアバター 3.0
HeyGenはアバターに関してはトップクラスです。Unlimited Looksでは カメラアングルや服装、ポーズまで変えられるようになりました。この時点ではAIアバターかどうかすらわかりません…
レックス・フリードマンのポッドキャストからイムラットの最高の瞬間
Imrat は、Lex Fridman の Cursor チームとのチャットで気に入った場面を共有しました。AI プログラミングに興味があるなら、このエピソードでは興味深い詳細を深く掘り下げます。Claude、O1、GPT Engineer などの AI ツールを使用する人にとっては必見です。新しいコツを 1 つ 2 つ習得できるかもしれません。
生成モデルの安全性に関する RunwayML
RunwayML は、 AIツールがより賢くなるにつれて、それらが安全かつ公平に使用できるように努めています。生成モデルの誤用を防ぐための新しい安全策を展開しています。アーティスト、クリエイター、あるいは単に可能性を模索している人であっても、企業が自社のツールの影響に対して責任を負っているのは喜ばしいことです。
リンク: https://runwayml.com/research/foundations-for-safe-generative-media
Signal のビデオガイド – トレーニングなしでビデオをより効果的に拡散
Signal は、VideoGuide と呼ばれるビデオ拡散モデルを改善する方法を導入しました。この気の利いたツールは、生成されたビデオの一貫性を高めながら、視覚的な品質を高く保つのに役立ちます。余分なトレーニングを行わずにスムーズな結果を得ることが目的なので、テキストからビデオを生成することに関心がある人にとっては、これがゲームチェンジャーになる可能性があります。
https://videoguide2025.github.io
差動トランス
Transformer が Diff Transformer でアップグレードされました。無関係なコンテキストを削減することで、重要な部分に集中できるようになります。この新しい設定は、ロングコンテキスト学習やテキスト要約などに最適です。AI 応答の幻覚に対処する場合にもメリットがあります。
https://arxiv.org/pdf/2410.05258
OmniBooth – マルチモーダル画像制御
OmniBooth では、画像作成の機能がさらに強化されています。テキストと画像のプロンプトの両方を使用して、生成された画像の外観と雰囲気を制御できます。特定の色、オブジェクト、またはスタイルが必要ですか? OmniBooth では、画像作成を本当に目立たせることができる微調整された制御が提供されます。
https://len-li.github.io/omnibooth-web
MathHay – AI における数学的推論のベンチマーク
MathHay は、AI が長いコンテキストで複雑な数学をどれだけうまく処理できるかをテストする新しいベンチマークです。これはトップ モデルにとっても難しいことです。結果から、最高の AI でも数学部門で改善の余地がたくさんあることがわかります。AI の限界に挑戦したいなら、MathHay は試してみる価値のあるクールなツールです。
https://arxiv.org/pdf/2410.04698
FAN – フーリエ解析ネットワーク
最後に、周期的なデータをニューラル ネットワークに組み込む新しい方法である FAN があります。この設定により、モデルは繰り返し発生するパターンをより適切に理解できるようになります。これは、時系列予測などの作業に不可欠です。FAN は、こうした種類の問題に対処するためのよりスマートで効率的な方法を提供します。
https://arxiv.org/pdf/2410.02675
今日はこれで終わりです。引き続き探索し、どのアップデートに最も興奮したか教えてください。
Zamba2-2.7B-命令
Zamba2-2.7B-Instruct モデルは、指示にうまく従い、チャット データを処理できるように設計された新しいバージョンです。状態空間 (Mamba2) と Transformer ブロックという 2 種類のテクノロジを組み合わせています。このモデルはテストで非常に優れたパフォーマンスを発揮し、より大きなモデルよりも優れています。動作が速く、メモリをあまり使用しないため、デバイスに最適です。
https: //huggingface.co/Zyphra/Zamba2-2.7B-instruct
素晴らしいリモートジョブリソース
lukasz-madon が作成したawesome-remote-job GitHub リポジトリをチェックしてください。このコレクションには、リモート ワーカーに役立つリソースが多数あります。リモート ワークに関する記事、ツール、求人情報、さらにはコミュニティも見つかります。際立った機能は「Remote DNA」リストで、求職者がリモート ワークを真にサポートする企業を見つけるのに役立ちます。また、リモート ワークに関する法的および財務情報も共有し、役立つコミュニティとツールのディレクトリも含まれています。
https ://github.com/lukasz-madon/awesome-remote-job