AIニュース:Meta Movie Genベンチマーク、OpenAI GPT-4o-Audio-プレビュー、AIが7万種類の新しいウイルスを発見など

2024年10月19日 18:49

Meta の新しい Movie Gen ベンチマークにより、ビデオとオーディオの AI が簡素化されます

Meta は、ビデオやオーディオを作成するAI を研究者が改善するのに役立つツールセットである Movie Gen Bench をリリースしました。このリリースには、主に次の 2 つの部分が含まれています。

Movie Gen Video Bench:テキストプロンプトからビデオを生成するためのこれまでで最大のベンチマーク。

Movie Gen Audio Bench:ビデオまたはテキスト + ビデオ入力に基づいてサウンドを生成する AI モデルをテストする方法。

これらのベンチマークにより、AI モデルがメディアを作成する際の優れた能力を測定しやすくなります

As detailed in the Meta Movie Gen technical report, today we’re open sourcing Movie Gen Bench: two new media generation benchmarks that we hope will help to enable the AI research community to progress work on more capable audio and video generation models.

Movie Gen Video Bench… pic.twitter.com/66aOaIGwwR
— AI at Meta (@AIatMeta) October 17, 2024

音声生成のための新しい GPT-4o-Audio モデル

OpenAI は GPT-4o-audio-preview モデルを導入しました。このツールはクリエイティブなプロンプトを使用して、さまざまな音声と話し方を生成します。オーディオ制作をより柔軟にし、AI が幅広いオーディオタスクを処理できるようになったことを示したいと考えています。詳細については Twitter をご覧ください。

I can confirm that with system prompt engineering and a high temperature, OpenAI's new gpt-4o-audio-preview model can be instructed to generate voices and any vocal style. https://t.co/Zfxc58Mb5x pic.twitter.com/qL2DgbnPri
— Max Woolf (@minimaxir) October 17, 2024

ショートカットモデルによる AI 推論の高速化

ショートカットモデルにより、AI の推論速度が最大 128 倍向上します。従来のモデルとは異なり、追加のトレーニング手順が不要なため、はるかに使いやすくなっています。より複雑な AI システムを置き換えながら効率性を向上させるように設計されています。

*Shortcut models* are a plug-and-play replacement for diffusion models that can generate in a single step (or more). This speeds up inference by up to 128x.

Shortcut models are trained end-to-end, and do not require a separate distillation phase or learning schedules. pic.twitter.com/De3eOJsK2y
— Kevin Frans (@kvfrans) October 18, 2024

AIが7万種類の新しいウイルスを発見

新しいAIツールが生物学的データをスキャンし、7万種類の未知のウイルスを発見しました。この画期的な発見は、ウイルスについてさらに学び、ウイルス学の研究を前進させるのに役立つ可能性があります。また、AIが生物学をより深く理解するのに役立つことも示しています。

“AI scans RNA ‘dark matter’ and uncovers 70,000 new viruses”

Although not in this research data, AI will show that we misunderstood and misidentified viruses.

This landmark is the first step. https://t.co/c3F8mUf1dV
— Brian Roemmele (@BrianRoemmele) October 17, 2024

As I scan VHS tapes to train YOUR AI I find stuff that I am at a full loss to understand. pic.twitter.com/5OPWUgRjFc
— Brian Roemmele (@BrianRoemmele) October 18, 2024

顔をハグするとトランスフォーマーの問題が解決する

Zach Mueller 氏を含む Hugging Face の開発者は、Transformers ライブラリの勾配蓄積に関する大きな問題を修正しました。このアップデートでは、損失の計算方法を修正することで、AI モデルのトレーニングが改善されます。修正は現在 GitHub で公開されています。

The gradient accumulation fix is now in the main branch of transformers!

Thank you to the entire @huggingface team, especially @TheZachMueller and @art_zucker for collabing with us to fix it! 🤗🦥 https://t.co/MzcDIJJwB0
— Daniel Han (@danielhanchen) October 17, 2024

Postmortem: @UnslothAI Gradient Accumulation Report, @huggingface`transformers`, and You!

First, what went wrong.

A great visualization of this issue by @shxf0072is attached, essentially calculating the loss individually without taking into account when sequence lengths… pic.twitter.com/rM8wqg5gBV
— Zach Mueller (@TheZachMueller) October 17, 2024

Meta の Spirit LM: 新しい音声統合言語モデル

Meta は、従来の音声認識ツールの限界を克服し、音声とテキストをミックスするツールである Spirit LM をリリースしました。このモデルは、音素、ピッチ、トーンに焦点を当てることで、文字起こしやテキスト読み上げなどの音声ベースのタスクを改善するように設定されています。

Meta Spirit LM: open source language model that mixes text and speech. https://t.co/gVtqE1Hf09
— Yann LeCun (@ylecun) October 18, 2024

オープンマテリアル2024（OMat24）

Meta は、材料特性を予測するためのデータセット OMat24 をリリースしました。商用、非商用を問わず無料で利用可能で、オープンサイエンスを促進します。このデータセットは、研究者や企業が新しい材料の可能性を探求するのに役立つことを目的としています。

Meta Open Materials 2024:
Dataset and models for material property prediction. https://t.co/Xz6Ry2twht
— Yann LeCun (@ylecun) October 18, 2024

AIトレーニングデータ危機

ブライアン・ロメール氏は、古いVHSメディアが時代遅れになったことでAIのトレーニング教材が失われるのではないかと懸念を表明した。同氏は、今日のAIモデルはRedditやFacebookなどのプラットフォームに大きく依存しており、人間の経験に対する見方が狭くなる可能性があると警告した

AgentOccam: Web タスクを自動化する AI

AgentOccam は、大規模な言語モデルを使用して、トレーニングなしで Web サイト上のタスクを自動化する新しいツールです。以前のシステムよりも優れたパフォーマンスを発揮し、Web ベースのタスクで AI がより効率的になることを証明しています。

👾 Introducing AgentOccam: Automating Web Tasks with LLMs! 🌐 AgentOccam showcases the impressive power of Large Language Models (LLMs) on web tasks, without any in-context examples, new agent roles, online feedback, or search strategies. 🏄🏄🏄
🧙 Link: https://t.co/s6GPYFAEFf… pic.twitter.com/EG9syQFzDV
— Ke Yang (@EmpathYang) October 18, 2024

トイ・ストーリー4のAI生成クモの巣

ピクサーは、トイ・ストーリー4のアンティーク・モールのシーンでクモの巣を作成するためにAIを使用しました。これにより、アニメーションのプロセスが大幅に高速化されました。キャラクターが直接操作するクモの巣のみに人間の入力が必要で、その他はすべて自動的に生成されました。

For #ToyStory 4, instead of manually creating cobwebs for their Antique Mall environment, @Pixar created AI spiders which would weave realistic cobwebs for them like a real spider.

You can see the red dots which are the AI spiders as they weave cobwebs in real-time. This… pic.twitter.com/MuAjHTG47g
— Rassoul Edji (@RassoulEdji) October 18, 2024

マルチモーダル AI モデル向け MEGA-Bench

MEGA-Bench は、500 を超えるさまざまな AI タスクをカバーする評価システムを導入しています。このベンチマークは、研究者がマルチモーダルモデル (画像、テキストなどを処理するモデル) がさまざまなタスクでどの程度のパフォーマンスを発揮するかを評価するのに役立ちます。

SambaNova と Gradio が AI アクセスを拡張

SambaNova と Gradio は、高速 AI ツールを誰もが利用できるようにするために協力しています。彼らの目標は、高度な AI を使いやすくし、個人と企業の両方に力を与えることです。

SambaNova and Gradio are making high-speed AI accessible to everyone—here’s how it works https://t.co/KHN9ByYy6E
— VentureBeat (@VentureBeat) October 17, 2024

NotebookLM ビジネスカスタマイズツール

NotebookLM チームは、ユーザーが音声要約をカスタマイズできる新機能を導入しました。また、Google Workspace を通じて組織向けのビジネスバージョンもリリースし、チームにコラボレーションのための高度な AI ツールを提供しました。

https://twitter.com/omarsar0/status/1847084938803175873

OpenAI のレジデンシープログラムがオープン

OpenAI は、AI に携わりたい非伝統的なバックグラウンドを持つ人々を対象に、レジデンシープログラムを提供しています。これは、好奇心旺盛な学習者が AI 開発の実践的な経験を積むチャンスです。申し込みは OpenAI の Web サイトで受け付けています

if you're from an unconventional background and want to work on ai, consider applying to the OpenAI residency.
you should be:
- pumped about building true ai
- not afraid of large complex codebases or hard infra problems
- excited to learn fast, dive deephttps://t.co/jqtscGnG6h
— will depue (@willdepue) October 17, 2024

MultiUI: AI の視覚的理解を向上

MultiUI は、AI モデルが Web インターフェースやドキュメントをより良く理解できるようにするための膨大なデータセットを提供します。テキストとスクリーンショットを使用して、さまざまな種類のデジタルコンテンツを読み取り、操作するモデルの能力を高めます

https://arxiv.org/pdf/2410.13824

AGI マイルストーン発表

ヤム・ペレグ氏は最近、象徴的なアートを添えた謎めいたツイートを投稿し、汎用人工知能（AGI）が実現した可能性を示唆した。詳細はまだ不明だが、これは AI コミュニティの好奇心を刺激した。

|￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣|
| AGI has been achieved internally |
|＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿|
\ (•◡•) /
\ /
——
| |
|_ |_
— Yam Peleg (@Yampeleg) October 18, 2024

Hugging Face と GitHub: AI とテクノロジーのイノベーションをシンプルに

Janus:これは、 AI を使って画像やテキストなどの理解と作成の両方を支援する、クールな新しいツールです。画像とテキストの見方を分離しているため、柔軟性が増しています。これは、5,000 億のテキストタグの膨大なコレクションで動作する、DeepSeek-LLM-1.3b-base と呼ばれる強力な AI モデルに基づいています。つまり、従来のモデルよりも多くのことを実行し、さまざまな種類の情報を理解できるということです。

CS-Notes:技術面接の準備をしている場合や、コンピュータサイエンスの基礎を復習したい場合は、GitHub の CS-Notes をチェックしてください。アルゴリズム、オペレーティングシステム、システム設計などの重要なトピックを網羅した膨大なノートのコレクションです。技術職に就きたい人にとっては素晴らしいツールです

Papermark:ドキュメントをオンラインで安全に共有したいですか? Papermark は、それを可能にするオープンソースツールです。カスタム Web アドレスを使用したり、ドキュメントを閲覧しているユーザーの統計を取得したりできます。Next.js や TypeScript などのツールで作成されており、オンラインで安全にファイルを共有する必要のある個人や企業に最適です。

Unkey: API の管理は、特にセキュリティに関しては難しい場合があります。Unkey は、開発者が API の認証と権限を処理するのに役立つオープンソースプロジェクトです。また、コミュニティが開発に貢献できるようにもなっています。

Reddit ディスカッション: クールな AI ポニーモデル

非常にリアルなアニメーションポニーモデルが Reddit の投稿で注目を集めました。議論された内容は次のとおりです。

ビデオ作成:人々は、これらのアニメーションを作成するために、PONY などのツールや、Kling や Runway などのツールを使用することについて話しました。

アニメーションの苦労:一部のユーザーはアニメーションを正しく作成するのに苦労し、別のツールを試したほうがよいかどうか尋ねました。

視覚的な問題:ポニーの瞬きしない目と硬い顔が少し不気味だと思った人もいましたが、本物のように見えることには全員が同意しました。

ファーリーコミュニティ:アニメーションに関してはファーリーコミュニティがいかに生産的であるかについて短いチャットがありましたが、特定のトピックを別にしておく必要があると感じる人もいました。

これは、AI ツールが超詳細なアニメーションの作成にどのように役立っているかを示していますが、アニメーションをさらにリアルに感じさせる余地はまだあります。

ComfyUI Outpainting とは何ですか?

大きなキャンバスに絵を描くように、写真を撮って大きくしたいと思ったことはありませんか? それが Outpainting の機能です! 写真を端を超えて拡大すると、AI が新しい部分を塗りつぶします。これは、コミックパネルや大きなバナー画像を作成するのに最適です。

たとえば、画像の周囲にスペースを追加したい場合、Outpainting は画像にすでに存在するものに基づいて新しい領域を追加し、自然な拡張のように見えます。

ComfyUIでアウトペインティングを使用する簡単な手順

順を追って説明しましょう:

ワークフローを開始します。メニューの「デフォルトをロード」をクリックして、基本的な設定を準備します。

写真をアップロード:コンピューターから拡大する写真を選択します。

「Pad Image」ノードを追加します。これにより、画像を拡張できます。ドットを接続して、画像が元の境界を超えて拡大できるようにします。

たったこれだけで、画像にすでにある内容に基づいて、写真に新しい領域が作成されます。より大きく、より詳細なビジュアルを作成するのに非常に役立ちます。

このガイドを使用すると、Outpainting を簡単に試して、プロジェクトに深みを加えることができます。

https://www.reddit.com/r/StableDiffusion/