見出し画像

AIニュース:Meta Movie Genベンチマーク、OpenAI GPT-4o-Audio-プレビュー、AIが7万種類の新しいウイルスを発見など

Meta の新しい Movie Gen ベンチマークにより、ビデオとオーディオの AI が簡素化されます

Meta は、ビデオやオーディオを作成するAI を研究者が改善するのに役立つツール セットである Movie Gen Bench をリリースしました。このリリースには、主に次の 2 つの部分が含まれています。

Movie Gen Video Bench:テキストプロンプトからビデオを生成するためのこれまでで最大のベンチマーク。

Movie Gen Audio Bench:ビデオまたはテキスト + ビデオ入力に基づいてサウンドを生成する AI モデルをテストする方法。

これらのベンチマークにより、AI モデルがメディアを作成する際の優れた能力を測定しやすくなります

音声生成のための新しい GPT-4o-Audio モデル

OpenAI は GPT-4o-audio-preview モデルを導入しました。このツールはクリエイティブなプロンプトを使用して、さまざまな音声と話し方を生成します。オーディオ制作をより柔軟にし、AI が幅広いオーディオタスクを処理できるようになったことを示したいと考えています。詳細については Twitter をご覧ください。

ショートカットモデルによる AI 推論の高速化

ショートカット モデルにより、AI の推論速度が最大 128 倍向上します。従来のモデルとは異なり、追加のトレーニング手順が不要なため、はるかに使いやすくなっています。より複雑な AI システムを置き換えながら効率性を向上させるように設計されています。

AIが7万種類の新しいウイルスを発見

新しいAIツールが生物学的データをスキャンし、7万種類の未知のウイルスを発見しました。この画期的な発見は、ウイルスについてさらに学び、ウイルス学の研究を前進させるのに役立つ可能性があります。また、AIが生物学をより深く理解するのに役立つことも示しています。

顔をハグするとトランスフォーマーの問題が解決する

Zach Mueller 氏を含む Hugging Face の開発者は、Transformers ライブラリの勾配蓄積に関する大きな問題を修正しました。このアップデートでは、損失の計算方法を修正することで、AI モデルのトレーニングが改善されます。修正は現在 GitHub で公開されています。

Meta の Spirit LM: 新しい音声統合言語モデル

Meta は、従来の音声認識ツールの限界を克服し、音声とテキストをミックスするツールである Spirit LM をリリースしました。このモデルは、音素、ピッチ、トーンに焦点を当てることで、文字起こしやテキスト読み上げなどの音声ベースのタスクを改善するように設定されています。

オープンマテリアル2024(OMat24)

Meta は、材料特性を予測するためのデータセット OMat24 をリリースしました。商用、非商用を問わず無料で利用可能で、オープン サイエンスを促進します。このデータセットは、研究者や企業が新しい材料の可能性を探求するのに役立つことを目的としています。

AIトレーニングデータ危機

ブライアン・ロメール氏は、古いVHSメディアが時代遅れになったことでAIのトレーニング教材が失われるのではないかと懸念を表明した。同氏は、今日のAIモデルはRedditやFacebookなどのプラットフォームに大きく依存しており、人間の経験に対する見方が狭くなる可能性があると警告した

AgentOccam: Web タスクを自動化する AI

AgentOccam は、大規模な言語モデルを使用して、トレーニングなしで Web サイト上のタスクを自動化する新しいツールです。以前のシステムよりも優れたパフォーマンスを発揮し、Web ベースのタスクで AI がより効率的になることを証明しています。

トイ・ストーリー4のAI生成クモの巣

ピクサーは、トイ・ストーリー4のアンティーク・モールのシーンでクモの巣を作成するためにAIを使用しました。これにより、アニメーションのプロセスが大幅に高速化されました。キャラクターが直接操作するクモの巣のみに人間の入力が必要で、その他はすべて自動的に生成されました。

マルチモーダル AI モデル向け MEGA-Bench

MEGA-Bench は、500 を超えるさまざまな AI タスクをカバーする評価システムを導入しています。このベンチマークは、研究者がマルチモーダル モデル (画像、テキストなどを処理するモデル) がさまざまなタスクでどの程度のパフォーマンスを発揮するかを評価するのに役立ちます。

SambaNova と Gradio が AI アクセスを拡張

SambaNova と Gradio は、高速 AI ツールを誰もが利用できるようにするために協力しています。彼らの目標は、高度な AI を使いやすくし、個人と企業の両方に力を与えることです。

NotebookLM ビジネスカスタマイズツール

NotebookLM チームは、ユーザーが音声要約をカスタマイズできる新機能を導入しました。また、Google Workspace を通じて組織向けのビジネス バージョンもリリースし、チームにコラボレーションのための高度な AI ツールを提供しました。

https://twitter.com/omarsar0/status/1847084938803175873

OpenAI のレジデンシー プログラムがオープン

OpenAI は、AI に携わりたい非伝統的なバックグラウンドを持つ人々を対象に、レジデンシー プログラムを提供しています。これは、好奇心旺盛な学習者が AI 開発の実践的な経験を積むチャンスです。申し込みは OpenAI の Web サイトで受け付けています

MultiUI: AI の視覚的理解を向上

MultiUI は、AI モデルが Web インターフェースやドキュメントをより良く理解できるようにするための膨大なデータセットを提供します。テキストとスクリーンショットを使用して、さまざまな種類のデジタル コンテンツを読み取り、操作するモデルの能力を高めます

https://arxiv.org/pdf/2410.13824

AGI マイルストーン発表

ヤム・ペレグ氏は最近、象徴的なアートを添えた謎めいたツイートを投稿し、汎用人工知能(AGI)が実現した可能性を示唆した。詳細はまだ不明だが、これは AI コミュニティの好奇心を刺激した。

Hugging Face と GitHub: AI とテクノロジーのイノベーションをシンプルに

Janus:これは、 AI を使って画像やテキストなどの理解と作成の両方を支援する、クールな新しいツールです。画像とテキストの見方を分離しているため、柔軟性が増しています。これは、5,000 億のテキスト タグの膨大なコレクションで動作する、DeepSeek-LLM-1.3b-base と呼ばれる強力な AI モデルに基づいています。つまり、従来のモデルよりも多くのことを実行し、さまざまな種類の情報を理解できるということです。

CS-Notes:技術面接の準備をしている場合や、コンピュータサイエンスの基礎を復習したい場合は、GitHub の CS-Notes をチェックしてください。アルゴリズム、オペレーティングシステム、システム設計などの重要なトピックを網羅した膨大なノートのコレクションです。技術職に就きたい人にとっては素晴らしいツールです

Papermark:ドキュメントをオンラインで安全に共有したいですか? Papermark は、それを可能にするオープンソース ツールです。カスタム Web アドレスを使用したり、ドキュメントを閲覧しているユーザーの統計を取得したりできます。Next.js や TypeScript などのツールで作成されており、オンラインで安全にファイルを共有する必要のある個人や企業に最適です。

Unkey: API の管理は、特にセキュリティに関しては難しい場合があります。Unkey は、開発者が API の認証と権限を処理するのに役立つオープンソース プロジェクトです。また、コミュニティが開発に貢献できるようにもなっています。

Reddit ディスカッション: クールな AI ポニー モデル

非常にリアルなアニメーションポニーモデルが Reddit の投稿で注目を集めました。議論された内容は次のとおりです。

ビデオ作成:人々は、これらのアニメーションを作成するために、PONY などのツールや、Kling や Runway などのツールを使用することについて話しました。

アニメーションの苦労:一部のユーザーはアニメーションを正しく作成するのに苦労し、別のツールを試したほうがよいかどうか尋ねました。

視覚的な問題:ポニーの瞬きしない目と硬い顔が少し不気味だと思った人もいましたが、本物のように見えることには全員が同意しました。

ファーリー コミュニティ:アニメーションに関してはファーリー コミュニティがいかに生産的であるかについて短いチャットがありましたが、特定のトピックを別にしておく必要があると感じる人もいました。

これは、AI ツールが超詳細なアニメーションの作成にどのように役立っているかを示していますが、アニメーションをさらにリアルに感じさせる余地はまだあります。

ComfyUI Outpainting とは何ですか?

大きなキャンバスに絵を描くように、写真を撮って大きくしたいと思ったことはありませんか? それが Outpainting の機能です! 写真を端を超えて拡大すると、AI が新しい部分を塗りつぶします。これは、コミック パネルや大きなバナー画像を作成するのに最適です。

たとえば、画像の周囲にスペースを追加したい場合、Outpainting は画像にすでに存在するものに基づいて新しい領域を追加し、自然な拡張のように見えます。

ComfyUIでアウトペインティングを使用する簡単な手順

順を追って説明しましょう:

ワークフローを開始します。メニューの「デフォルトをロード」をクリックして、基本的な設定を準備します。

写真をアップロード:コンピューターから拡大する写真を選択します。

「Pad Image」ノードを追加します。これにより、画像を拡張できます。ドットを接続して、画像が元の境界を超えて拡大できるようにします。

たったこれだけで、画像にすでにある内容に基づいて、写真に新しい領域が作成されます。より大きく、より詳細なビジュアルを作成するのに非常に役立ちます。

このガイドを使用すると、Outpainting を簡単に試して、プロジェクトに深みを加えることができます。

https://www.reddit.com/r/StableDiffusion/


いいなと思ったら応援しよう!