見出し画像

【生成AIニュース】『OpenAI o1』関連情報・『Audio Overview』『Pixtral 12B』他

まいどです。
それでは、本日の生成AIニュース。


■OpenAI o1


OpenAIは「OpenAI o1」のプレビュー版を発表しました。
どうやらこれが噂されていた『Strawberry』モデルのようです。
これは回答するまでに、これまでよりも時間をかけてよく考えることで、科学、コーディング、数学などのより複雑な問題にじっくり取り組むように設計された新しいモデルシリーズだとの事です。
ただ、o1-previewでは1週間あたり30回の利用制限があります。
また、推論系には時間はかかるものの、格段にパワーアップしており、トークン長は30000程度らしいです。
GPT-4oと比べて6倍のコストですが、生成速度は遅いようで、論理的な思考は得意とするものの、普通の文章書かせるのは、GPT-4oと同等か少々劣るみたいですね。
しかしプログラミング等には非常に強く、たった1分程度でSnakeの3Dバージョンを作成できたとの報告もあります。
「OpenAI o1」の情報をより詳しく知りたい方は、チャエンさんのNoteサイトなどをご覧ください(下記にリンク先を張ってあります)。
総評するには、出たばかりなので、まだまだ分からない所が多いですが、私はまだ使っていないので、こういう情報は、やはり実際に使って研究している人の情報が確実かと思います。

https://x.com/edwinarbus/status/1834279402009755809

https://x.com/ammaar/status/1834312398016074083

https://note.com/chaen_channel/n/ne48a580d1188

https://x.com/UserMac29056/status/1834081644501975544

■Audio Overview


GoogleのAIツール、NotebookLMに新しい機能「Audio Overview」が追加されました。
この機能を使うと、アップロードした文書(ドキュメント、スライド、チャートなど)を基に、AIが自動的に音声による要約を作成してくれます。

■Covers


音楽生AIの『SUNO AI』のシンプルな音声録音から完全に制作されたトラックまで、あらゆるものをまったく新しいスタイルに変えることができる新機能がリリースされました

■Pixtral 12B


Mistralから、テキストだけでなく画像も処理できるマルチモーダルモデルがリリースされました。
120億パラメーターのモデルで、テキストと画像を同時に処理できるとの事。

■DataGemma


Google Data Commonsの膨大な実世界の統計データに基づいて、AIモデルのハルシネーション問題を解決することを目指したオープンモデルです。

■PaperQA2


科学論文から情報を検索し、要約するAIシステムです。
従来のAIよりもはるかに高い精度で「科学文献の高度な検索」「論文間の矛盾の発見」「新しい仮説の生成」「高品質な要約生成」などを可能とします。

■Out of Focus v1.0


Gradio上で動かす、画像編集のための新しいワークフローです。
こちらを使うと、プロンプトを変えるだけで、画像のスタイルや内容を大幅に変化させることができます。

■HeyGen Avatar 3.0


AIが生成したアバターや音声を使用して、高品質な動画を制作することができるAIツールである『HeyGen』の『Avatar』が3.0にアップデートされました。
リップシンクだけでは無く、全身のダイナミックな動きを再現できるようになったそうです。

https://x.com/joshua_xu_/status/1834251968661127387

■Vidu Studio


4秒または8秒の動画を生成でき、最大1080Pの解像度に対応している、動画生成AIツール『Vidu Studio』がアップデートされ、I2V(画像から動画生成)の機能が搭載されました。

■Anifusion AI


コミックや漫画を制作できるAI『Anifusion』がアップデートされ、1つの画像の中の複数の顔をそれぞれ認識し、それぞれに調整が出来るようになったとの事。

■PuLID


生成される画像の特定の人物の顔や物体の形状を指定されたID(特定の人物の顔写真)に近づけることが出来るワークフローの『PuLID』の『Flux』バージョンがリリースされました。

■StereoCrafter v0.0.1


動画を3Dムービーに変換するフレームワークで、サイドバイサイドビデオ・アナグリフ3D・VisionPro形式に対応しているとの事。

■Dynamic Gaussian Marbles


単眼ビデオからノベルビュー合成を行うフレームワークです。
精度はまだまだですが、動画から3D空間を生成するというのは面白い着眼点ですね。

■KREA AIのリアルタイム生成


Krea AIのFlux機能にリアルタイム生成機能が搭載されたとの事。
Fluxモデルをリアルタイム生成できるって、どんなパワーなんでしょうか。

■gimp-comfy-tools


GIMPプラグインとComfyUIを連携させることで、GIMP上でComfyUIの機能を利用できるようになるワークフローです。

■Oracleのスーパークラスター


130,000基のNVIDIA Blackwell GPUのスーパークラスターを展開するとの情報です。
3基の原子炉を動力源とする「ギガワット」容量のデータセンターだとの事。
どうでもいいですが「ギガワット」と聞くと、なんとなくBTFの「1.21ジゴワット(架空)」を連想しちゃいます。


本日は以上となります。
本日のニュースは、「OpenAI o1」関連の話題が非常に多かったですね。
しばらくは「OpenAI o1」でどのような事が出来るのか、またどのような使い方が適切かなどの研究が続くのではないかと思われます。
これまでは「数字に弱い」とされていた大規模言語モデルですが、ハルシネーションがほぼ無く、数字に強いとなれば、使い道は大幅にアップされそうです。
あとは価格に見合うかどうかですね。
しばらく「o1」に注目して情報を集めたいと思います。
それでは、また。


この記事が気に入ったらサポートをしてみませんか?