見出し画像

Sakana AIのAI Scientist, 動画内の任意物体を一貫して追跡するMeta社のSAM2, etc - Generative AI 情報共有会 #20

今週、8月27日(火)にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。

この連載の背景や方向性に関しては、以下第一回の記事をご覧ください。


Sakana AI、AIが自ら研究を行う「The AI Scientist」発表(2024/08/13)

アイデア創出、実験の実行と結果の要約、論文の執筆及びピアレビューといった科学研究のサイクルを自動的に遂行するAIシステム。

実際に「AIサイエンティスト」が生成した機械学習研究論文が公開されている。

https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

いくつかの欠点(最も関連性の高い実験だけでなく、実施したすべての実験を共有していること、成功した理由の解釈が若干間違っていること)はあるものの、興味深い新たな方向性を提案しておりよい実験結果を示している、とのこと。

【The AI Scientistが論文執筆を行う手順】

最初の準備(探求してほしい既存のトピックの開始コード「テンプレート」の提供)以外は、人間の介入を一切必要とせず、研究アイデアの発案、実験の設計・実施、結果の収集と分析までを自動で行い、その結果をもとに研究論文を執筆。
論文執筆を担当するLLMとは別に、査読者役のLLMが生成された原稿を批評し、フィードバックを提供して研究を改善したり、次のサイクルでさらに発展させるべき有望なアイデアの選定も行う。

【コスト】
アイデアが実装され論文となる過程には1本あたり約15ドル(2300円)のコスト(安い)

【キーワード: エージェント】
LLMを用いたアプリケーション開発における現在の主流の一つ。
LLMに裏で用意したツールや特定領域に特化したモデルの存在を提示し、それぞれの状況でどれを利用すべきかLLMに判断させ、システムが自律的にタスクをこなしていくよう設計したフレームワーク。

Meta、動画内のあらゆるオブジェクトを認識し、一貫して追跡する SAM2の発表(2024/07/29)

SAM2(Segment Anything Model 2)は、動画内の任意のオブジェクトを認識し動画内で精度よく一貫して追跡するモデル。

デモが公開されており(手元の動画もアップ可能)、色々試すことができる。

動画を選択。デモ用に提供されている動画でも良いし、手元の動画をアップロードして試すこともできる。

選択した動画に対して、マウスで追跡したいオブジェクトをクリックするとオブジェクトを認識する。

「Track objects」をクリックすると動画が再生し、先ほど選択したハイライトされたオブジェクトが自動で追跡される。

また、追跡しながらオブジェクトにさまざまなエフェクトを追加することができる。

指定したオブジェクトに絵文字のエフェクト
指定したオブジェクトにモザイクのエフェクト

ライセンスはApach-2.0 Licenceで商用利用可能。

Google Pixel 9、GeminiなどさまざまなAI機能が搭載(2024/08/13)

今月発売されたGoogle Pixel 9シリーズにGeminiなどのさまざまなAI機能が搭載。
スマホで人々が自然とAIを活用する時代となってきました。
機能の一部を紹介。

Gemini Live: 自然な音声対話でさまざまなサポートを行ってくれる。

Pixel Studio: 画像生成機能。デバイスに搭載したモデルとクラウドモデル(Imagen 3)を組み合わせて画像生成。

Pixel Screenshot: 後で見るためにスクリーンショットしたものなどを自動で整理し、必要な時にピックアップしてくれる。

Add Me: 誰かに撮影を頼んだり三脚を用意したりする必要なく、全員の写真が撮れる。

Call Notes: 電話の内容の書き起こしと要約を作成してくれる。完全オンデバイスで実行。(この機能をONにすると、通話中の全員に通知される)

GPT-4oのファインチューニングが利用可能に(2024/08/20)

https://openai.com/index/gpt-4o-fine-tuning/

現在利用可能なLLMの中でもリーダーボード上でトップレベルの性能であるGPT-4oをユーザー個別タスクにファインチューニングできるように。

フルスクラッチ日本語LLM

Llama 3.1などの英語の強力なオープンモデル対して日本語で継続事前学習を行う方法が主流である中、ゼロから日本語で事前学習を行ったモデルもいくつか出ている。

PFN の PLaMo-100B

事後学習が完了し、その結果を共有したブログ記事。
実際のアプリケーションで利用できるようになるためには、事前学習→事後学習 のプロセスが大事。

事後学習完了後のPLaMo(PLaMo-100B-Instruct)はGPT-4を上回る性能を発揮。

PLaMoの無料トライアル実施中。

(社内共有会時点では発表されてませんでしたが)PLaMo-100Bの成果を元に構築した1Bの小規模言語モデルPLaMo Liteの提供開始も発表されました。

SB Intuitions の Sarashina2-70B

事前学習の結果を共有したブログ記事(事後学習は行なっていない)。
商用利用可能なMITライセンスでダウンロード、利用可能。

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。


この記事が気に入ったらサポートをしてみませんか?