見出し画像

【論文瞬読】新時代のOSレベルエージェント構築フレームワーク「OS-Copilot」登場!

こんにちは!株式会社AI Nestです。
今日は、最新の研究論文で発表された「OS-Copilot」というフレームワークについてご紹介します。このフレームワークは、LinuxおよびmacOS上で汎用的なコンピュータエージェントを構築するための革新的な概念なんです。

タイトル:OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
URL:https://os-copilot.github.io/
所属:Shanghai AI Lab, East China Normal University, Princeton University, University of Hong Kong
著者:Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng,
Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong

OS-Copilotの魅力とは?

OS-Copilotの最大の特徴は、不均一なOSエコシステムにおけるアプリとのインタラクションのための統一されたインターフェースを提供することです。つまり、複雑で多様なアプリケーションを制御するための共通の言語を提供するんですね。これにより、エージェント開発者は個々のアプリケーションに特化した制御機構を設計する必要がなくなるんです。

Figure2. OS-Copilotフレームワークの概要

上の図は、OS-Copilotフレームワークの全体像を示しています。プランナー、コンフィグレータ、アクターの各コンポーネントが有機的に結合されており、ユーザーのリクエストに応じて適切なアクションを実行することができます。

FRIDAYエージェント - OS-Copilotの実力を示す存在

OS-Copilotの上に構築されたFRIDAYエージェントは、自己改善型の具現化されたエージェントです。一般的なコンピュータタスクを自動化することができ、革新的なコンフィグレータにより、未知のアプリケーションに対する強力な汎化能力を示しています。

Figure1.  (1)集中作業環境の準備、(2)Excelでの計算とグラフ作成、(3)OS-Copilot用ウェブサイトの作成。下部のテキストは、FRIDAYが担当したサブタスクを示している。それぞれの例について、上の図はOSの初期状態を表し、下の図は実行後の最終状態を表している。ボックス/楕円はFRIDAYによる変更をハイライトしている。

上の図は、FRIDAYがmacOS上で動作している実行例を示しています。フォーカスされた作業環境の準備、Excelでのグラフ作成、OS-Copilotのウェブサイト作成など、さまざまなタスクをこなす様子がわかります。

FRIDAYエージェントの設計の肝は、自己改善と自己指向学習です。つまり、FRIDAYは未知のアプリケーションを制御する方法を自ら学習し、タスクをこなすためのツールを自律的に蓄積していくんです。これにより、開発者が手動でツールを作成する必要がなくなるんですね。

Figure3. (a)典型的な作業フローと(b)具体的な実行例によるコンフィギュレータのアーキテクチャ。

上の図は、コンフィグレータの構造と典型的なワークフローを示しています。ワーキングメモリ、宣言的メモリ、手続き的メモリが連携して、タスクに適したツールを生成・適用する様子がわかります。

GAIAベンチマークで示されたFRIDAYの性能

FRIDAYエージェントは、一般的なAIアシスタントのベンチマークであるGAIAにおいて、高い成功率を示しました。最も難易度の低いレベル1タスクでは、40.86%の成功率を達成し、これまでのベストシステムを35%も上回ったんです。さらに、最も難易度の高いレベル3タスクでも、他のシステムが全く解けなかったにもかかわらず、6.12%の成功率を記録しました。

Figure5. (a):プランナーの実行例。各ノードはサブタスクを表す。数字は説明のためのものであり、サブタスクの実行順序を示すものではない。(b): 能力ごとのレベル1タスクに対するFRIDAYのスコア(%)。FRIDAY以外の数字はGAIAの論文から出典。GAIAの著者に確認したところ、GAIAの図5には数値誤差があるため、ここではベースラインとの比較を省略した。

上の図は、FRIDAYのレベル1タスクにおける能力ごとのスコアを示しています。コーディングやファイルI/Oの処理に優れている一方で、ウェブブラウジングやマルチモーダル処理には課題があることがわかります。

自己指向学習の効果

FRIDAYの自己指向学習の効果を検証するため、研究者たちはSpreadsheetの操作タスクを用いた実験を行いました。当初、FRIDAYはこれらのタスクを全くこなすことができませんでしたが、自己指向学習を経た後、なんと60%のタスクを正しく完了することができたんです。これは、Spreadsheetの制御に特化して設計された最先端のモデルをも上回る結果だったんですね。

上の図は、FRIDAYがPowerPointスライドを作成するタスクを実行している様子を示しています。自己指向学習を通じて、テキストボックスの制御方法を学習し、最終的にタスクを正しく完了することができました。

今後の展望と課題

OS-Copilotとその上に構築されたFRIDAYエージェントは、OSレベルでの汎用エージェント構築に向けた重要な一歩を示しています。パーソナライズされたデジタルアシスタントや、マルチモーダルエージェント、状況に応じたエージェント学習などの研究領域に対する基盤となる可能性を秘めているんです。

ただし、FRIDAYの設計におけるプロンプトエンジニアリングへの依存や、クローズドソースアプリケーションに対する制御の制限など、いくつかの課題も残されています。また、言語エージェントの評価における難しさなど、今後の研究課題も山積みです。

まとめ

OS-Copilotとその上に構築されたFRIDAYエージェントは、OSレベルでの汎用エージェント構築に向けた革新的なアプローチを示しています。統一されたインターフェースによるアプリ制御や、自己改善型エージェントの設計は、今後の研究に大きな影響を与えるでしょう。課題はまだまだありますが、この分野の発展に大きく寄与する価値ある研究であることは間違いありません。

これからのOS-Copilotの発展に乞うご期待!