Microsoftが作ったWindows OS Copilotみたいな動きをするUFOの使い方
久しぶりの記事です。時間が無かったというものありますが、色々と試してみて上手く行かない場合は記事にはしていないので、だいぶ時間が空いてしまいました。
今回は、誰もが自然言語で、Windows OSを操作することが出来るのなら良いなと思ったことがあるはずです。自然言語で、Windows OSを操作できるMicrosoftのUFOを紹介します。UFOは、何の略か正式には記載されていませんが、UI-Focused Agent for Windows OSの略となります。
使い方は、以下です。
git clone https://github.com/microsoft/UFO.git
cd UFO
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt
次に、ufo\config\config.yamlで、OPENAI_API_BASEとOPENAI_API_KEYを修正します。
OPENAI_API_BASEは、https://api.openai.com/v1/chat/completions
OPENAI_API_KEYは、OPENAIで取得したAPIキーを記載します。
config.yamlを修正したら、次を実行します。test1は任意の文字列となります。
python -m ufo --task test1
すると、UFOの実行画面が出力されます。
今回は、ウェブページを表示して、要約してもらいます。
要約してもらうウェブページは、以下です。動画生成AIで話題になったSoraのページです。
このページを開いたままにして、次を入力して、実行します。
実行結果は、実行過程とともに、最後に出力されます。
要約された文章は、以下となります。
終わりにするときは、Nを入力してEnterを押します。すると、最後にいくらかかったかが表示されます。今回は、$0.21とのことでした。
他にも試してみます。
Excelファイルを開いていないせいか、Excelがインストールされているかどうかを確認してくださいと言われてしまいました。GPT4Vを使用しているからか、デスクトップにあるものが操作対象になるのかなと思いました。
全体の所感は、gpt-4-vision-previewを使用しているから、APIコストが高いですね。使用するときは、お金には気をつけましょう。
また、APIコストがかかるのは嫌だから色々と試せませんでしたが、ウェブページの要約以外にもどういうことが出来るのか試してみたい気がします。おそらくWindows OSだけじゃなくて、Windows Serverとかにも使えると考えると、APIコストさえ気にしなければ、使用の用途が広がるのではないでしょうか。
この記事が気に入ったらサポートをしてみませんか?