見出し画像

Microsoftが作ったWindows OS Copilotみたいな動きをするUFOの使い方

久しぶりの記事です。時間が無かったというものありますが、色々と試してみて上手く行かない場合は記事にはしていないので、だいぶ時間が空いてしまいました。

今回は、誰もが自然言語で、Windows OSを操作することが出来るのなら良いなと思ったことがあるはずです。自然言語で、Windows OSを操作できるMicrosoftのUFOを紹介します。UFOは、何の略か正式には記載されていませんが、UI-Focused Agent for Windows OSの略となります。

使い方は、以下です。

git clone https://github.com/microsoft/UFO.git
cd UFO
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt

次に、ufo\config\config.yamlで、OPENAI_API_BASEとOPENAI_API_KEYを修正します。

OPENAI_API_BASEは、https://api.openai.com/v1/chat/completions
OPENAI_API_KEYは、OPENAIで取得したAPIキーを記載します。


config.yaml


config.yamlを修正したら、次を実行します。test1は任意の文字列となります。

python -m ufo --task test1

すると、UFOの実行画面が出力されます。

UFOの実行画面


今回は、ウェブページを表示して、要約してもらいます。

要約してもらうウェブページは、以下です。動画生成AIで話題になったSoraのページです。


https://openai.com/sora


このページを開いたままにして、次を入力して、実行します。


ウェブページの要約を依頼します。

実行結果は、実行過程とともに、最後に出力されます。


実行結果画面

要約された文章は、以下となります。

The web page introduces 'Sora', an AI model capable of generating realistic and imaginative video scenes based on text instructions. It highlights the model's ability to simulate the physical world in motion and help solve problems that require real-world interaction. The page emphasizes the model's features, including its capabilities, safety measures, and research backing. There is also a link to read a technical report for more in-depth information.

ウェブページの要約結果


終わりにするときは、Nを入力してEnterを押します。すると、最後にいくらかかったかが表示されます。今回は、$0.21とのことでした。


他にも試してみます。

Excel fileを開いてと入力しました。

Excelファイルを開いていないせいか、Excelがインストールされているかどうかを確認してくださいと言われてしまいました。GPT4Vを使用しているからか、デスクトップにあるものが操作対象になるのかなと思いました。


全体の所感は、gpt-4-vision-previewを使用しているから、APIコストが高いですね。使用するときは、お金には気をつけましょう。

また、APIコストがかかるのは嫌だから色々と試せませんでしたが、ウェブページの要約以外にもどういうことが出来るのか試してみたい気がします。おそらくWindows OSだけじゃなくて、Windows Serverとかにも使えると考えると、APIコストさえ気にしなければ、使用の用途が広がるのではないでしょうか。


この記事が気に入ったらサポートをしてみませんか?