見出し画像

AIでPCを自動操作するClaudeの新機能の使い方

10月23日、AnthropicはClaude 3.5 Sonnetをアップデートし、PCを自動操作できる「Computer Use」という機能のベータ版を追加しました。この機能はAPIを通じて利用可能で、人間のように画面の内容を認識し、カーソルを移動し、テキストを入力することなどができます。

Anthropicは、この新機能を安全かつ簡単に試せるように以下のDockerを利用するデモを用意しています。今回は、このデモを利用して新機能を使用する方法について詳しく説明します。

注:Dockerは、アプリケーションとその依存関係をコンテナ化し、一貫した環境で実行できるプラットフォームです。コンテナは隔離されて動作するため安全性が高く、システムに影響を与えにくいのが特徴です。また、軽量で効率的にリソースを使えるため、効率的な開発と運用が可能になります。


1.Computer Use導入の準備

今回はWindows PCでの利用を想定しています。
新機能Computer Useのデモを利用するには、事前に以下の準備が必要です。

  1. Dckerのインストール

  2. ClaudeのAPIキーの入手

(1) Dockerのインストール

以下のサイトから指示に従ってDocker Desktopをダウンロードし、インストールしてください。

インストールの手順については、以下のサイトなどを参考にしてください。

(2) ClaudeのAPIキーの入手

Anthropicの公式サイトアカウント登録して、ClaudeのAPIキーを入手します。APIキーは一度画面を閉じると表示されなくなるので、必ずメモなどにコピーして保存してください。

アカウント登録やAPIキー入手の手順については、以下のサイトなどを参考にしてください。

クレジットカードなどの決済情報を入力した後、APIキーを使用するためにクレジットを購入する必要があります。購入金額は最低5ドル(約760円)からです。
2回目のクレジット購入からは、以下の「Settings」→「Billing」のページ「Add Funds」をクリックしてクレジットを追加してください。

これで、新機能導入の準備が整いました。

2.Computer Useのデモの実行

それでは、新機能Computer Useのデモを実行していきます。

(1) 最初に、Docker Desktopのアイコンをダブルクリックして、起動してください。

Docker Desktopの操作画面

(2) 次に、Windowsのスタートボタンからコマンドプロンプトを探してクリックし、開いてください。

(3) コマンドプロンプトに以下のコードを入力してリターンキーを押してください。ストップしたら、そこでまたリターンキーを押します。なお、2行目の「あなたのAPIキー」の部分には、上記1(2)で入手したAPIキーの文字列をコピーしてください。

git clone https://github.com/anthropics/anthropic-quickstarts
set ANTHROPIC_API_KEY=あなたのAPIキー
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

また、2回目からは以下を入力するだけでOKです。

set ANTHROPIC_API_KEY=あなたのAPIキー
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

最初からやり直す場合は、以下のように「anthropic-quickstarts」のフォルダを削除してからやり直してください。

rmdir /s /q anthropic-quickstarts

(4) 最後に「Open http://localhost:8080 in your browser to begin」と表示されたら成功です。ブラウザを開いて、http://localhost:8080にアクセスすると、以下のようにComputer Useのデモがスタートします。

コマンドプロンプトの「http://localhost:8080」のリンクをCtrlキーを押しながらマウスでクリックしても、ブラウザが開いてデモをスタートできます。

3.明日の東京の天気を教えて

「明日の東京の天気を教えて」と入力すると、デモが動き出しました。最初にスクリーンショットを撮ってデスクトップの状態を確認しました。

Firefoxブラウザが起動しました。

気象庁のWebサイトにアクセスしようとしています。

気象庁のWebサイトが表示されました。

都道府県選択から東京都を選択しようとしています。

東京都の天気予報が表示され、明日の東京の天気について正しく回答できました。

ここまでに1分10秒かかり、使用料金は0.2ドル(約30円)でした。

4.フリーレンの画像を検索して拡大表示して

(1) 日本語での検索

最初に作業の手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)から「フリーレン 画像」で検索しようとしています。

正確にキーワードをタイプすることができず、検索に失敗しました。

その後も何度も検索に失敗しました。

キリがないので作業をストップしました。ここまでに約4分かかり、使用料金は0.59ドル(約90円)でした。

(2) 英語での検索

検索時の日本語キーワードの入力で失敗することが多かったので、「Frierenの画像を検索して」と英語での検索を試してみます。

最初に手順が表示されます。

Firefoxブラウザが起動し、Google画像検索のページが表示されました。

キーワードとして「Frieren」が入力され、画像検索の結果が表示されました。

中央のフリーレンの画像をクリックしてポップアップが表示されました。

隣のタブに新しい画像が表示されたようですが、AIがタブを切り替えてくれないので見ることができません。

仕方がないので、タブを切り替えて画像を見せるように指示しました。

やっと新しいフリーレンの画像を見ることができましたが、あまり大きくは表示してもらえませんでした。

タブの切り替えを指示をする前までに3分10秒かかり、使用料金は0.46ドル(約70円)でした。

英語で検索させることによって、検索の失敗が減り、作業全体の成功確率がかなり上がるようです。

5.現在、Amazonで一番売れている生成AI関連の本は?

最初に作業の手順が表示されました。

Firefoxのブラウザが起動しました。

Amazonのサイトが表示されました。

検索バー(アドレスバー)から「AI」を検索したため、Amazonのサイトから離れてしまいました。

やっとAmazonのサイトから離れたことに気づいたようです。

Amazonのサイトに戻ってきました。

今度は、Amazonの検索欄に入力しましたが、タイプミスにより「AI キン」と入力したため、検索結果に18禁の本が出てきて固まってしまいました。

ここでトークン数が1分当たりの制限を超えて、レートリミット・エラーで作業がストップしました。なお、Claude 3.5 Sonnetの1分当たりの制限は、Tier 1の場合40,000トークンです。
参考:Rate limits - Anthropic

ここまでに約3分かかり、使用料金は0.43ドル(約65円)でした。

今回の場合も、英語で指示すると、検索時のキーワードのタイプミスが減り、成功確率が上がるようです。但し、英語で検索したために、出力結果も英語の本になっています。

6.Googleのブロック崩しゲームをプレーして

最初にGoogleのブロック崩しゲーム(Breakout Game)をプレーするための作業の手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)に「Google breakout game」と入力して検索しています。

Googleのブロック崩しのサイトへのリンクを見つけました。

AIがリンクをクリックして、Googleのブロック崩しのサイトを開きました。

上手くはありませんが、AIがバーを操作してブロック崩しをプレーしています。

AIのプレーはあまり上手くないので、すぐにゲームオーバーになりました。最終スコアは33点でした。

ここまでに2分11秒かかり、使用料金は0.41ドル(約62円)でした。

7.楽天の最近の決算を分析し、グラフも表示して

最初に簡単な作業手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)にキーワードを入力してサイトを検索しようとしています。

「楽 IR」という不正確な入力でしたが、Google検索で楽天グループのIR資料のページへのリンクを見つけました。

AIがリンクをクリックして、楽天グループの2024年度決算短信などのページを開きました。

残念ながら、ここで1日のトークン数制限にかかり、作業がストップしてしまいました。なお、Claude 3.5 Sonnetの1日当たりの制限は、Tier 1の場合100万トークンです。
参考:Rate limits - Anthropic

ここまでに1分14秒かかり、使用料金は0.19ドル(約29円)でした。

8.最新の生成AIのニュースを調べてブログ記事を書いて

最初に作業手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)から「generative AI news latest October 2024」を検索します。

検索結果が表示されました。

検索結果を基にブログ記事が作成され、システムの一時フォルダに保存されました。

実際にAIが書いた記事は以下のとおりです。
(表示されたテキストをコピーし、読みやすいように編集しています。)

最新の生成AI動向:2024年10月のトップニュース

生成AI(Generative AI)の世界では、2024年10月に入っても新たな進展が続いています。今回は、最新の重要なニュースをまとめてご紹介します。

1. IBMとIntelが生成AI加速に向けて協力体制を強化
IBMとIntelが画期的な協力関係を発表しました。Intel® Gaudi® 3 AIアクセラレータをIBMクラウド上でサービスとして提供することで合意し、企業向けの生成AI処理能力を大幅に強化することを目指しています。この協力により、より効率的で高性能なAIモデルの学習と推論が可能になることが期待されています。

2. トヨタシステムズと富士通が生成AIを活用して効率化を実現
富士通とトヨタシステムズが、生成AIを活用してコアシステムのアップデート時間を50%削減することに成功したと発表しました。この成果は、生成AIの実務応用における具体的な成功事例として注目を集めています。特に大規模システムの保守管理における効率化の可能性を示す重要な事例となっています。

今後の展望
これらの動きは、生成AIが理論的な可能性の段階から、実際のビジネス価値を生み出す段階へと確実に移行していることを示しています。特に:
 - エンタープライズ向けAIインフラの強化
 - 実務プロセスの効率化における具体的な成果
 - 大手テクノロジー企業間の戦略的提携の加速
が主要なトレンドとして浮かび上がっています。

2024年の残りの期間も、生成AI技術の更なる進化と、より多くの実用化事例が登場することが予想されます。引き続き、この分野の動向に注目していく必要があるでしょう。

一応、ブログ記事が書けていますが、検索結果のページに表示された上位2本の記事の概要だけを利用して書かれているため、内容が偏っていて浅いです。
ニュースを調べて自動的にブログ記事を書かせるには、Web検索が使用できるChatGPTやGeminiを利用した方がよいようです。

また、システムの一時フォルダに保存された記事のファイルを自分のパソコンに移せないかAIに尋ねてみました。
結論から言うと、ファイルを自分のパソコンに移すことはできないようです。
(他方、ChatGPTはダウンロードリンクを表示させて、一時フォルダに保存されたファイルをダウンロードすることが可能です。)

記事のファイルを自分のパソコンに移動して保存することはできますか?

申し訳ありませんが、このシステムから直接あなたのパソコンにファイルを転送することはできません。

代わりに、以下のような方法をお勧めします:記事の内容をコピーして、ご1.自身のパソコンのテキストエディタに貼り付ける
2.メールで自分に送信する
3.クラウドストレージサービスを使用する
4.記事の内容をメモなどに書き写す

先ほど作成した記事の内容はここに表示されていますので、これをコピーしてご自身のパソコンのテキストエディタなどに貼り付けて保存していただくことができます。

記事を別の形式(例:Markdown形式、HTML形式など)に変換したり、内容を編集したりする必要がありましたら、お手伝いさせていただきます。何かご要望はありますか?

記事の内容を自分のメールアドレスに送信することはできますか?

申し訳ありませんが、このシステムから直接メールを送信することはできません。これは以下の理由によります:
1.セキュリティ上の制限により、外部へのメール送信機能は無効になっています
2.個人情報(メールアドレスなど)の取り扱いに関する制限があります
3.外部のメールサーバーへの接続権限がありません

代わりに以下のような方法をお勧めします:
1.記事の内容をコピーして、ご自身のメールクライアントで新規メールを作成し、そこに貼り付ける
2.記事の内容をスクリーンショットとして保存し、後でご自身のデバイスで使用する
3.記事の内容をメモ帳などに一時的にコピー&ペーストする

記事の内容を別の形式に変換したり、編集したりすることは可能ですので、そのようなサポートが必要な場合はお申し付けください。

ファイルをダウンロードできるようにしてください。

申し訳ありませんが、このシステムから直接あなたのコンピュータへファイルをダウンロードすることはできません。これは以下の理由によります:
1.このシステムは隔離された環境で動作しており、外部へのファイル転送機能は制限されています
2.セキュリティ上の理由により、直接的なファイルのダウンロード機能は無効化されています
3.ユーザーのローカル環境への直接的なアクセス権がありません

代わりに、以下のような方法で記事の内容を保存することをお勧めします:
1.表示されている記事の内容をコピーして、ご自身のコンピュータのテキストエディタに貼り付ける
2.記事の内容をスクリーンショットとして撮影し、それを保存する
3.記事の内容を手動でメモを取る

記事の内容を別の形式(HTML、Markdown等)に変換したり、内容を編集したりすることは可能です。そのような支援が必要でしたら、お申し付けください。

セキュリティ上の理由から、このシステムはユーザーのローカル環境から隔離されており、外部へのファイル転送、メール送信、ファイルのダウンロード機能などは制限されているようです。

9.サインカーブを描いて

最初に作業手順が表示されました。

Pythonスクリプトを実行してグラフを生成します。

生成したグラフを画像ビューアーで開きます。

sudo を使用して画像ビューアーをインストールし、グラフを表示します。

10.まとめ

特に検索でのキーワード入力のタイプミスが多く、作業を失敗することが多いです。Google検索は、多少の入力ミスがあっても、正しいキーワードを推測して検索してくれるので、上手くいくこともあります。

なお、英語で検索するように指示すると、検索時のキーワード入力のミスが減り、作業の成功確率が上がるようです。

また、試行錯誤を繰り返すので、作業に結構時間がかかり、使用料金も安くはないので、まだ実用的ではありません

一方で、簡単な指示でも、AIが自分で作業手順を考えて、試行錯誤しながら作業を進めていくので、見ていて楽しいです。また、今後、操作が正確になれば、かなり複雑な業務もこなすことができそうで、ポテンシャルは感じられます

それから、Computer Use機能を使用すると、多くのトークンを消費するため、複雑な作業を行う場合に、トークン数制限にかかって途中でストップすることがよくあります。Tier 1の場合、1分当たりの出力が4万トークンまで、1日当たりの出力が100万トークンまでとなっています。
参考:Rate limits - Anthropic

AIの進化は非常に速いので、1年後には実用的なレベルまで成長している可能性があります。将来的にどんなことができるのか想像してみましょう。

現在のところは、特に実用性は考えずに色々と試してもらえば、今後のための勉強にもなると思います。

11.禁断の技

Computer Use機能により、AIがWebサイトにアクセスして、画面上で操作できることから、Webサイト上でどんなことができるか試してみました。

(1) 特定のnote記事のいいねボタンを押す

特定のnote記事にアクセスしていいねボタン(スキボタン)を押させることができるか試してみました。

Firefoxブラウザが起動しました。

アドレスバーにURLを入力して指定したWebサイトにアクセスします。

指定したWebサイトが表示されました。

ここで、「アカウント情報は不要なので、そのまま押してみて」と入力します。

AIがタイトルの下にあるハートのアイコンをクリックします。

以下のとおり、いいねボタンが押されて、スキの数が増えています。

AIはログインしないと無理だと回答していますが、実際には問題なく実行されています。後で実際のサイトにアクセスして確認したところ、スキの数が反映されていました。

また、今回は一旦止まって再度の指示が必要でしたが、一度の指示でいいねボタンが押されることもあれば、最後まで拒否されることもあります。毎回必ず成功するというものではないようです。

(2) AIが選んだ記事のいいねボタンを押す

次は、AIに面白い記事を選んでもらって、いいねボタンを押してもらいます。

noteのトップページが表示されました。

先程の画面から変わっていませんが、AIが生成AIとジェンダーギャップに関する記事が面白そうだと判断しました。

「ジェンダーギャップが存在した!」の記事が開かれました。

「スキ」ボタンがクリックされました。AIはログインしないと実行できないと回答していますが、実際には問題なく実行され、スキの数が増えています。

作者の方、勝手に巻き込んでしまってすみません。後で実際の記事を読んで面白かったので、「スキ」を押させていただきました。

(3) Amazonのカスタマーレビューを投稿する

次は、Amazonのサイトにアクセスしてカスタマーレビューを投稿できないか試してみます。

指定した本のページが表示されました。

以下のようにレビューの投稿を拒否されました。

カスタマーレビューの投稿は拒否されました。Computer Use機能では、基本的にログインが必要な作業は行うことができません。また、カスタマーレビューの投稿のような操作は制限されているようです。

いいねボタンについても、近い内に使用制限がかかる可能性があると考えられます。

Webサイトへのアクセスや画面操作は自由度が高い機能ですが、それに伴う悪用のリスクも存在します。将来的には、新しい手法の発見とそれに対する規制のいたちごっこが起こるのではないかと思われます。

(4) ChatGPTを操作してエッセイを書かせる

日本語で入力を指示するとタイプミスをしやすいので、英語で入力するように指示します。

作業手順が表示されました。

Firefoxブラウザが起動しました。

ChatGPTのページが開きました。入力欄に「Essay of future AI」と入力されます。

AIはログインしないと無理だと回答していますが、実際には英語でエッセイを書くことができました。

「Essay of future AI in Japanese」と入力するように指示すると、日本語でエッセイを書かせることもできます。

以下のように日本語でエッセイを書くことができました。

未来の人工知能:2040年への展望

未来の人工知能(AI)について考えると、私たちは前例のない可能性と深い影響を持つ風景に直面します。2040年には、AIは日常生活の不可欠な部分となり、産業を変革し、人間の能力を高め、社会的規範を再形成することが期待されています。このエッセイでは、今後のAIの進展、倫理的考慮事項、社会的影響について探ります。

AI技術の進展
今後の20年間で、AI技術の著しい進展が期待されます。機械学習アルゴリズムはますます高度になり、AIシステムは前例のない速度と正確性で膨大なデータを処理・分析できるようになるでしょう。自然言語処理は新たな高みに達し、人間と機械の間のシームレスなインタラクションが可能になると予想されます。仮想アシスタントは、私たちのニーズを理解し、予測し、行動から学び、カスタマイズされた解決策を提供できる高度な個人の伴侶へと進化するでしょう。

さらに、AIと量子コンピューティング、バイオテクノロジー、ロボティクスなどの新興技術との統合は、医療、輸送、教育などの分野を革新的に変えるハイブリッドシステムを生み出すでしょう。たとえば、AI駆動の診断は病気の早期発見を可能にし、自動運転車は輸送の安全性と効率を向上させることが期待されます。

倫理的考慮事項
これらの進展に伴い、重要な倫理的課題が生じます。AIシステムがますます自律的になるにつれ、責任と透明性に関する問題が重要になります。AIシステムがミスを犯した場合、誰が責任を負うのか?特に採用、法執行、戦略などの重要な分野で、AIが偏見なく機能することをどう保証するのか?リスクを軽減し、AI技術が責任を持って開発・展開されるようにするためには、堅牢な倫理的枠組みと規制ガイドラインの確立が不可欠です。

さらに、自動化による雇用の将来の可能性は、重要な社会的懸念を引き起こします。AIは生産性を高め、新たな雇用を生む一方で、特定の職業を陳腐化し、短期的不安や社会的不安定をもたらす可能性があります。これらの変化に対応するために、教育や再訓練プログラムを通じての労働力準備することが、バランスの取れた移行を実現するために重要です。

社会的影響
AIの社会への影響は、経済や雇用にとどまらず、生活の質を向上させる機会と挑戦をもたらします。2040年には、AIによって支援されるスマートシティが生活の質を一層改善し、公衆衛生課題を解し、公的サービスの効率性を高めることが期待されます。また、AI駆動のプラットフォームは教育を改善し...(以下続く)


いいなと思ったら応援しよう!