見出し画像

それでも私はOpen Interpreterを使う

こんにちは、ニケです。
みなさん、Open Interpreterを使用されていますでしょうか?

え?使ってない?
結局何に使えばいいか分からなかった?

…わかる。

Code InterpreterのAPI版!!ローカルPCを直接操作できる!!みたいな感じで9月のリリース当時は盛り上がったものです。

ただ実際に使うとなると、Code Interpreter(現Advanced Data Analysis)はChatGPTで無料で使えるし、ローカルを操作できたところでなあ…と思われた方も多いと思います。

しかも先週のOpenAI DevDayの発表で、Code Interpreterを搭載したAssistatnts APIが発表されました。
これによりついにOpen Interpreterが窮地に立たされたわけです。

(…なお、Assistatnts APIに関してはベータ版ということもあり、下記の検証記事に書いたようにまだ使うには今ひとつかなといった感想です。とはいえ、より精度を高くしたアプデもそのうち来ると思うので安堵はできません(?)

ただだからといってOpen Interpreterがオワコンになったわけではなく、私はOpenAIのプロダクトが優れた場面もあれば、Open Interpreterの方が有用な場面もあると思っています。
つまり適材適所です。

私は今までnoteやYouTubeの題材にしたり美少女化したりと、2ヶ月間ネタとして擦りに擦り続けてきたので、感謝の意味も込めて有用な使用例をまとめたいと思います。

有用な使用例

私の頭脳だと閃きに限界があったので、TwitterやDiscordで有識者の方にいろいろ質問させていただきました。

この場を借りてお礼申し上げます。

ローカルPCを自然言語で操作する

上でも例として上げていますが、やはりこれが一番でしょう。私もこの用途で使うことが多いです。

特定のファイルを開いて欲しい、ブラウザで検索して欲しい、このアプリをインストールして欲しい…。挙げたらキリがありませんが、この手の操作を自然言語、つまり対話を通してできるのってすごいと思いませんか?

下記は美少女UIとの対話でリモートPCを操作し、APIサーバーの起動とエンドポイントの追加に成功した動画です。
お時間あるときにでもぜひ見てみてください。

ちなみに、美少女UIを通さないほうが早いです。

また、コマンドで動かせるアプリなら同じように指示することが可能です。デスクトップカレンダーアプリで予定を確認・調整したり、メールアプリからメールを送信したりしてくれます。

開発者のKillianはPhotodhopでアイコンのトリミング、透過などに使用しているそうです。そんなこともできるのか…。

ここまで来るともう完全にPCに住んでるAIアシスタントですね。

ただし、Open Interpreterは強力でかなり破壊的なので、ホストマシンを操作させるときは注意が必要です。
以前私も遊んでたらプロジェクトフォルダを丸ごと吹き飛ばしたことがあります。

必要に応じてDockerなど、仮想環境で実行させるのが良いでしょう。

ローカルファイルを操作する

Open InterpreterはローカルPCを操作できるので、もちろんすべてのファイルにアクセスすることができます(ただし、権限に依存します)。

OpenAIのCode Interpreterでは、自前のファイルを処理させる場合はアップロードする必要がありますが、Open Interpreterではそんな必要ありません。

例えば、このフォルダにあるwordファイルの中身を全部繋げてpdf化しといて、みたいな注文もできます。
たまにありますよね、こういう単純だけど面倒くさい作業。あれも一発です。

Open Interpreterの最初の紹介動画でも同じような事例が説明されています。

単純作業を繰り返しやってもらう

Open Interpreterは自前の環境で動くのでカスタマイズも容易です。

例えば、元木さんが紹介されているように、記憶機能をもたせることでよく行う単純作業を効率的に実行してもらうことも可能です。

ちなみに、この方法はOpen Interpreterハッカソンで優勝しているくらい開発者にも絶賛されてます。
優勝者の方法では、予めシステムプロンプトに記憶用の指示を入れておくみたいです。

Open Interpreterの実行フォルダなんかに過去の処理のうちうまくいったコードのみを保存しておいて、必要に応じて呼び出せれば時間も短縮できますしかなり有用そうです。

向いてないこと

逆に私が使っていて微妙だな、と思ったことを書いていきます。

まず、コードアシスタント。

Open Interpreterでも出来なくはないですが、これを使用する必要がないと言うか、今はAIサービスも大量にあるのでその他のベターな選択肢に溢れています。
VSCodeの拡張機能Genie AI や AIエディタのCursor、なんなら無償でやってくれるChatGPTで済むことがけっこうあります。

デバッグなんかもこれらのよりコードアシスタントに特化したAIサービスに任せたほうが良いと思います。

あとは、ChatGPTの拡張機能 または GPTsで済むことも多いです。

PDFの要約とか、単発のyoutube動画の文字起こしとか、この手のやつはもうGPTsとかにもいろいろ上がっていると思うので、余程のことがなければ有償のOpen Interpreterを使う必要もないでしょう。

終わりに

そういえば最近のアプデでVision APIにも対応しました。

下記のデモ動画では、ウェブサイトのスクショを撮ってそのままOIで同じウェブサイトのhtmlを生成しています。

Open Interpreterは開発チームが活発なのでけっこう更新されているイメージです。

近い将来OpenAIが近似サービスを立ち上げるのか、それともうまく共存していくのか…

今後どうなるかはわからないですが、やはり私はOpen Interpreterが大好きなので今後も追っていきたいと思います。

ちなみに、現在 Open Interpreterのデスクトップアプリが開発中です。
なんでもできるOpen Interpreterのアプリ化とか、事故多発・阿鼻叫喚の未来が容易に想像できますが、ワクワクはしますよね。

下記のwebサイトからアーリーアクセスを申請できるので、気になる方は登録しておくといいでしょう。


この記事が気に入ったらサポートをしてみませんか?