見出し画像

MIT Technology ReviewによるAIトレンド予測

MIT Technology Reviewによる「2023年のテクノロジー大予測」を読みました。特に興味深く読んだのが、AIに関するトレンド予測です。

予測されていたのが、ChatGPTのような大規模言語モデルを画像認識や動画認識などの複数のモダリティと組み合わせることです。ChatGPTで会話しながら、画像を生成したり、編集したりするようなことができるようになるだろう、というわけです。

たしかに、DALL·E 2にイメージ通りの画像を生成してもらうためには、そのためのプロンプトを与えないといけません。最終的に欲しい絵に仕上げるためには、試行錯誤がかなり必要になります。この試行錯誤を会話しながらできるようになれば、より自然なやりとりで欲しい結果を得られるようになるはずです。

そんなことを考えていたら、研究室のSlackで学生さんから「Fixie.ai」というサービスが面白そうだと流れてきました。

Fixieを使うことで、MIT Technology Reviewが予測していたことが可能になります。ChatGPTと画像生成AIをつなげることで、チャットでやりとりしながら画像を作ることができるのです。

たとえば、まず、次のようにFixieに「白い背景に写真のようにリアルな猫の絵を作成してください」とお願いします。

「白い背景に写真のようにリアルな猫の絵を作成してください」

すると、FixieがDALLEエージェントを呼び出して猫を生成します。

DALLEが猫を生成

次に、「白い背景を花火の背景に変更してください」とお願いします。これがチャットでやりとりするメリットですね。まずどんなものが生成されるかをみて、変更を加えていくことができます。

しかし、DALLEは「背景だけを変更する」という機能を持っていません。そこで、Fixieは背景をマスクすることができるエージェントを呼び出します。すごいのは、どのエージェントを使えばいいのかもFixieが自分で探してくるところです。

背景をマスクすることができるエージェントを呼び出す。

背景をマスクした結果がDALLEに渡され、DALLEが花火の絵を生成し、元の画像と合成します。すると、次のとおり「背景を花火に変えた猫の絵」が見事に完成しました。

背景を花火に変えた猫の絵が完成

Fixieのようなプラットフォームを使うことで、既存のアプリや手元のデータとのやりとりを言語ベースでできるようになるだけでなく、アプリやデータ間のやりとりもスムーズに繋げられるようになるのです。

絵を生成するだけでなくさまざまな応用が考えられます。もちろん普段の研究室でのデータ分析にも使えます。

データ結果とグラフ描画ソフトをFixieでつなげるとどんなことができるようになるでしょうか?

たとえば、「〇〇の結果を折れ線グラフで描画して」とお願いするだけで、思い通りに結果を可視化できるようになるはずです。

Fixieのプラットフォームはまだ公開されていないですが、公開されたらぜひ試してみたいです。またご報告します。

ではまた!ciao :)

この記事が気に入ったらサポートをしてみませんか?