OpenAI DevDeyの発表を経て、Party on Slackの進化と今後の方向性

2023年11月9日 17:12

去る2013年11月6日。サンフランシスコにてOpenAI DevDayが開かれました。

今回のイベントに期待していたのはこれがDevDayだということです。ChatGPTのWeb版ではなく、恐らくAPIに関する発表が多くでるのだろうという期待があり、期待を超えるものが出てきたなと感じました。

取り急ぎ実装したもの

今回のアップデートでは以下の機能が利用可能になりました
・GPT-4-turbo(モデル名 gpt-4-1106-preview)
・GPT-4-V(モデル名 gpt-4-vision-preview。マルチモーダルと言われる機能を提供)
・GPT-3.5-turbo-1106(gpt-3.5-turboの最新バージョン)
・DALLE3
・Text to Speech

DALLE3は期待通りのクオリティを出してくれます。1分間に7枚というレートリミットが厳しいですが、まぁいいでしょう。

GPT-4-turboはどうやらClaude2より若干安く、トークン数は128kということでClaudeの100kを超えました。ここは頑張った感じがしますね。

先日ChatGPT Plusの人にはリリースされていたマルチモーダルも、APIで利用できるようになりました。
早速DALLE3で生成した画像を説明してもらうと、ちゃんと読めてることがわかります。

新しい体験だったのはtext to speech

こんな感じで入力するとあっという間に音声が出力されます。こちらが生成した音声。

今回のアップデート内容についてはこちらのプレスリリース上に詳しく書きましたので御覧ください。

音声の元テキスト

結構ちゃんとできてますよね。

今後の方向性について

というわけで、急ぎこちらまでの実装はできたのですが、もう一つやらなければならないことがあります。
そう、それはアシスタントAPIの利用です。
アシスタントAPIを使うと何が出来るかというと、
・設定用のプロンプトを与える
・ファイルを与えることが出来る
・Code Interpreterを使うことも出来る
というもので、いわゆるエージェント型AIというものになります。
これやっといてというと、AIが自分で考え、時にコードを書いて実行し、情報が足りなければWebブラウジングで情報収集を行い、最終成果物を出すというもので、AIってそれだよねっていうものが全部詰まっています。
API自体も現在はベータ状態なので今後実装方法が変わる可能性があるのですが、Party on Slackでは現在こちらについて開発を行っています。
個人的にはCode Interpreterがこのような形で表に出てくるとは思っていなかったので非常に興奮しました。こいつをSlack上で使うことができたら熱いぞと思っているところです。

noteにはこれまでの経験を綴っていこうかと思います。サポートによって思い出すモチベーションが上がるかもしれない。いや、上がるはずです。