見出し画像

OpenAI DevDayをマインドマップでまとめ|発表内容完全解説

キーワード:

  • GPT-4のアップグレード版であるGPT-4 Turboが登場、コンテキストウィンドウは128kとGPT-4の4倍

  • OpenAIのAPI使用料は値下げし、全体で半額以上安くなりました

  • 新しいモダリティを利用可能

  • ChatGPTをカスタマイズできます

  • 11月末にはGPTストアがリリース

11月7日、サンフランシスコでOpenAI初の開発者会議が正式に開催されました。
ちょうど1年前の11月30日、OpenAIはAIを搭載したチャットボット「ChatGPT」を発表し、2ヶ月で1億人のユーザーを集め、史上最も急成長したソフトウェアとなりました。
今日の開発者会議で、OpenAIはさらに重要なアップデートが発表されました。
では、今回の記事は、マインドマップと文字で発表内容をまとめます。

まず、GitMindを使って開発者会議の主な内容を描きました。
これからもマインドマップの内容を中心に詳しく説明していきます。

GitMindで作成

六つのアップデート

Sam AltmanはGPT-4の大きなアップグレードとして、ChatGPTとAPIバージョンで同時に展開されるGPT-4 Turboを発表しました。
Sam Altmanによると、チームは開発者からの提案を募り、開発者の懸念に対処するために6つの主要なアップグレードを行いました:コンテキストの長さ、より多くのコントロール、知識ベースの拡大、マルチモダリティ対応、モデルの微調整とカスタマイズ、レート制限緩和と値下げ。

コンテキストの長さ

OpenAIはもともと最大コンテキスト長を32kとしていたが、今回GPT-4 Turboは直接コンテキスト長を128kに増やしました。
128kのコンテキストは、標準的な大きさの300ページの本のテキスト量にほぼ匹敵します。より長い文脈に対応できるようになったことに加え、新モデルはより長い文脈でも首尾一貫した正確さを保てるようになりました。

より多くのコントロール

JSONモードが提供されて、モデルが特定のJSONで答えを提供することを保証し、APIを呼び出しやすくします。
そして、新しいモデルは複数の関数を一度に呼び出すことを可能にし、モデルが必要なときに固定出力を返すことができることを保証するためにseed parameterを導入します。
OpenAIはまた、GPT-4 Turbo、GPT-3.5 Turboによって生成された最も可能性の高い出力トークンの確率を記録できるロギングツールを今後数週間で導入し、検索エクスペリエンスにおけるオートコンプリートのような機能を構築する際に役立ちます。

知識ベースの拡大

GPT-4 Turboの知識ベースは、2023年4月に拡張しました。つまり、更新期限より前に起こったことに関連する質問に答える場合、その回答はより正確なものになるということです。
OpenAIはまた、プラットフォーム内で検索を開始し、開発者は外部の文書やデータベースからの指示を構築中のコンテンツに取り込むことができます。

マルチモダリティ対応

GPT-4 Turboはマルチモーダル機能を統合しており、画像入力を受け入れて処理したり、テキストを音声に変換したりすることもできます。
これにより、開発者はこのモデルをより幅広いアプリケーションに適用し、より幅広いニーズに応えることができます。

テキスト音声合成 Text-to-Speech API(TTS)
OpenAIの新しいTTSモデルは、6つのプリセット音声と2つのモデルバリエーションを提供します。 開発者は音声合成APIを通して、より自然な音声ファイルを生成することもできます。 価格は1,000文字入力あたり0.015ドルからです。

画像読み取りと分析 GPT-4 Turbo with vision
GPT-4 Turboは、チャット補完APIで画像を入力として受け入れることができ、テーマの生成、実世界の画像の詳細な分析、図付き文書の読み取りなどのユースケースを可能にします。
開発者はAPIでGPT-4-vision-previewを使用することでこの機能にアクセスできます。
OpenAIは安定版リリースの一部として、GPT-4 Turboのメインモデルのビジョンサポートを展開する予定です。

画像生成ツール「DALL·E 3」
開発者は DALL-E 3 を統合し、Images API を通じて DALL-E 3 をモデルとして割り当て、アプリケーションや製品に直接インポートすることができます。
旧バージョンの DALL-E とは異なり、新しい API には開発者のアプリを悪用から守るための監査機能が組み込まれています。

音声認識モデル Whisper v3
音声認識では、オープンソースのWhisper large-v3がリリースされ、言語横断的なパフォーマンスが改善されました。
OpenAIは今後のAPIでWhisper v3をサポートする予定です。

モデルの微調整とカスタマイズ

8月、OpenAIはGPT-3.5 Turboの微調整サービスをリリースしました。その時、初期のテストでは、GPT-3.5 Turboの微調整バージョンは、いくつかのタスクでGPT-4を上回ることさえできたが、価格は比較的高かったです。
今回は、GPT-3.5 Turboの16kバージョンが前バージョンよりも低価格でファインチューニングできるようになり、GPT-4のファインチューニングも可能になりました。
一方、OpenAIは現在、各企業からのモデルのカスタマイズも受け付けています。

レート制限緩和と値下げ

GPT-4 TurboのインプットトークンはGPT-4の1/3の価格で0.01ドル/1kトークン、アウトプットトークンは1/2の価格で0.03ドル/1kトークンです。
GPT-3.5ターボの入力トークンは以前の16kモデルの価格より1/3安く、出力トークンはそれぞれ0.001ドル/1kトークンと0.002ドル/1kトークンと1/2安いです。
開発者がアプリケーションを拡張できるように、OpenAIはすべての有料GPT-4ユーザーの1分あたりのトークンリミットを2倍にしました。

マインドマップでまとめ

Assistants API

プロの開発者のために、ChatGPT APIの機能は大きなアップデートを受けました。
Assistants APIでAPI Agentを構築し、プロの開発者がより効率的にChatGPT APIを利用できます。
Assistants APIによって導入された重要なアップデートの一つは、永続的で無限に長いスレッド(Threading)の提供であり、また、Assistants APIは3つの新しいツール、Code interpreter、Retrieval、Function callingを提供します。

ドキュメントのセマンティック検索と取得(Retrieval)
開発者が作成したアシスタントをOpenAIモデル外の知識で強化し、コンテキストを管理するための新しいStateful APIを提供します。

内蔵コードインタープリター(Code Interpreter)
サンドボックス化された実行環境でPythonコードを書いて実行する機能です。
グラフやチャートを生成し、ファイルを処理することで、Assistants APIを使用して作成されたアシスタントがコードを反復実行し、コードや数学の問題を解くことができます。

Function calling
開発者が定義したプログラミング関数を呼び出し、その応答をメッセージに合成することができます。

マインドマップでまとめ


GPTs

OpenAIはGPTsの概念を提案し、ユーザーはGPT Builderツールを使って独自のGPTを作成することができます。
GPTはプログラミングスキルを必要とせず、自然言語で自分だけの「パーソナルChatGPT」を作成することができ、「0コード」開発を実現します。

このカスタマイズ・サービスにはGPT Builderという専用ページがあり、Knowledge(知識)、Capabilities(機能)、Actions(行為)という3つのボタンが用意されており、ユーザーはこれをクリックすることで自分のGPTを段階的に構築することができる。

Knowledge ボタンでは、モデルに学習させたいローカルデータをアップロードすることができ、Capabilities ボタンでは、GPTにエージェントのような特定のタスク(ウェブページへのアクセス、画像の生成、コードの記述など)を実行させることができます。

GPTストア

OpenAIはまた、GPTストアを立ち上げ、GPTを中心としたAIプラットフォームを構築すると発表しました。
収益分配もOpenAIにとっては重要で、収益の一部を、最も有用でよく使われるGPTを出した開発者に支払うことで、AIシステムを育成します。

マインドマップでまとめ

GitMind Chat

今回のOpenAI開発者会議では、AIの未来とその可能性を最大限に引き出す方法について活発な議論が交わされました。
この複雑な時代には、進化するこの分野をよりよく理解するために、情報を管理・整理するためのツールが必要です。
それを念頭に置いて、GitMind Chatを紹介したいと思います。

GitMind Chatは、仕事や生活のあらゆる側面でお手伝いできる便利なツールです。 高度なAIエンジンを採用したGitMind Chatはユーザの言葉を理解し、迅速かつ正確に回答することを目的としています。

自然言語を理解:リアルな人間のように話し合えます。AIが学習すると同時に、ユーザもより良い質問方法を学びマスターする必要があります。。

AIアシスタント:旅行計画、芸術的創作、あるいは仕事のまとめなど、GitMind Chatを使用し完成させることが可能で、必要情報のライブラリとして活用できます。

記録付きの継続的なチャット: GitMind Chatはユーザとのチャット内容をすべて覚え、コンテキストでの返答を提供し、前回の質問に基づいたさらなるQ&Aも可能です。

継続的に学習する高知能アシスタント: GitMind Chatのデータソースは時間とともに進化し、最新情報を提供します。


AI業界の盛り上がりは続いており、この開発者会議はAI業界に継続的な影響を与えることになるでしょう。
AIの世界では、私たちは学習者であると同時に創造者でもあります。
探求、開発、革新を続け、未来の可能性を今、現実のものとするためにあらゆるチャンスをつかみましょう!

この記事が気に入ったらサポートをしてみませんか?