見出し画像

ChatGPT最新アップデートでさらに進化       ~OpenAI 「DevDay」~


はじめに

2023年11月7日に開催された、OpenAIの開発者向けカンファレンス「DevDay」にて、新たな大規模言語モデル「GPT-4 Turbo」など、
ChatGPTに関する大きなアップデートの発表が行われました。

このDevDayの中でChatGPTを開発しているOpenAIのCEOであるサム・アルトマンが基調講演を行いました。

サム・アルトマンの基調講演は以下からご視聴ください。

OpenAIのCEOであるサム・アルトマンについては以下のnoteを参照ください

OpenAIは最新の言語モデルとして2023年3月15日に「GPT-4」(Chat GPT Plus:月額20米ドルで利用可能)を一般公開しました。

GPT-4はそれまでのGPT-3.5に比べて大幅に性能が上がったのですが、その分かりやすい例として米国の司法試験を受けさせてみたところ、GPT-3.5は下位10%相当の点数だったのに対し、GPT-4は上位10%相当の点数で余裕をもって合格できるという結果が出ており、その精度の高さに世界中が驚かされました。

GPT-4の大きな特徴として「マルチモーダル(直訳:複数の異なる情報形態を組み合わせた)」というのが知られています。

GPT-3.5まではテキストならテキストのみ、画像なら画像のみを学習して処理を行う「シングルモーダルAI」でしたが、GPT-4は、テキストや画像、音声など複数の種類の情報を組み合わせて総合的に処理する「マルチモーダルAI」となっています。

我々人間も五感(視覚・聴覚・嗅覚・味覚・触覚)からの情報を組み合わせて様々な判断を行っていますが、より人間に近付いたと言えるでしょう。

そこから半年ほどで今回新たな大規模言語「GPT-4 Turbo」が発表されましたが、具体的に何が変わったのか見ていきましょう。

「GPT-4 Turbo」

アルトマンの講演内で発表された内容で重要な部分を以下に抜粋します。

1.知識が2023年4月にアップデート

これまでは2021年9月までとちょっと古いデータまでしかとってくることができませんでした。

しかし、これが2023年4月までのデータにアップデートされます。
これによって、本当に最新情報は無理ですがかなり新しい情報まで網羅した回答をしてくれるようになります。

2.APIが大幅改善された

GPT-4 TurboのAPI・・・外部のプログラムやアプリがGPT-4 Turboとコミュニケーションをとるためのインターフェース

①128Kトークンに対応

これだけ見るとよく分からないと思いますが、これは簡単に言うと、GPT-4 Turboが一度に処理できるテキストデータの大きさを表しています。

トークンはテキストの最小単位であり、
英語の場合は1単語=1トークンで、記号(「、」など)も1トークンとしてカウントされる。日本語の場合、ひらがな1文字は1トークン以上、漢字1文字は2~3トークンとなることが多いため、トークンの消費量が多い。

例) 「Hello, world!」      ➡ 6トークン、
   「こんにちは、世界!」    ➡ 13~15トークン程度となる。

これまでのGPT-4は最大32Kトークンまでだったので、これまでの4倍の長さの文章(本のページ数にして300ページ)も一度に処理できるようになったということになります。ただし、出力は最大4Kトークンのままです。

APIの入出力の価格もGPT-4に比べて数分の1とかなり安価になりました。

②マルチモーダルに対応

はじめにのところでもGPT-4にはマルチモーダルで複数の情報を同時に処理できるようになったと説明しましたが、GPT-4 TurboはAPI経由でもマルチモーダル(画像解析、DALL-E 3=画像生成 、Text-to-speech=読み上げ)に対応しました。

・GPT4 Turbo with vision

画像入力用のAPIは「GPT4 Turbo with vision」という名称で追加されており、こちらを利用すれば連携したアプリやWebサイトからの画像入力が可能で、キャプション生成や詳細な画像分析も可能になります。

例えば、風景の写真を送信すれば「美しい山々と川の風景」といったキャプションを生成できたり、ワインの画像を送信すればラベルからそのワインの説明が出てきたりします。医療現場でも皮膚の症状やレントゲン画像を送信すれば簡易的な診断ができるようになったりするといった使い方もできるかもしれませんね。

・Text-to-speech(TTS)

テキストを人間に近いクオリティの音声に変換する技術。

API経由でのTTSがされ、ChatGPT以外のWebサイトでも、テキストの音声出力が可能になります。

ChatGPTのTTSでは、6つのプリセット音声から好きな声色を選択することができ、通常のtts-1に加えて高音質版のtts-1-hdも選択可能です。

こちらはGPT-4VとTTSの機能を利用してサッカーの試合の映像を読み込ませ、AIに実況をさせたものです。

編集無しでこのような自然な実況ができたり、リアルタイムでカメラに写っているモノや人を正確に言語化して描写できるので目が見えない方に向けたサービスに利用することも考えられます。


・DALL-E 3とImages API

「DALL-3」は、2023年9月21日にOpenAIが公開したばかりの最新の画像生成AIです。

これを使えば長いプロンプトを入力するなどする必要がなく、会話型のChatGPTのインターフェースを通じて手軽に画像を修正することができるというものです。

今回の発表で「Images API」が開放され、ChatGPT外のWebサイトやアプリでDALL-E3が使用できるようになりました。

3.GPT Builder(独自のAIアシスタント)

①GPTs

ノーコードで独自の「ChatGPT」のカスタム版を作成可能。

つまり、プログラム知識無しでも、対話形式でオリジナルのチャットボットを構築できるようになりました。

使用例としては、社内のスケジュールやイベント情報、プロジェクトの進捗状況などコミュニケーションを効率化することができたり、学習面では学生に質問応答の形で教育的なサポートを提供したりすることができます。

他にも様々な用途が考えられ、一般ユーザーにとってもかなり嬉しい機能となりそうです。

②GPT Store

GPTsで構築したオリジナルボットを販売するためのストアも開店します。

これはApple StoreやGoogle Playのようなものを想像していただければ分かりやすいと思います。なお、GPT Storeにて売れたGPTsの売り上げの一部は開発者に分配されるとのこと。

4.All Tools

これまでChatGPTでは、DALL-E3、Browsing、Advance Data Analysis、GPT-4Vの4つの機能は1つずつしか使うことができませんでしたが、全ての機能が統合されました。

これによって、モードの切り替えなども不要で一括でこれらの機能を使うことができるので、かなり便利になりました。

例えば、これまではAdvance Data Analysisで図や表を作成する場合に、その基となるデータは自分でとってきて打ち込んだりしないといけなかったのですが、これがAll ToolsではBrowsing機能が統合されているのでChatGPTでデータ収集から図表の作成まで一括でできるようになります。

5.Assistants API

こちらの機能はより開発者向けなので詳しくは割愛しますが、
「Code interpreter(コードの解釈:プログラミングのコードに対する質問や要求を理解し、そのコードを実行した結果を返す機能)」、「Knowledge retrieval(大量のデータから必要な情報を検索し、ユーザーに提供する機能)」、「Function calling(特定の機能やタスクを実行するために、関数の呼び出しを模倣する機能)」といった複数のツールに並行してアクセスできる強力なAIアシスタントを作成するためのAPIです。

これら以外にも開発者に向けた嬉しいアップデートが盛りだくさんな発表となりました。

より詳しく知りたい方は講演の動画を見たり、まとめ記事を見たりして調べてみてください。


イーロン・マスクが手掛けるAIチャットボット「Grok」まもなく公開 

ChatGPTが話題となってから、他の大企業から続々とAIチャットボットがリリースされています。

例えば、Microsoftの「Bing」、Googleの「Bird」、Amazonの「Titan」、Metaの「LLaMa」などがあります。

これらに対抗すべく、11月4日にイーロン・マスクが立ち上げたAI企業「xAI」がAIチャットボット「Grok」を発表しました。

・GrokはChatGPTのようなチャット形式のサービス
GPT-3.5やMetaのLLaMaよりも精度が高い
・Xプレミアム+(旧Twitterの有料版)の一部として提供(月額16$)
※参考:ChatGPT4.0の課金額は月額20$

そして、目玉となるのは「X上の最新ポストが反映される」というもの。

また、他のAIチャットボットと比較して”応答に少しユーモアを加えるよう設計”されているようです。

イーロン・マスクは自身のXで、「ジョーローガンが最後にイーロン・マスクにインタビューをしたのはいつ?」という質問に対して、他のAIチャットボットでは回答できないが、Grokでは2023年10月31日の最新情報が回答されると紹介しています。

GPT-4 Turbo の発表でもあったように、ChatGPTでは2023年4月までのデータが反映されるようになりましたが、まだリアルタイムの最新情報を反映させるには至っていない中で、Grokはリアルタイムの情報も反映されます。

できるだけ最新の情報を取りたいという時にはGrokも選択肢に入るかもしれません。

おわりに

チャットボットと言えば、思い出すのは2015年にLINEに登場した日本マイクロソフト社が開発した「女子高生AIりんな」です。これが出た当初は一人でしりとりができると感動したのを覚えています。

それから5年余りが経ち、ChatGPTの出現でそのあまりにも自然な日本語と文章を理解しているようなレスポンスに驚愕しました。

そして現在、文章だけでなく画像や音声などもAIで認識、解析、そして生成するところまでできるようになったこと、そしてその進化がこの2~3年という非常に短いスパンで起きていることが信じられません。

そもそも人類の長い歴史の中でパソコンが国民に普及したのでさえ2000年前後ですから、その技術の成長スピ―ドたるや恐ろしいものがあります。

2023年に入ってからはそのアップデートのスピードも内容も加速度的に上がってきていて、数年後には本当にSF映画のような世界が実現するのではないかとワクワクさせられます。

暗号資産もスピード感がかなりあるので情報を日常的にとらないとすぐ置いて行かれますが、AIについてもそれ以上のスピード感があるので、時代に取り残されないように日々情報を収集し、日常生活やビジネスに活用していきたいですね。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
2023©️My Consulting Co.,Ltd


この記事が気に入ったらサポートをしてみませんか?