【最新情報】GPT-4が来週公開、判明している進化とスペックを徹底解説

2023年3月10日 14:02

ーー１０秒でわかる完全解説ーー

GPT-4と既存GPT-3の最大の変更点
・マルチモーダルモデルになり、テキスト、動画、音声それぞれを関連付け並行処理ができるようになる。
・扱えるクエリが１００万になり、処理できるデータ量、パラメータ、扱える文字数が莫大に増えることで、性能が急上昇する

参考リンク：https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html

GPT-4 は来週開催されます。2023年 3 月 9 日に開催された「 AI in Focus - Digital Kickoff 」というタイトルの約 1 時間のハイブリッド情報イベントで、Microsoft Germany の 4 人の従業員が GPT シリーズのような大規模言語モデル (LLM) を企業とその Azure-OpenAI オファリングの詳細。キックオフイベントはドイツ語で行われ、報道機関 Heise が出席しました。

https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html

Microsoft GermanyのCTOである　Andreas Braun博士が登壇し
「来週GPT-4を紹介します。そこでは、ビデオなど、まったく異なる可能性を提供するマルチモーダルモデルがあります」と発言しました。

しかしながら、
マルチモーダルって何？と思った方も多いんじゃないでしょうか。

マルチモーダルAI（Multimodal Artificial Intelligence）とは、数値／画像／テキスト／音声など複数種類のデータ（＝モダリティー：Modality*1）を組み合わせて、もしくは関連付けて処理できる単一のAIモデル（基本的にはニューラルネットワークのモデル）を指す（図1）。また、複数のモダリティーから学習することはマルチモーダル学習（Multimodal Learning）とも呼ばれる。

ITmedia https://atmarkit.itmedia.co.jp/ait/articles/2207/04/news016.html

と言われてもよくわからないですよね。
マルチモーダルとは「multi」と「modal」を組み合わせたコンピュータ用語です。
「modal（モーダル）とは、AIへの入力する情報の種類（画像、音声、テキストなど）の意味があります。
すなわちマルチモーダルAIとは、複数の形式データを一度に処理できるAI技術のことです。

簡単に言えば、音声とテキスト、動画とテキストなどをまとめて処理ができると思えば大丈夫。

GPT-4になって何が変わる？

・処理速度が数百倍に上がる
・文章と画像、動画をまとめて処理可能
という所でしょうか。

注：パラメーター数が
GPT-3：1750億 GPT-4：100兆個
と言われていますが出どころは不明です。

まだまだ詳細の情報は出てきていませんので、
わかり次第Twitterやnoteで最新情報を発信していきます。

よければフォロー、スキをしてもらえるともっと頑張れます。

この記事が気に入ったらサポートをしてみませんか？