GPT 3.5-turboが20Bパラメータという話の後日談

2023年11月3日 19:48

TL;DR　論文著者によれば「論文に書いたパラメータ数の出所はForbesの記事であり、その記事にソースの記載はない」とのこと。

10月26日にarxivに掲載された論文で、GPT 3.5-turboのパラメータ数が200億（20B）という記載があり、数日前に話題になった。

FYI the new code diffusion model paper by some people at Microsoft claims ChatGPT-3.5-turbo is 20B params.. https://t.co/AsXwrw3NyG pic.twitter.com/xdiGtcev4s
— Teknium (e/λ) (@Teknium1) October 30, 2023

論文著者が（OpenAIと提携している）Microsoftの研究者だったこともありバズったものらしい。
この件に関してRedditに検証ポストがあったので、簡単に内容をまとめてみる。

11月1日になってarxivページに論文著者の釈明が掲載されている。

本論文にはこの記事を参照したOpenAIのChatGPTパラメータ数の不適切な推測が含まれており、引用が省略されていました。論文著者はこの情報について直接の知識も検証も持っておらず、この記事のみに依拠したため、世間を混乱させる可能性があります。
（Contains inappropriately sourced conjecture of OpenAI's ChatGPT parameter count from this http URL, a citation which was omitted. The authors do not have direct knowledge or verification of this information, and relied solely on this article, which may lead to public confusion）

https://arxiv.org/abs/2310.17680

論文著者が参照したというのは、ビジネス雑誌Forbesに2023年2月（半年以上前）に掲載された以下の記事。

この記事は外部の寄稿者（生成AI関連のマーケティング会社の経営者）によるコラムで、一般読者向けにChatGPTについて解説したもの。
肝心のパラメータ数については、前置きも引用もなく、以下のようにサラっとカッコ書きされているだけ。

チャットボットアプリケーションは最も人気のあるものの1つだったようで、ChatGPTが最初に登場しました。ChatGPTはGPT-3よりも小さい（200億パラメータ対1750億パラメータ）ため、GPT-3よりも高速なだけでなく、会話タスクを解決する際の精度もGPT-3よりも高く、低コスト／高品質のAI製品として完璧なビジネスケースとなっています。
（It seems like the chatbot application was one of the most popular ones, so ChatGPT came out first. ChatGPT is not just smaller (20 billion vs. 175 billion parameters) and therefore faster than GPT-3, but it is also more accurate than GPT-3 when solving conversational tasks—a perfect business case for a lower cost/better quality AI product.）

https://www.forbes.com/sites/forbestechcouncil/2023/02/17/is-bigger-better-why-the-chatgpt-vs-gpt-3-vs-gpt-4-battle-is-just-a-family-chat/

なお、これは時期的にGPT 3.5-turboの公表前に書かれた記事なので正確には「ChatGPTのパラメータ数が20Bである」という書かれ方になる。

GPT 3.5のパラメータ数は非公開であるために、以前から真偽不明の情報がよく流布している（以下の記事に詳しい）。