見出し画像

ChatGPTやLLMで聞くパラメータ数とはなんなのか - EdTech GAI Lab

東大松尾研からとうとう出ましたね!
100億!なんだかすごそう・・・」

しかしどのプレスを見ていてもパラメータ数がわかりやすくインパクトある指標として取り上げられています。あらためてこのパラメータ数をいろいろなLLMのモデルを見ながら比較しつつ説明します

有名な国産のLLMのモデル

参考

海外のものは以下のようなものがある

  • openai/gpt-3.0

    • パラメータ数:1750億

  • openai/gpt-3.0

    • パラメータ数:1兆7,600億?(非公開

  • claude

    • パラメータ数:520億?(非公開

  • LLaMa2

    • パラメータ数:70億、130億、330億、650億

パラメータ数が大きければいいのか

「ChatGPTはパラメータ数が1兆ッ・・・!?やっぱ一番すごいんだー!」と数字だけ見るとなりますね。ただ正解とも言いきれません。そもそもパラメータ数というものは

パラメータは、ニューラルネットワーク内の重みやバイアスのような要素で、これらが学習過程で最適化されています。パラメータ数が増えると、モデルが持つ知識や表現力が増す傾向がありますが、同時に計算コストやメモリ使用量も増加します。

https://note.com/ogatahisato/n/nfe81acc2058c

といったもので、この説明だけ見てもまだ多ければ多いほどよく見えます。しかし結果性能を決めるのは他にも変数があります。

「計算量」「データ量」「パラメータ数」の3つの変数により結果性能が決まってきます。当然この中の一つのパラメータ数が高いほど精度にも影響はあるが、他の変数やそれ以外の工夫でも精度高く結果を得ることはできます。しかしstockmark/gpt-neox-japanese-1.4bにあるように特定領域に特化したり、傾向や方針を持たせることで汎用性を捨てる代わりに特定領域に特化させる手法もあるようです。
またこのモデルらを動かすためにはGPUが不可欠で、それを動かすには費用がかかります。AWSやAzure等からGPUを利用できるソリューションが出てきているとはいえ、まだまだ安いとは言えません。

「必要な課題への必要な回答」を「高い精度」で「低い費用」で利用できるためには必ずしも、パラメータ数が多いだけではなくそれ以外の変数やそもそも課題設定なども、求める性能を得るためには同じくらい重要ですね!
教育という側面で言うと、すでに英会話などで多く事例があるように汎用的なモデルを使うだけでなく、各学習分野に性能特化したモデルが今後は各企業で発明されていくんじゃないでしょうか。

高いからスゴイ!ではなく一歩踏み込んでこれからのプレスや情報に触れていきましょう。

この記事が気に入ったらサポートをしてみませんか?