ChatGPTやLLMで聞くパラメータ数とはなんなのか - EdTech GAI Lab
東大松尾研からとうとう出ましたね!
「100億!なんだかすごそう・・・」
しかしどのプレスを見ていてもパラメータ数がわかりやすくインパクトある指標として取り上げられています。あらためてこのパラメータ数をいろいろなLLMのモデルを見ながら比較しつつ説明します。
有名な国産のLLMのモデル
提供元:東大松尾研
公開日:2023年8月
パラメータ数:100億
提供元:サイバーエージェント
公開日:2023年8月
パラメータ数:68億
stockmark/gpt-neox-japanese-1.4b
提供元:stockmarket
公開日:2023年8月
パラメータ数:14億
特徴
(産総研)との共同研究の一環で行われ、事前学習も産総研の計算インフラストラクチャであるABCIで実施
最近の話題にも詳しいGPT-NeoXをベースとした
line-corporation/japanese-large-lm-1.7b
提供元:line
公開日:2023年8月
パラメータ数:17~36億(36億の方も公開されている)
提供元:rinna
公開日:2023年5月
パラメータ数:36億
参考
海外のものは以下のようなものがある
openai/gpt-3.0
パラメータ数:1750億
openai/gpt-3.0
パラメータ数:1兆7,600億?(非公開
claude
パラメータ数:520億?(非公開
LLaMa2
パラメータ数:70億、130億、330億、650億
パラメータ数が大きければいいのか
「ChatGPTはパラメータ数が1兆ッ・・・!?やっぱ一番すごいんだー!」と数字だけ見るとなりますね。ただ正解とも言いきれません。そもそもパラメータ数というものは
といったもので、この説明だけ見てもまだ多ければ多いほどよく見えます。しかし結果性能を決めるのは他にも変数があります。
「計算量」「データ量」「パラメータ数」の3つの変数により結果性能が決まってきます。当然この中の一つのパラメータ数が高いほど精度にも影響はあるが、他の変数やそれ以外の工夫でも精度高く結果を得ることはできます。しかしstockmark/gpt-neox-japanese-1.4bにあるように特定領域に特化したり、傾向や方針を持たせることで汎用性を捨てる代わりに特定領域に特化させる手法もあるようです。
またこのモデルらを動かすためにはGPUが不可欠で、それを動かすには費用がかかります。AWSやAzure等からGPUを利用できるソリューションが出てきているとはいえ、まだまだ安いとは言えません。
「必要な課題への必要な回答」を「高い精度」で「低い費用」で利用できるためには必ずしも、パラメータ数が多いだけではなくそれ以外の変数やそもそも課題設定なども、求める性能を得るためには同じくらい重要ですね!
教育という側面で言うと、すでに英会話などで多く事例があるように汎用的なモデルを使うだけでなく、各学習分野に性能特化したモデルが今後は各企業で発明されていくんじゃないでしょうか。
高いからスゴイ!ではなく一歩踏み込んでこれからのプレスや情報に触れていきましょう。
この記事が気に入ったらサポートをしてみませんか?