マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

2024年2月の記事一覧

1(.58)ビット量子化LLMs(BitNet b1.58)について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ(重み)を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2​(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。 同じモデルサイズとトレーニングトークンを持つ全精度(FP16またはBF16)のTransformer LL