GPTQ なるものをシュッと

bbz

2023年6月7日 23:53

いや～～ GPTQ といえば

Good Prompting Technique Quiz

ですよね～～～

まぁ、嘘ですよね～～～

はい。

なんか一部で GPTQ というのが流行っていたのでシュッと論文を読んでみたという話です。はい。

What is GPTQ ???

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

GPTQ: Generative Pre-trained Transformersのための正確な学習後量子化。

Translated by DeepL

ということで量子化に関する学習の話みたいですな！ガハハ(*´▽｀*)

今となってはあまたの論文を読んだワタクシ bbz 。ChatGPT と DeepL 様の力を借りれば恐れるに足らず、、、！！

いざ参らん！！

ABSTRACT Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their massive size, even inference for large, highly-accurate GPT models may require multiple performant GPUs, which limits the usability of such models. While there is emerging work on relieving this pressure via model compression, the applicability and performance of existing compression techniques is limited by the scale and complexity of GPT models. In this paper, we address this challenge, and propose GPTQ, a new one-shot weight quantization method based on approximate second-order information, that is both highlyaccurate and highly-efficient. Specifically, GPTQ can quantize GPT models with 175 billion parameters in approximately four GPU hours, reducing the bitwidth down to 3 or 4 bits per weight, with negligible accuracy degradation relative to the uncompressed baseline. Our method more than doubles the compression gains relative to previously-proposed one-shot quantization methods, preserving accuracy, allowing us for the first time to execute an 175 billion-parameter model inside a single GPU for generative inference. Moreover, we also show that our method can still provide reasonable accuracy in the extreme quantization regime, in which weights are quantized to 2-bit or even ternary quantization levels. We show experimentally that these improvements can be leveraged for end-to-end inference speedups over FP16, of around 3.25x when using high-end GPUs (NVIDIA A100) and 4.5x when using more cost-effective ones (NVIDIA A6000). The implem

https://arxiv.org/pdf/2210.17323.pdf

GPTやOPTとして知られるGenerative Pre-trained Transformerモデルは、複雑な言語モデリングタスクにおいて画期的な性能を発揮する一方で、計算コストやストレージコストが非常に高いことが特徴です。具体的には、その巨大なサイズのため、大規模で高精度なGPTモデルの推論でさえ、複数の高性能GPUを必要とすることがあり、このようなモデルの使い勝手は制限される。モデル圧縮によってこの圧力を緩和する研究が進んでいますが、既存の圧縮技術の適用性と性能は、GPTモデルの規模と複雑さによって制限されています。本論文では、この課題を解決し、高精度かつ高効率な、近似2次情報に基づく新しいワンショット重み量子化手法であるGPTQを提案する。具体的には、GPTQは、4GPU時間で1750億のパラメータを持つGPTモデルを量子化し、ビット幅を重みあたり3～4ビットにまで縮小し、非圧縮のベースラインと比較して無視できる精度の劣化を抑えることができます。本手法は、従来提案されているワンショット量子化手法と比較して、精度を保ったまま2倍以上の圧縮効果を得ることができ、生成推論のために1つのGPU内で1750億パラメータのモデルを実行することを初めて可能にしました。さらに、重みが2ビット、あるいは3値量子化レベルまで量子化されるような極端な量子化領域においても、本手法が妥当な精度を提供できることも示しています。これらの改善により、ハイエンドGPU（NVIDIA A100）を使用した場合は約3.25倍、よりコスト効率の良いGPU（NVIDIA A6000）を使用した場合は約4.5倍、FP16に比べてエンドツーエンド推論の高速化を実現できることを実験的に示しています。インプリメント

Translated by DeepL

(*´▽｀*)
(*´▽｀*)
(*´▽｀*)
(*´▽｀*)
(*´▽｀*)
(*´▽｀*)
(*´▽｀*)

さっぱりわからん(*´▽｀*)

そこでワタクシは ChatGPT との深い対話に入るのであった。。。

綴る。。。プロンプトを。。。そしてまた。。。綴る。。。

そうしてあまたの対話を経て私はようやく理解した。。。

ワタクシと ChatGPT 先生の導き出した GPTQ の特徴とは、、、？

量子化そのものの学習を行い、元のモデルと量子化後のモデルの性能誤差を限りなく小さくしている（量子化の最適化をしている）
~~そして量子化に加えて蒸留を組み合わせて行っている~~

量子化はざっくり言うと情報量を削減して軽量化すること
（本来であれば性能が劣化するのであるが、元のモデルとの性能差が小さくなるように最適化している）

そして蒸留とはざっくり言うと教師モデル（元のモデル）の性能を引き継いで（というか質をなんとか保ってといった方がいいかしら？）生徒モデルをつくること

~~この二つを最適化して実行するにことによって元のモデル性能を維持したままの軽量化ができている、、、、！！~~

蒸留については明示的にかかれていなかったので修正！！
2023/06/08

ということ！！

知らんけど(*´▽｀*)

シュッと読んでシュッと書いたのでおしまい。

この記事が気に入ったらサポートをしてみませんか？