FlexGenをColabで試す
こういうツイートを見かけてFlexGenなるものが登場したのを知った。
GPUメモリに限りがある状況(16GB T4や24GB RTX3090など)でも大規模な言語モデルを高パフォーマンスで実行できる「FlexGen」が公開https://t.co/EWwNdt6EgO
— やまかず (@Yamkaz) February 20, 2023
ゲゲゲゲゲ!FlexGen!!すげえええええ!!GPUがT4(GoogleColab無料版で引くヤツ)が1台しかなくてもGPT-3と同じパラメータ数のOPT-175Bが動作するらしい!ついにこの時代が!毎秒1トークン出力できる!従来の100倍高速化!最低限の損失で4bit量子化達成!いきなり世界が変わったね →RT
— うみゆき@AI研究 (@umiyuki_ai) February 20, 2023
FlexGenをColabで試した(READMEをコピペしただけ)
— kazuph (@kazuph) February 21, 2023
日本語も理解している。モデルが小さいので会話になってないことがあるのはしょうがない(自分のプロンプト力がないだけかも)。
※facebook/opt-6.7b pic.twitter.com/Om0Zn0wmPG
Google Colabで試せるのかー
ということで試してみた。・・・のだけど結論としてはメモリ不足で停止。Colab無料版の範囲では実行できないのだろう。
あっ、FlexGenのベンチマークの測定環境、メモリが208GB、1.5TBSSDを使ってるらしい。モデル全体がメモリに乗らないと速度落ちる可能性あるかもね。理論上、1750億パラメータを4bit量子化で圧縮したら87.5GBになる。僕のPCはメモリ64GBだから乗り切らなさそう
— うみゆき@AI研究 (@umiyuki_ai) February 21, 2023
(kazuphさんはPro利用のようだ)
まぁいちおうやったことのメモ。README通り。
最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/