FlexGenをColabで試す

2023年2月21日 19:03

こういうツイートを見かけてFlexGenなるものが登場したのを知った。

GPUメモリに限りがある状況（16GB T4や24GB RTX3090など）でも大規模な言語モデルを高パフォーマンスで実行できる「FlexGen」が公開https://t.co/EWwNdt6EgO
— やまかず (@Yamkaz) February 20, 2023

ゲゲゲゲゲ！FlexGen！！すげえええええ！！GPUがT4（GoogleColab無料版で引くヤツ）が１台しかなくてもGPT-3と同じパラメータ数のOPT-175Bが動作するらしい！ついにこの時代が！毎秒1トークン出力できる！従来の100倍高速化！最低限の損失で4bit量子化達成！いきなり世界が変わったね　→RT
— うみゆき@AI研究 (@umiyuki_ai) February 20, 2023

FlexGenをColabで試した（READMEをコピペしただけ）
日本語も理解している。モデルが小さいので会話になってないことがあるのはしょうがない（自分のプロンプト力がないだけかも）。
※facebook/opt-6.7b pic.twitter.com/Om0Zn0wmPG
— kazuph (@kazuph) February 21, 2023

Google Colabで試せるのかー

ということで試してみた。・・・のだけど結論としてはメモリ不足で停止。Colab無料版の範囲では実行できないのだろう。

あっ、FlexGenのベンチマークの測定環境、メモリが208GB、1.5TBSSDを使ってるらしい。モデル全体がメモリに乗らないと速度落ちる可能性あるかもね。理論上、1750億パラメータを4bit量子化で圧縮したら87.5GBになる。僕のPCはメモリ64GBだから乗り切らなさそう
— うみゆき@AI研究 (@umiyuki_ai) February 21, 2023

（kazuphさんはPro利用のようだ）

まぁいちおうやったことのメモ。README通り。

ここから先は

3,014字

文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

日々の学びメモ

¥400 / 月

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

ログイン

最後まで読んでいただきありがとうございます！もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/