覚え書き：Hugging face 上でモデルの量子化が実行できそうです

2024年7月29日 13:39

昨日、Ollamaの説明を下記の見てました。

リンク先のGuideをさらに見てみたら、こんなノートがありました。

なんとHugging face 上で量子化ができるとのことです！
Create your own GGUF Quants, blazingly fast ⚡!

ログインして許可を与えると、こんなページです。
簡単な英語ですが、訳すると「このスペースは HF リポジトリを入力として受け取り、それをクオンタイズし、選択したクオントを含むパブリックリポジトリを HF ユーザー名前空間の下に作成します。」とのことです。

この画面では、Calm3-22b-chatを試してみたいと思って、そのモデルを貼り付けてます。

デフォではQ4_K_M がでてました。
とりあえず触ってみるということで、あとはどこにもチェックをいれずにSubmitしてみましたが・・・なにかごちゃごちゃ"Error: Error converting to fp16: b'INFO:hf-to-gguf:Loading model: calm3-22b-chat"から始まる文でエラーがでて上手く変換できませんでした😢

そして今、特に自分でGGUFにしたいと思うモデルが思いつかないので、これ以上していません。という状況なので、上手く量子化がここで行われるのかの確認まではできてません。

ぜひ興味がある人は試してみてください。

#AI #AIとやってみた #やってみた #Huggingface #ローカルLLM #量子化

この記事が参加している募集

#やってみた

39,549件

#AIとやってみた

35,663件

この記事を最後までご覧いただき、ありがとうございます！もしも私の活動を応援していただけるなら、大変嬉しく思います。