試し記録:MacとWindowsのOllama生成スピード比較
mistral-nemo:12b-instruct-2407-fp16. 7bb1e26a5ed5 • 25GB
(fp16で動かせそうなのは最大でこれ、Ayaなどの35Bだと64GBよりも大きなファイルサイズで断念)
ollama version is 0.3.3 で比較
おおよそ 15 tokens/s
おおよそ 10 tokens/s
GPU からあふれ出てる感じは下記のスクショ参考に。
#AI #AIとやってみた #やってみた #ローカルLLM #Ollama