MacStudio（M2MAX96GBユニファイドメモリ）の推論能力②

2024年5月8日 22:50

llama.cppを使いGPUを開放する術を身につけました

Llama 3 8B-Instruct GGUFQ4K_M

【リクエスト】
./main -m ./LLMModels/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf -n 512 -ngl 38 -t 10 -p "" --ctx_size 512
【結果】
llama_print_timings: load time = 212.30 ms
llama_print_timings: sample time = 23.30 ms / 512 runs ( 0.05 ms per token, 21969.53 tokens per second)
llama_print_timings: prompt eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, inf tokens per second)
llama_print_timings: eval time = 9668.64 ms / 512 runs ( 18.88 ms per token, 52.95 tokens per second)
llama_print_timings: total time = 9850.13 ms / 513 tokens

513 tokens/ 9.85013seconds = 52.0805309169 tokens/s

CodeLlama 34b-instruct GGUF Q4K_M

【リクエスト】
./main -m ./LLMModels/codellama-34b-instruct.Q4_K_M.gguf -n 512 -ngl 38 -t 10 -p "" --ctx_size 512
【結果】
llama_print_timings: load time = 7223.36 ms
llama_print_timings: sample time = 10.81 ms / 512 runs ( 0.02 ms per token, 47372.32 tokens per second)
llama_print_timings: prompt eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, inf tokens per second)
llama_print_timings: eval time = 65569.51 ms / 512 runs ( 128.07 ms per token, 7.81 tokens per second)
llama_print_timings: total time = 65644.96 ms / 513 tokens

513 tokens/ 65.64496 seconds = 7.81476597746 tokens/s

Falcon 40B GGUF Q4K_M

failed to load model
なぜだ

Llama 3 70B instruct Q4K_M

【リクエスト】
./main -m ./LLMModels/Meta-Llama-3-70B-Instruct-Q4_K_M.gguf -n 512 -ngl 38 -t 10 -p "" --ctx_size 512
【結果】
llama_print_timings: load time = 8436.86 ms
llama_print_timings: sample time = 1.35 ms / 28 runs ( 0.05 ms per token, 20756.12 tokens per second)
llama_print_timings: prompt eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, inf tokens per second)
llama_print_timings: eval time = 11444.94 ms / 28 runs ( 408.75 ms per token, 2.45 tokens per second)
llama_print_timings: total time = 11457.60 ms / 29 tokens

29 tokens / 11.45760 seconds = 2.53107107946 tokens/s

Command R+ 104B Q4K_M

failed to load model

Llama8Bとかは体感的に一瞬で出力してました。
実用レベルだと思います。
LINEBOTとかでこのスピードだったら十分です。
70Bはちょっと止まってから出力される感じ。

他にも色々試してみたいですね！

おしまい

この記事が気に入ったらサポートをしてみませんか？