早速、SAKANA AIのEvoLLM-JP-A-v1-7Bをllama.cppでggufに変換してローカルPCで実行した。何となくではあるが、blogに書いてあることは出来ている気がする (q4に変換したことが影響したかは謎だけど) https://sakana.ai/evolutionary-model-merge-jp/
llama3をllama.cppでconvert出来たのでgithubにコメントしておいた。ただし、いつもの推論サーバを使って試したらllama-cpp-pythonの設定か、llama.cppサーバと反応が随分違ったので要検証 https://github.com/ggerganov/llama.cpp/pull/6745