LLMの取り扱い
若干、ヒントを書いている
なぜ、CPUで処理をするのか
GPUではなくCPUで処理することを前提で書いている<br>
一般ユーザーはよいグラボを持っている人は少ないのではないか<br>
大衆化には程遠いのでCPU処理は重要だと思っている<br>
ChatGPTなどの主流のサービスはプラットフォームとして提供されているため、ユーザー側のPCのスペックはあまり意識しないで済む<br>
一方で、ローカルPCで手軽に実行、開発、配布、使用したい
llama.cppでConvertできたLLM
llamaはconvert.py、phi-2はconvert-hf-to-gguf.pyなどダウンロードしてくるデータによって使い分ける<br>
hfはたぶんhuggingfaceのこと。llama.cppはllamaベースのLLMをコンバートするがphi-2はllamaベースではないが可能だった
llama2(Meta)
rinna
phi-2(Microsoft)
neural-chat(Intel)
EvoLLM-JP-A-v1-7B(Sakana AI)
Gemma(Google)
llama3(Meta)
ConvertしたLLMにPythonでアクセスする
ちょっとアクセスするだけならば、llama-cpp-pythonが手軽かと
アプリに組み込むならばLangChainの方が良さそうだ
llama-cpp-python
LangChain