【独断】ローカルLLMのトップ３【偏見】

2024年7月30日 19:07

はじめに

LLMとは（Large Language Model）の略称で、膨大な量のテキストデータを学習することで、人間のように自然な文章を生成したり、質問に答えたりすることができるAIモデルの事です。

ChatGPTやGemini等が有名ですが、パラメータサイズが400B〜1500B（1.5T）以上のそれらと異なり、家庭のパソコン（ローカル）で利用できる小規模なLLMです。一般に3B〜12Bのものは、家庭用の普及帯GPU（6GB〜16GBのGPUメモリ）で実行可能です。

※ ローカル実行に特化したものを、SLM（Small or Special (L)LM）と表記される事もありますが、Small なのか Largeなのかはっきりしろと思います… そもそも最も小さい1.5/3Bモデルでも、数年前では大規模モデルでしたから。今の主流が数百数千Bというのがおかしいのです。

この記事では、筆者の独断と偏見で8B規模（GPUメモリが8GB程度で動作する家庭用PCで動作）の2024年７月現在のLLMトップ３ランキングを作ってみました。

もちろん、ベンチマーク等の定量的で客観的な評価は行なっておらず、筆者の日常用途での、いわゆる「ただの感想」です。

※ LLMはシステムプロンプトやテンプレート・RAG設定で使用感・性能が大きく変わります。下記事で紹介している設定で利用しているものです

１位

Qwen2（8B）

開発元：アリババ社（中国）
量子化：Q5_K_M←軽量化手法です。基本的に大きなものほど精密な計算になります
コンテキストサイズ：32k

入手方法

ollama pull qwen2

※ 筆者がテスト利用したのは、デフォルトではなく少し大きい「qwen2:7b-instruct-q5_K_M」です

良い点

コンテキストサイズが最大128k（Ollamaでダウンロードできるinstructモデルは32k）で、長文に対応できます。公式で日本語対応を謳っている数少ない海外モデルです。プログラム言語にも強くスニペット生成も優秀です。

LLMを要約用途で利用する場合は、コンテキストサイズが非常に重要になります。ネット記事でも、長文だと1万文字（10k）を超える事は一般的なので、コンテキストサイズ＋実用的な性能で１位にしました。

悪い点

中国簡体字やハングル文字を不意に吐き出します。つまり、データとしてクリーンなものが作れないので、RAGやチューニング用データ作成には不向きです。

２位

Llama3-Elyza（8B）

開発元：Elyza社（日本）
量子化：Q4_K_M
コンテキストサイズ：8k

入手方法

「Files and versions」からLlama-3-ELYZA-JP-8B-q4_k_m.ggufをダウンロードし、ollamaへインポートします。※ 詳細は【ローカルLLM】Ollama Open WebUI 完全解説【初級向け】で解説しています。

良い点

Meta社のLlama3をベースに日本語チューニングを行なったモデルです。日本語ローカルLLMでは間違いなく飛び抜けて最高性能です。複雑でない一般的な日本語チャット用途であれば、ChatGPT-4に迫る性能はあると思います。

悪い点

コンテキストサイズが8kであるため、用途が限定されます。

3位

Gemma2（9.2B）

開発元：Google（米）
量子化：Q4_K_M
コンテキストサイズ：8k

入手方法

ollama pull gemma2

※ 筆者が利用したのは、Ollamaのものではなく、dahara1氏のimatrix版を利用しています。

良い点

さすが大手のモデルであり、論理推論の性能と日本語性能のバランスが最も良いと思います。（正式には日本語に対応していないはずですが）日常のチャット用途であればElyza3かGemma2で間違いはないと思います。日本語ではElyza3、論理推論ではGemma2です。

悪い点

コンテキストサイズが8kと小さく、若干 Ollama Open WebUIと相性が悪いようなので、Elyzaよりも順位を落としました。

まとめ

最近Llama3.1やMystral-NeMoが利用可能になりましたが、期待しすぎていた事もあり、残念な日本語性能でがっかりしています。英語性能はベンチマークにあるような性能を出すのでしょうが、日本語ではかなり性能落差があります。

また、ランキングにはありませんが、マイクロソフトのPhi3も日本語性能が残念すぎます。（Copilot-PCに搭載されるのが遅れているのも、日本語性能の問題があるからでしょうね）

実際にローカルでLLMを利用する場合、文章要約やデータ整形が多いので、コンテキストサイズが8kだと実際のところあまり役にたちません。Qwen2が一位であるのは、「日本語がある程度まともで、かつコンテキストサイズが大きいもの」だからです。実用性を考えると「コンテキストサイズ」が必須条件と言えます。

もしLlama3.1-Elyzaが出れば１位間違いないでしょう。

以下、関連記事の【PR】です。

この記事が気に入ったらサポートをしてみませんか？