見出し画像

LLama3.1 405B 最速レビュー!ChatGPTに匹敵する最強オープンソースモデルの正体は?!

 ChatGPTに匹敵する噂の大型オープンソースモデルのLlama3.1 405Bがリリースされました。早速見ていきましょう。

Llama 3.1って何?簡単におさらい

 Llama 3.1は、Metaが7月23日に発表した最新の大規模言語モデル(LLM)です。8B、70B、405B(4050億)パラメータの3つのサイズがあり、特に405Bモデルは「世界最大かつ最も高性能なオープンに利用可能な基盤モデル」と称されているんです。
主な特徴としては:

  • 128,000トークンという長いコンテキストウィンドウをサポート

  • 英語を含む8言語に対応(残念ながら日本語は含まれていません...)

  • なんと15兆以上のトークンでトレーニングされたそうです

 ベンチマーク結果では、GPT-4oやClaude 3.5 Sonnetなど最先端の商用LLMと同等以上の性能を示しているとか。これは期待大ですね!

早速、Hugging Faceで試してみた!

 今回はHugging Faceを使って試してみました。パラメータはデフォルト設定のままです(パラメータについてはまた別の機会に詳しく紹介したいと思います)。

アイデア出しテスト

 まずは、「あなたはプロの小説家です。LoFi音楽をテーマとする小説のアイデアをいくつか考えてください。」というプロンプトで聞いてみました。

Llamaには面白そうなアイデアがいくつか

 最初は英語で返ってきたんですよね。前のLlama 3もそうだったんですが...。そこから日本語に修正してと命令すると変えてくれるんですが、明らかに英語の翻訳になっています。
 それでも、Llama 3.1のほうがアイデアに膨らみがあるような印象を受けました。「音楽業界の暗い側面」「謎のミュージシャン」とか、「ポストアポカリプス」とか、なかなか面白いですよね。

ChatGPTは相変わらずピンと来ない💦

 一方、ChatGPTは相変わらず総花的で、面白みに欠ける印象です。でも、言葉の自然さについては、Llama 3.1は明らかに翻訳しているので、ChatGPTのほうがやや自然に感じました。
 ただ、単なるアイデア出しだったら、そこまで言語の自然さを求めないかもしれません。英語が得意な人は最初から英語でやりとりするのがおすすめです!
 Llamaの勝ちです!

世界観設定構築テスト

 次に、Llamaが考えてくれたSFのアイデアを基に世界観を作成してもらいました。
 

何を言っているかよくわからない
ChatGPTは綺麗に構造化されている


 ChatGPTの圧勝ですね(笑)。Llamaの日本語が読みにくいし、構造化されていないんです。でも、その他の設定を考えてくれたのは良かったと思います。 Llamaの発想力が強くて論理に弱い?というのが第一印象でした。

感想テスト

 最後に創作大賞に出した短編小説の最終話の感想について聞いてみました。

HuggingFaceの文字数上限を超えちゃったので、Fireworks.aiを使用

 Llamaの結果は、まぁ、悪くないです。物語のテーマを掴んでいる気がします。ただし、「ストーリー全体における転換点」は違った気がします。また、全体的に文字数が少ないですね。

ChatGPTは要約になってしまっている

 ChatGPTは相変わらず構造化してくれました。読みやすいです。でも、なんか物語の前半の要約になっている気がします。後半の物語をあまり読んでくれていないのかな?テーマも掴んでいない気がします。
 強いて言えば、Llama3.1のほうがピンと来ました。ただし、文字数もう少し欲しかったですね🥲

その他の感想

  • 速度はGPT-4とGPT-4oの真ん中ぐらいでしょうか。ただ、デプロイするプラットフォームによってスピードが変わるので一概には言えませんね。

  • 翻訳後の日本語の自然さはまだまだです。Meta公式によると本格的に日本語のチューニングを行っていないそうで、つまりネイティブな日本語思考の精度がまだ低いんです。今後のアップデートに期待ですね!

まとめ

  • Llama 3.1 405BはChatGPTをやや越える創造力がありますが、Claude 3.5 SonnetやGemini 1.5 Proには及ばない印象です。Llama 3.1 405Bが安定したら、自分の執筆アシスタントはClaude×Gemini×Llamaの三国時代に突入かもしれません。

  • パラメータ設定をいじる必要があるので、初心者にとっては難易度が高いかもしれません。

  • 日本語の精度がまだまだ...。今後のアップデートや他の人によるファインチューニングに期待しましょう!

終わりに

 オープンソースの性能がプラットフォームによって差がある印象なので、これ以上Hugging Faceで試すのもあまり意味がないような気がしてきました。GroqのAPIが利用できるようになったら、また継続的にレビューを行いたいと思います。
 オープンソースモデルがChatGPTに匹敵する性能を持つのがマイルストーン的な出来事だと思いますが、日本語環境でその恩恵を受けるのがまだ少し あとの気がします。

宣伝!

 創作大賞2024に出している短編連作小説『チル』のリンクを掲載します。

 今後はこの小説を用いて様々な検証を行います。

#生成AI
#AIとやってみた
#Claude
#ChatGPT
#Gemini
#プロンプト
#プロンプトエンジニアリング
#AI創作
#AIライティング
#Llama3
#Llama3 .1
#Llama3 .1 405B
#Meta
#オープンソースAI



この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?