LLaMA 3が動作する話題の爆速AI「Groq(グロック)」って、何？【番外編】

2024年4月20日 18:38

おはようございます、Sakuraです。

このnoteでは、生成AIに興味があるけれども、まだ活用できていない初心者から、今後本格的に取り入れていきたい中級者以上までを対象にAIスキル習得を身につけることを目的に様々なコンテンツを配信していきます。

本日はちょっと番外編として、今日は、業界を激震させるMeta社のゲームチェンジャーLLMであるLLaMA3がリリースされたことでとても話題となっている、スタートアップ企業Groqが開発した驚きの爆速AI専用チップについてお話ししたいと思います。

スタートアップ企業Groqが開発した驚異の爆速AI専用チップ

Groqが開発したのは「Language Processing Unit (LPU)」というチップなんです。このチップのおかげで、AIチャットボットの応答速度がびっくりするほど速くなったんですよ。

"It's all geek to me"
...and we're here for it. Let's go! https://t.co/E7SAETqKhx
— Groq Inc (@GroqInc) April 20, 2024

GroqのCEOであるジョナサン・ロスさんって、実はGoogle Brainで「Tensor Processing Unit (TPU)」という、とっても重要なAIチップの開発を引っ張ってきた方なんです。

そのロスさんが開発したLPUは、大規模言語モデル（LLM）の高速処理にぴったりなんですって。従来のGPUと比べると、LLMをもっとスムーズに動かせるんだそうです。

LPU（Language Processing Unit ）が速さの仕組み

GPUは画像処理には強いんだけど、言語処理だとちょっと効率が悪いみたい。でもLPUは、LLMのためにカスタマイズされているから、なんと1秒以内でチャットボットが詳しい答えを作れちゃうんですって。すごいですよね。

この超高速の応答のおかげで、まるで友達とおしゃべりしているみたいに、AIとの会話を楽しめるようになるんです。質問したらすぐに答えが返ってくるから、もっと気軽にAIに話しかけられるようになりそうですね。

例えば、AIが演奏する音楽に合わせてリアルタイムで即興演奏ができるアプリなんかも、開発が進んでいるみたいですよ。

でも、GroqのLPUって、ユーザー一人一人に必要なチップの数が多くなるから、導入コストが高くなっちゃうんじゃないかって心配する人もいるんです。

でもGroqは、LPUは電気をあまり使わないから、運用コストを抑えられるんだって。GPUだと将来的にアルゼンチン一国分の電気が必要になるかもしれないけど、LPUならグアテマラくらいの電気で済むんですって。

LPUのおかげで、チャットボットの可能性がどんどん広がっていきそうです。

LLaMA 3のような強力なオープンモデルとGroqの組み合わせ

次に、とってもエキサイティングなニュースをお届けしたいと思います。
（2024年4月20日現在）

Groqは、深層学習の中核となる行列乗算の操作に最適化された、革新的なプロセッサアーキテクチャを開発しているんですよ。従来のCPUやGPUとは違って、AIワークロードに特化したシンプルで決定論的な実行モデルを採用しているんです。

そして、そのGroqのシステムに、Metaが新しくリリースしたLLaMA 3という大規模言語モデルを実装したところ、なんと1秒間に最大で800トークン以上という驚異的な速さで動作することが確認されたんです。

My mind is blown.@GroqInc is serving LLaMA 3 at over 800 tokens per second!

800. Tokens. Per. Second.

This unlocks so many incredible use-cases.

It's one thing to see my demo — it's another thing entirely to experience it for yourself.

Do yourself a favor and try it asap. pic.twitter.com/Rd5NW5SDlW
— Matt Shumer (@mattshumer_) April 19, 2024

XでAI開発界隈で有名な元木さん(@ai_syacho)のデモでは、270-300トークン/秒。

llama3 70b & Groq pic.twitter.com/LCIswYpZ5O
— 元木大介@生成AI塾&Arbor言語開発者 (@ai_syacho) April 19, 2024

彼はさらにAI agentとして活用していますが、この速さはもはや読むとか、そういうレベルじゃ無いですね。

そのからくりですが、Groqは一般的な用途のプロセッサのオーバーヘッドやメモリのボトルネックを避けることで、AIの推論に対してはるかに高いパフォーマンスと効率性を実現できるんだとか。

この800トークン/秒という結果が本当なら、Groqの主張を裏付けることになりそうですね。

800トークン/秒というのは、1分間に約48,000トークン、つまり1秒間に約500ワードのテキストを生成できるくらい速いんです。これは、今日の一般的なGPUを使ったクラウドサービスよりも、ほぼ1桁速いんですよ。

こんなに速くて効率的なAIの推論は、チャットボットや仮想アシスタント、インタラクティブな体験など、レイテンシ（遅延）の影響を受けやすいアプリケーションにとって、とっても重要なんです。

リアルタイムに近いAI推論が、手頃な価格で実現された

今は、NvidiaのGPUがAIプロセッサの市場を独占しているんですけど、GroqやCerebras、SambaNova、Graphcoreなどの、AIに特化した新しいアーキテクチャを開発しているスタートアップ企業が、その地位に挑戦しているんです。

Groqは、推論だけでなくトレーニングも対象にしていることを声高に主張しているんですよ。

GroqのCEOであるJonathan Rossは、2024年末までに、ほとんどのAIスタートアップがGroqの低精度テンソルストリーミングプロセッサを推論に使うようになると大胆に予測しているんだとか。

実際に、GropをAPIとLlama70Bの性能と料金をこんな感じでXでホーダチさんが投稿しています。@hokazuya

Groq API + Llama 70B-Instructがえぐすぎる。

何がえぐいって、性能と料金👇

[Pricing]
Input: $0.59/1M
Output：$0.79/1M
※100万トークンで200円くらいw

で、ローカルからのAPIコールで動画の精度。ほぼ500msレベルで長文まで（動画、等倍速よｗ）… pic.twitter.com/ZNBAS3ZOXk
— ホーダチ | AI✖️Cloud✖️Dev | 外資×ひとり法人 (@hokazuya) April 20, 2024

LLaMA 3は、現在利用可能な最も優れたオープンソースの言語モデルの1つと言われているので、Groqにとっては、自社のハードウェアの推論性能を示す絶好の機会なんですって。

もしGroqのハードウェアがLLaMA 3を従来の選択肢よりもはるかに高速かつ効率的に実行できるなら、同社の主張が裏付けられ、その技術の採用が加速する可能性があるんです。

LLaMA のような強力なオープンモデルとGroqのような効率の良い "AI-first" 推論ハードウェアの組み合わせは、高度な言語AIをより費用対効果が高く、より多くの企業や開発者にアクセスしやすくする可能性を秘めているんですよ。

リアルタイムに近いAIの推論を手頃な価格で実現できれば、eコマース、教育、金融、ヘルスケアなどの分野で、transformative（変革的）な可能性が開けるかもしれません。

ある人がGroqのLLaMA 3ベンチマーク結果に反応して、「スピード+低コスト+品質=今は他のものを使う理由がない」と言っているように、AIのハードウェアの基盤は何も決まっていないんです。新しい波のアーキテクチャが現状に挑戦しているんですよ。

とっても興味深い展開ですね。Groqがこれからどんなインパクトを与えていくのか、ワクワクしながら見守っていきたいと思います。

Groqのユーザーは人ではなく、むしろAIエージェント?

Landing AIのアンドリュー・エンCEOは、LLMが速くなることで、人間じゃなくて自律型のAIエージェントがLLMの主なユーザーになるかもしれないって言っているんです。

AIエージェントはLLMを使って何段階も推論を重ねて結論を出すから、LLMが速くなるとAIの思考もぐんと速くなるんですって。

GroqはAIチップの大手NVIDIAにとって脅威になるかもしれません。でもGroqのロスCEOは、「NVIDIAは巨人でGroqは小さな少年みたいなもの」って謙遜しているんですよ。

でもNVIDIAもGroqのことはちゃんと気にしていて、AIチップだけじゃなくてソフトウェアやメモリ、ネットワークなど、総合力で勝負しようとしているみたいです。

Groqは技術だけじゃなくて、考え方も他の会社とは違うんです。中立的なAIを目指していて、広告ビジネスには手を出さないんですって。

AIは人々の決断を助けるものであって、AIの決定を人間に押し付けるべきじゃないって、ロスCEOは言っているんです。でも、Groq自身のチャットボットが皮肉っぽく指摘しているように、いい理想も利益や成長の圧力の前には屈しちゃうかもしれないんですって。

まとめ

Groqの技術のおかげで、チャットボットの応答速度がめちゃくちゃ速くなって、ユーザーとAIのやり取りがガラっと変わるのは間違いないみたいですね。超高速の応答を武器に、AIがわたしたちの生活や仕事、創作活動にどんな革命を起こすのか。Groqから目が離せませんね。

今回は、急遽の番外編でした。

次回は、皆さんが実際に生成AIを使うときに最も重要なプロンプトのお話をします。正直言って、ツール選定とプロンプトでほとんどが決まってしまうと言って間違いないくらい、プロンプトは大切です。

02 生成AIプロンプト基礎【魔法使い入門】

ではまた！

この記事が気に入ったらサポートをしてみませんか？