[06/15~06/21] 生成AI Weekly News #42｜Claude 3.5 Sonnet

2024年6月21日 17:46

今回も社内で話題になった生成AIに関するニュースをご紹介します。
本日深夜に突如 Anthropic 社から Claude 3.5 Sonnet がリリースされました！
他にも、「KLING」「Luma Dream Machine」に続き「Gen-3 Alpha」という動画生成AIが登場したりと、話題に事欠かない一週間でした。

それでは今週のニュースです！

ピックアップ｜Claude 3.5 Sonnet

本日深夜、Anthropic 社から Claude 3.5 Sonnet がリリースされました。従来の Claude 3 からアップデートされた LLM となります。

特徴

大学院レベルの推論(GPQA)、学部レベルの知識(MMLU)、コーディング能力(HumanEval)などの各種ベンチマークで業界最高水準のスコアを記録
ニュアンス、ユーモア、複雑な指示の理解力が大幅に向上し、自然で親しみやすい口調で高品質のコンテンツを生成可能
前モデルのClaude 3 Opusの2倍の速度で動作し、コストパフォーマンスに優れる
画像、特にチャートやグラフの解釈において卓越した能力を発揮

Anthropic の公開したベンチマークでは、大学院レベルの推論力 (GPQA)、学部レベルの知識 (MMLU)、コーディング能力 (HumanEval) において、Claude 3 Opus や GPT-4o よりも高い水準であることがわかりました。

画像認識のような視覚的な処理にも優れたモデルで、標準的なビジョベンチマークで Claude 3 Opus を上回っています。不完全な画像からテキストを正確に書き起こすこともできるようです。

新機能「Artifacts」

Claude 3.5 Sonnet と同時に、Claude.ai 上で新機能「Artifacts」が導入され、多くの注目を集めています。

Artifactsを使うと、ユーザーがClaudeにコードやテキスト、Webデザインなどの生成を依頼した際に、それらのコンテンツがチャットと並んで専用のウィンドウに表示されます。

ユーザーはリアルタイムでClaudeの生成物を確認・編集しながら、プロジェクトやワークフローに統合できます。これによりClaudeは単なる会話AIから共同作業環境へと進化を遂げつつあります。

将来的にはチームや組織全体で知識やドキュメント、進行中の作業を一元管理できるワークスペースとして機能拡張される予定で、Claudeがオンデマンドのチームメイトとして活躍することが期待されています。

他 LLM との比較

Claude 3.5 Sonnetは他の大規模言語モデル(LLM)と比較して以下のような特徴があります。

OpenAIのGPT-4oやGoogleのGemini 1.5 Proを上回る性能
Claude 3 Opusの2倍の速度で、コストは5分の1
入力トークン100万個あたり3ドル、出力100万個あたり15ドルというコスト設定
200Kトークンのコンテキストウィンドウを備える

その他

また、今年の後半に Claude 3.5 Haiku と Claude 3.5 Opus がリリース予定とのこと。

なお、早速 Cusor でも使えるようになってるようです。

3.5 Sonnet in Cursor! pic.twitter.com/9Nc5MCuRSV
— Cursor (@cursor_ai) June 20, 2024

プロダクト・サービス

新しい動画生成AI、「Gen-3 Alpha」

OpenAI から発表されている「Sora」、先々週ご紹介した中国の「KLING」、先週ご紹介した「Luma Dream Machine」に続き、また新しく「Gen-3 Alpha」という動画生成AI が公開されました。

Introducing Gen-3 Alpha: Runway’s new base model for video generation.

Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf

(1/10) pic.twitter.com/VjEG2ocLZ8
— Runway (@runwayml) June 17, 2024

「Gen-3 Alpha」はいくつかデモが公開されてますが、実際に手元で動かすことは現時点ではできない模様。

「Luma Dream Machine」：実際に手元で動かせる
　　https://lumalabs.ai/dream-machine
「KLING」：中国の電話番号がある人のみ実際に手元で動かせる
　　※ iOS / Andoroid アプリ
「Sora」：デモのみ
　　https://openai.com/index/sora/
「Gen-3 Alpha」：デモのみ
　　https://runwayml.com/blog/introducing-gen-3-alpha/

UI 生成ツール「Autodesigner 2.0」

Today we launched Autodesigner 2.0 — our most advanced design AI engine yet!

What can it do?
Time for a 🧵 pic.twitter.com/OdJ5fa4cNG
— Tony Beltramelli (@Tbeltramelli) June 12, 2024

Midjourney V6 性能評価

性能評価のためMidjourney V6を試してみた。
以前のバージョンと比較すると、信じられないほどに性能が向上しており驚かされる。特に光の回り方やレンズの特性による像の滲み等が精確に模倣されており、これは確かに世界のシミュレーションを生成AIが可能であると捉える話も信憑性がある気がしてきます pic.twitter.com/lXfZmYhdOW
— sabakichi (@knshtyk) June 18, 2024

AIキャラクターと一緒にインタラクションをするSNS Butterflies

AIキャラクターと一緒にインタラクションをするSNS企業のButterfliesが$4.8M調達を発表。

ユーザーが登録する際にAIキャラクターを作り、そのAIキャラクターが勝手に画像を生成して他のアカウントとコミュニケーションするようなアプリ。

AIボットをより受け入れるSNSの概念は面白い。… pic.twitter.com/UGOpmlojxX
— Tetsuro Miyatake (@tmiyatake1) June 19, 2024

ニュース

Gemini のコンテキストキャッシュが登場

Google の Gemini API の「コンテキストキャッシュ」機能が登場しました。

入力トークンをキャッシュして再利用することで、同じ入力を何度も送信するコストと遅延を削減します。キャッシュの有効期間（TTL）を設定でき、トークン数や保存期間に基づいて課金されます。この機能は、固定バージョンのモデルでのみ使用可能で、チャットボットや長い動画解析などに適しています。

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡します。Gemini API のコンテキストキャッシュ機能を使用すると、一部のコンテンツをモデルに 1 回渡して入力トークンをキャッシュに保存し、キャッシュに保存されたトークンを後続のリクエストで参照できます。特定のボリュームでは、キャッシュに保存されたトークンを使用すると、同じトークンのコーパスを繰り返し渡すよりもコストが低くなります（レイテンシが短縮される可能性があります）。

一連のトークンをキャッシュに保存する場合は、トークンが自動的に削除されるまでのキャッシュの存続期間を選択できます。このキャッシュ保存期間は、有効期間（TTL）と呼ばれます。キャッシュに保存する費用は、入力トークンのサイズとトークンの保持期間によって異なります。

https://ai.google.dev/gemini-api/docs/caching?hl=ja&lang=python

Google が生成AIを活用した日本での事業戦略を発表、47都道府県のそれぞれの地域課題に特化したAIモデルの開発を進める

論文・技術系

LLMを拡張しテキストと音声の並列生成を実現するモデル

LLMを拡張しテキストと音声の並列生成を実現するモデルを提案しました。https://t.co/oT9Wrw6zmL

高速な応答が要求される音声対話において、テキストと音声のトークンを同時に生成し始めることで、一定かつ低遅延で応答することができます。

↓動画は低コストなクラウドGPUを用いた動作例です。 pic.twitter.com/HFQUji4M8u
— rinna Research (@rinna_research) June 19, 2024

Groq で Whisper Large v3 が使えるように

れみお氏に聞いてまじかと思ったけど Groq で Whisper Large v3 が使えるようになった！使ってみて！30 分弱の音声で 15 秒だった！

これが意味することはわかるよね？リアルタイム翻訳はもちろん、リアルタイムで AI と話せる未来も近いってことね？わくわく！https://t.co/IWasFeRKWl… https://t.co/NDScEsKN4s
— ぬこぬこ (@schroneko) June 20, 2024

その他ニュース

ソフトバンク子会社、独自LLM「Sarashina」シリーズを一般公

SB Intuitionsが、日本語に強い LLM「Sarashina」を一般公開しました。公開したのは5つの事前学習モデルで、それぞれHugging Face上で公開中とのこと。

「平均的なコンテンツ」の終わり

「情報が増えすぎて、届けたい人に届かない」
これ自体はIT革命時から情報爆発として言われてきましたが、生成AI によってコンテンツ創造コストが0に近づいたことにより、さらに課題として浮き出てくるようになりました。
コンテンツマーケティングとして、コンテンツの信頼性と専門性に不可欠な独自視点が重要で、平均的なコンテンツはポジティブに作用しない。といったことが書かれている記事です。

りんごの傷の大きさなどAIで選別する装置導入青森県弘前

弘前市の選果場で、選別作業の人手不足や高齢化に対応するために、傷の大きさなどを選別する装置を導入しました。

今年のものを学習データとして使い、来年から自動化に取り組む模様。

ことしの収穫シーズンに人が行った作業結果をAIに学習させることで、来年からはこの作業を自動化できるということです。
この装置の導入で、作業員が行う業務量が軽減され、1日に箱詰めできるりんごの量を2割ほど増やすことができるということです。

[ご案内] 生成AI PoC 「ハタアゲ」｜10社限定キャンペーン中！

この1年で、生成AIの法人様向けお問い合わせ相談数1,000件、PoC支援実績20件、本開発支援10件を突破しました。

6月19日より限定10社様に150万円〜の特別価格キャンペーンを開始！
お客様のニーズに合ったプランで、生成AI PoC をスタートできます。

確実に・早く結果を出す PoC「ハタアゲ」

▼ お申し込みはコチラ！

=========================================

今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです！

今週もお疲れ様でした！

この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください！

「株式会社エクスプラザ（公式）」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP

この記事が気に入ったらサポートをしてみませんか？