Claude3がリリース[和訳]


要約

• Anthropic社は、先進的なAIモデルファミリー「Claude 3」を発表。Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusの3モデルで構成され、それぞれ異なる能力とコストパフォーマンスを提供。

• Claude 3モデルは、推論、コーディング、分析、対話などの幅広いタスクで高い性能を示す。特にOpusモデルは、各種ベンチマークテストで業界トップの成績を達成。

• 高速応答性と強力な画像処理能力を備え、不必要な拒否応答が減少。正確性も向上し、長文コンテキストに対応。倫理的配慮や安全性にも注力。

• ユーザーフレンドリーなインターフェースを提供。複雑な指示に従うことができ、構造化データの出力にも対応。

• OpusとSonnetモデルはAPIやクラウドサービスですぐに利用可能。Haikuモデルも近日提供予定。

• 今後も頻繁なアップデートや新機能の追加を予定。AIの能力向上と安全性の両立に尽力する方針。

Anthropic社は、Claude 3の登場により、AIアシスタントの性能と実用性が大きく前進したとアピールしています。エンタープライズでの活用を見据えた機能も拡充し、継続的な改善に取り組む姿勢を見せています。

本文

本日、幅広い認知タスクで新たな業界基準を打ち立てるClaude 3モデルファミリーを発表します。このファミリーには、能力の高い順に、Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusの3つの最先端モデルが含まれています。各モデルは段階的に高度なパフォーマンスを提供し、ユーザーは特定のアプリケーションに最適な知性、速度、コストのバランスを選択できます。

OpusとSonnetは、claude.aiとClaude API(現在159カ国で一般提供中)ですぐに使用できます。Haikuも間もなく利用可能になる予定です。

Claude 3モデルファミリー - 新しいインテリジェンスの基準

最も知的なモデルであるOpusは、学部レベルの専門知識(MMLU)、大学院レベルの専門的推論(GPQA)、基礎数学(GSM8K)など、AIシステムの一般的な評価基準の大半で同業他社を上回っています。Opusは複雑なタスクにおいて人間に近いレベルの理解力と流暢さを示し、汎用知性の最前線を牽引しています。

すべてのClaude 3モデルは、分析と予測、ニュアンスのあるコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの非英語での会話において、能力が向上しています。

即時の結果

Claude 3モデルは、即時かつリアルタイムの応答が必要なライブの顧客チャット、自動補完、データ抽出タスクを強化できます。Haikuは、そのインテリジェンスカテゴリーにおいて、市場で最も高速かつ費用対効果の高いモデルです。arXiv(~10kトークン)の情報とデータが豊富な研究論文をグラフや図表を含めて3秒以内に読むことができます。
発売後、さらなるパフォーマンスの向上が期待されます。

大半のワークロードにおいて、SonnetはClaude 2およびClaude 2.1と比べて2倍の速度で、より高いレベルの知性を発揮します。ナレッジ検索や営業自動化など、迅速な応答を要求するタスクに優れています。OpusはClaude 2および2.1と同等の速度を実現しますが、はるかに高いレベルの知性を備えています。

強力なビジョン機能

Claude 3モデルは、他の主要なモデルと同等の洗練されたビジョン機能を備えています。写真、チャート、グラフ、技術図面など、幅広いビジュアルフォーマットを処理できます。一部の企業顧客は、ナレッジベースの最大50%をPDF、フローチャート、プレゼンテーションスライドなどの様々な形式でエンコードしているため、この新しいモダリティを提供できることを特に喜んでいます。

拒否の減少

以前のClaudeモデルは、文脈の理解が不足していることを示唆する不必要な拒否を行うことがよくありました。この分野で意味のある進歩を遂げました。Opus、Sonnet、Haikuは、以前の世代のモデルと比べて、システムのガードレールに近いプロンプトへの回答を拒否する可能性がはるかに低くなっています。下図に示すように、Claude 3モデルは要求をより細やかに理解し、実際の危害を認識し、無害なプロンプトへの回答を拒否することがはるかに少なくなっています。

精度の向上

あらゆる規模の企業が、顧客にサービスを提供するためにモデルに依存しているため、モデルの出力が大規模に高い精度を維持することが不可欠です。これを評価するために、現在のモデルの既知の弱点を標的とする複雑で事実に基づく質問の大規模なセットを使用します。回答は、正解、不正解(またはハルシネーション)、不確実性の認識(モデルが不正確な情報を提供する代わりに答えを知らないと言う)に分類されます。
Claude 2.1と比較して、Opusはこれらの難しい自由回答形式の質問に対する精度(または正答率)が2倍に改善され、不正解のレベルも低下しています。

信頼できる応答を生成することに加えて、Claude 3モデルではまもなく引用機能を有効にし、回答を検証するために参考資料の正確な文を指摘できるようにします。

長いコンテキストとほぼ完璧な記憶力

Claude 3モデルファミリーは、当初、発売時に200Kのコンテキストウィンドウを提供します。ただし、3つのモデルはすべて100万トークンを超える入力を受け入れる能力があり、処理能力の向上が必要な特定の顧客に提供する可能性があります。

長いコンテキストプロンプトを効果的に処理するには、モデルに堅牢な想起能力が必要です。「Needle In A Haystack」(NIAH)評価は、膨大なデータの中から情報を正確に思い出すモデルの能力を測定します。
プロンプトごとに30のランダムな針/質問のペアの1つを使用し、多様なクラウドソーシングされたドキュメントのコーパスでテストすることにより、このベンチマークの堅牢性を高めました。

Claude 3 Opusは99%以上の精度を上回り、ほぼ完璧な記憶を達成しただけでなく、場合によっては、
「ニードル」の文が人間によって元のテキストに人為的に挿入されたように見えることを認識することにより、評価自体の限界を特定しました。

責任あるデザイン

Claude 3モデルファミリーは、能力と同じくらい信頼できるように開発されました。誤情報やCSAMから生物学的悪用、選挙干渉、自律複製スキルまで、幅広いリスクを追跡・軽減する専門チームが複数あります。モデルの安全性と透明性を高めるConstitutional AIなどの手法の開発を続け、新しいモダリティによってプライバシーの問題が生じる可能性を軽減するようにモデルを調整しています。

ますます高度化するモデルのバイアスに取り組むことは継続的な努力であり、この新しいリリースで前進しました。モデルカードに示されているように、Claude 3は質問応答用バイアスベンチマーク(BBQ)に基づくと、以前のモデルよりもバイアスが少ないことを示しています。
バイアスを減らし、モデルの中立性を高める技術を進歩させることにより、特定の党派的な立場に偏らないようにすることに引き続き取り組んでいます。

Claude 3モデルファミリーは、生物学的知識、サイバー関連の知識、自律性の重要な指標で前進していますが、責任あるスケーリングポリシーに基づき、AI安全性レベル2(ASL-2)にとどまっています。ホワイトハウスへのコミットメントと2023年米国大統領令に沿って実施された
レッドチーム評価では、現時点でモデルに壊滅的なリスクの可能性はほとんどないと結論付けています。今後のモデルを慎重に監視し、ASL-3の閾値に近づいているかを評価し続けます。安全性の詳細については、Claude 3モデルカードを参照してください。

使いやすさの向上

Claude 3モデルは、複雑な多段階の指示に従うのが得意です。特にブランドの声と応答ガイドラインを順守し、ユーザーが信頼できる顧客向けエクスペリエンスを開発することに長けています。さらに、Claude 3モデルは、JSONなどの一般的な構造化出力を生成するのが得意です。これにより、自然言語分類や感情分析などのユースケースでClaudeに指示を出すのが簡単になります。

モデルの詳細
- Claude 3 Opus: 非常に複雑なタスクで最高の市場パフォーマンスを発揮する最もインテリジェントなモデルです。オープンエンドのプロンプトや未知のシナリオを驚くべき流暢さと人間のような理解力で処理できます。生成AIで可能な限界を示しています。
- Claude 3 Sonnet: 特にエンタープライズワークロードにおいて、知性と速度の理想的なバランスを実現します。同等のモデルと比較して低コストで優れたパフォーマンスを発揮し、大規模なAI展開での高い耐久性を備えています。
- Claude 3 Haiku: ほぼ瞬時の応答性を実現する、最も高速でコンパクトなモデルです。シンプルなクエリやリクエストに比類のないスピードで答えます。人間のようなインタラクションを模倣するシームレスなAIエクスペリエンスを構築できます。

モデルの可用性

OpusとSonnetは、現在一般提供中のAPIで今すぐ使用できます。これにより、開発者はすぐに登録してこれらのモデルの使用を開始できます。Haikuも間もなく利用可能になります。
Sonnetはclaude.aiの無料体験版を提供し、OpusはClaude Proサブスクライバーが利用できます。SonnetはAmazon BedrockとGoogle CloudのVertex AI Model Gardenでもプライベートプレビューとして提供されています。OpusとHaikuも近日中に両方で提供開始予定です。

より賢く、より速く、より安全に

モデルの知性はまだ限界に達していないと考えており、今後数ヶ月間でClaude 3モデルファミリーに頻繁なアップデートをリリースする予定です。特にエンタープライズユースケースと大規模な展開のために、モデルの機能を強化する一連の機能のリリースにも期待しています。これらの新機能には、ツールの使用(関数呼び出しとも呼ばれる)、対話型コーディング(REPLとも呼ばれる)、より高度なエージェント機能などが含まれます。

AIの能力の限界に挑戦すると同時に、これらのパフォーマンスの飛躍に伴って安全性の保護も確保することに取り組んでいます。
AI開発の最前線にいることが、AIの軌道を社会にとって望ましい結果に導く最も効果的な方法だと考えています。

Claude 3で何を作成するのか楽しみにしており、Claudeをさらに便利なアシスタントとクリエイティブなコンパニオンにするためのフィードバックをお待ちしています。Claudeを使った開発を始めるには、anthropic.com/claudeにアクセスしてください。

この記事が気に入ったらサポートをしてみませんか?