Claude 3 の概要
以下の記事が面白かったので、簡単にまとめました。
1. Claude 3
本日 (2024年3月4日)、Claude 3モデルファミリー「Claude 3 Haiku」「Claude 3 Sonnet」「Claude 3 Opus」が発表されました。
「Opus」と「Sonnet」は、claude.ai および159か国で一般提供されている 「Claude API」で使用できるようになりました。 「Haiku」も近日公開予定です。
2. インテリジェンスの新標準
最もインテリジェントなモデルである「Opus」は、「MMLU」(学部レベルの専門知識)、「GPQA」(大学院レベルの専門推論)、「GSM8K」(基礎数学) など、一般的な評価ベンチマークのほとんどで他のモデルよりも優れています。複雑なタスクに関して人間に近いレベルの理解力と流暢さを示し、一般知能のフロンティアをリードします。
すべての「Claude 3」モデルは、分析と予測、コンテンツの作成、コード生成、およびスペイン語、日本語、フランス語などの英語以外の言語での会話における機能の向上を示しています。
以下は、複数のベンチマークにおける「Claude 3」モデルと競合モデルの比較です。
3. 即時に応答
「Claude 3」モデルは、即時に応答する必要がある顧客チャット、オートコンプリート、データ抽出などのタスクを強化できます。
「Haiku」は、インテリジェンスカテゴリの市場で最も高速かつ最もコスト効率の高いモデルです。arXiv 上の情報とデータの密度が高い研究論文 (約10,000トークン) をチャートやグラフとともに3秒以内に読むことができます。 発売後はさらにパフォーマンスが向上することが期待されます。
大部分のワークロードにおいて、「Sonnet」は、より高いレベルのインテリジェンスを備えた Claude 2 よりも2倍高速です。ナレッジ検索やセールスオートメーションなど、迅速な対応が要求されるタスクに優れています。「Opus」は Claude 2 と同等の速度を提供しますが、はるかに高いレベルのインテリジェンスを備えています。
4. 強力なビジョン機能
「Claude 3」モデルは、他の主要モデルと同等の高度な「ビジョン機能」を備えています。写真、チャート、グラフ、技術図など、幅広いビジュアル形式を処理できます。
5. 拒否の減少
以前の「Claude」モデルでは、文脈の理解の欠如を示唆する不必要な拒否を行うことがよくありました。「Opus」「Sonnet」「Haiku」は、システムのガードレールに隣接するプロンプトへの応答を拒否する可能性が大幅に低くなりました。
6. 精度の向上
あらゆる規模の企業が顧客にサービスを提供するために当社のモデルに依存しているため、当社のモデル出力が大規模な場合でも高い精度を維持することが不可欠となっています。 これを評価するために、現在のモデルの既知の弱点を対象とした、複雑で事実に基づく質問の大規模なセットを使用します。 応答を正解、不正解 (または幻覚)、不確実性の認めに分類します。モデルは、不正確な情報を提供するのではなく、答えが分からないと言います。
「Claude 2.1」と比較して、「Opus」は、これらの挑戦的な自由形式の質問に対する精度 (または正解) が2倍向上していることを示し、同時に不正解のレベルも低下しています。
より信頼できる回答を生成することに加えて、「Claude 3」モデルで間もなく引用が有効になり、回答を検証するために参考資料内の正確な文を指定できるようになります。
7. 長い文脈とほぼ完璧な想起
「Claude 3」モデルは、リリース時に200Kトークンのコンテキストウィンドウを提供します。 ただし、3つのモデルはすべて100万トークンを超える入力を受け入れることができ、強化された処理能力を必要とする一部の顧客にこれを提供する可能性があります。
長いコンテキストプロンプトを効果的に処理するには、モデルには堅牢なリコール機能が必要です。 「NIAH」(Needle In A Haystack) 評価では、膨大なデータのコーパスから情報を正確に呼び出すモデルの能力を測定します。プロンプトごとに 30のランダムなニードル/質問のペアの 1 つを使用し、クラウドソースで提供された多様な文書コーパスでテストすることで、このベンチマークの堅牢性を強化しました。「Claude 3 Opus」は、精度 99% を超える、ほぼ完璧な再現を達成しただけでなく、場合によっては、「ニードル」文が人間によって原文に人為的に挿入されたように見えることを認識することで、評価自体の限界さえ特定しました。
8. 責任ある設計
可能な限り信頼できる「Claude 3」モデルを開発しました。誤った情報やCSAMから生物学的悪用、選挙妨害、自律複製スキルに至るまで、幅広いリスクを追跡し軽減する専門チームがいくつかあります。モデルの安全性と透明性を向上させる「Constitutional AI」などの手法の開発を継続しており、新しい手法によって引き起こされる可能性のあるプライバシー問題を軽減するためにモデルを調整しています。
ますます洗練されるモデルにおけるバイアスへの対処は継続的な取り組みであり、この新しいリリースで進歩を遂げました。モデル カードに示されているように、「Bias Benchmark for Question Answering (BBQ)」によると、「Claude 3」は以前のモデルよりもバイアスが少ないことがわかります。偏見を減らし、モデルの中立性を高め、モデルが特定の党派的な立場に偏らないようにする技術の進歩に引き続き取り組んでいます。
「Claude 3」モデルは、以前のモデルと比較して、生物学的知識、サイバー関連の知識、自律性の主要な尺度で進歩していますが、責任あるスケーリング ポリシーに従って「ASL-2」に留まっています。レッドチーム評価では、現時点ではモデルが壊滅的なリスクをもたらす可能性は無視できると結論付けています。 今後も将来のモデルを注意深く監視し、「ASL-3」への近さを評価していきます。 安全性の詳細については、「Claude 3モデル カード」を参照してください。
9. 使いやすさの向上
「Claude 3」モデルは、複雑な複数ステップの指示に従うのが得意です。ブランドの声と対応ガイドラインを遵守し、ユーザーが信頼できる顧客対応エクスペリエンスを開発することに長けています。さらに、「Claude 3」モデルは、JSON などの形式で一般的な構造化出力を生成することに優れており、自然言語分類や感情分析などのユースケースを「Claude」に指示することが容易になります。
10. モデル詳細
10-1. Claude 3 Opus
「Claude 3 Opus」は、非常に複雑なタスクにおいて最高のパフォーマンスを発揮する、最もインテリジェントなモデルです。 無制限のプロンプトや目に見えないシナリオを、驚くべき流暢さと人間のような理解力でナビゲートできます。
10-2. Claude 3 Sonnet
「Claude 3 Sonnet」は、特にエンタープライズ ワークロードにおいて、インテリジェンスとスピードの理想的なバランスを実現します。同等の製品と比較して低コストで強力なパフォーマンスを実現し、大規模な AI 導入で高い耐久性を実現できるように設計されています。
10-3. Claude 3 Haiku
「Claude 3 Haiku」は、ほぼ瞬時の応答性を実現する最速かつ最もコンパクトなモデルです。 単純なクエリやリクエストに比類のない速度で応答します。 ユーザーは、人間の対話を模倣したシームレスな AI エクスペリエンスを構築できるようになります。
11. モデルの使用
「Opus」と「Sonnet」は現在一般公開されているAPIで使用できます。「Haiku」も近日公開予定です。「Sonnet」は claude.ai の無料エクスペリエンスを強化しており、「Claude Pro」加入者は「Opus」を利用できます。
「Sonnet」は現在、「Amazon Bedrock」を通じて、また「Google Cloud」の「Vertex AI Model Garden」でプライベートプレビューでも利用可能であり、「Opus」と「Haiku」は両方に間もなく提供されます。
12. よりスマートに、より速く、より安全に
今後数か月間にわたって「Claude 3」モデルに頻繁なアップデートをリリースする予定です。これらの新機能には、ツールの使用 (Function Calling)、インタラクティブ コーディング (REPL)、およびより高度なエージェント機能が含まれます。
AI 機能の限界を押し上げると同時に、安全ガードレールがパフォーマンスの飛躍的な向上に確実に対応できるようにすることにも同様に取り組んでいます。
「Claude」で開発を開始するには、anthropic.com/claude にアクセスしてください。
この記事が気に入ったらサポートをしてみませんか?