Claude 3.5 Sonnet の概要
以下の記事が面白かったので、簡単にまとめました。
1. Claude 3.5 Sonnet
本日 (2024年6月21日)、「Claude 3.5 Sonnet」がリリースしました。これは、今後リリースされる「Claude 3.5」モデルファミリーの最初のリリースです。「Claude 3.5 Sonnet」は、インテリジェンスの業界標準を引き上げ、幅広い評価で競合モデルや「Claude 3 Opus」を上回り、中間層モデルである 「Claude 3 Sonnet」の速度とコストを備えています。
「Claude 3.5 Sonnet」は現在、Claude.aiとClaude iOSアプリで無料で利用できます。「Claude Pro」および「Teamプラン」の加入者は、大幅に高いレート制限でアクセスできます。「Anthropic API」「Amazon Bedrock」「Google Cloud Vertex AI」からも利用できます。このモデルのコストは、入力トークン100万あたり3ドル、出力トークン100万あたり15ドルで、コンテキストウィンドウは20万です。
2. 2倍の速度で最先端の知能を実現
「Claude 3.5 Sonnet」は、大学院レベルの推論 (GPQA)、学部レベルの知識 (MMLU)、コーディング能力 (HumanEval) において、新たな業界基準を設定しました。ニュアンス、ユーモア、複雑な指示の把握において顕著な改善が見られ、自然で親しみやすい口調で高品質のコンテンツを書くことに優れています。
「Claude 3.5 Sonnet」は、「Claude 3 Opus」の2倍の速度で動作します。このパフォーマンスの向上とコスト効率の高い価格設定により、「Claude 3.5 Sonnet」は、状況に応じた顧客サポートや複数ステップのワークフローのオーケストレーションなどの複雑なタスクに最適です。
社内のエージェントコーディング評価では、「Claude 3.5 Sonnet」は問題の64%を解決し、38%を解決した「Claude 3 Opus」を上回りました。この評価では、望ましい改善の自然言語による説明を与えられた場合に、バグを修正したり、オープンソースコードベースに機能を追加したりするモデルの能力をテストします。「Claude 3.5 Sonnet」は、指示に従って適切なツールが提供されれば、高度な推論機能とトラブルシューティング機能を使用して、コードを独自に記述、編集、実行できます。コード変換も簡単に処理できるため、レガシーアプリケーションの更新やコードベースの移行に特に効果的です。
3. 最先端のビジョン
「Claude 3.5 Sonnet」は、これまでで最も強力なビジョンモデルであり、標準的なビジョンベンチマークで「Claude 3 Opus」を上回っています。これらの大幅な改善は、チャートやグラフの解釈など、視覚的な推論を必要とするタスクで最も顕著です。「Claude 3.5 Sonnet」は、不完全な画像からテキストを正確に書き起こすこともできます。これは、AIがテキストのみよりも画像、グラフィック、イラストからより多くの洞察を引き出すことができる小売、物流、金融サービスにとって中核的な機能です。
4. Artifacts - Claude の新しい使い方
「Artifacts」は、ユーザーがClaudeとやり取りする方法を拡張する新機能です。ユーザーがClaudeにコード、テキスト、Webサイトデザインなどのコンテンツを生成するように依頼すると、これらのArtifactsが会話の横にある専用ウィンドウに表示されます。これにより、Claudeの成果物をリアルタイムで表示、編集、構築できる動的なワークスペースが作成され、AIによって生成されたコンテンツがプロジェクトやワークフローにシームレスに統合されます。
このプレビュー機能は、会話型AIから共同作業環境へのClaudeの進化を示しています。これは、Claude.aiのより広範なビジョンの始まりに過ぎず、まもなくチームのコラボレーションをサポートするように拡張されます。近い将来、チーム、そして最終的には組織全体が、知識、ドキュメント、進行中の作業を1つの共有スペースに安全に一元管理できるようになり、Claudeはオンデマンドのチームメイトとして機能します。
5. 安全性とプライバシーへの取り組み
Anthropicのモデルは厳格なテストを受けており、悪用を減らすよう学習されています。「Claude 3.5 Sonnet」の知能は飛躍的に向上しましたが、Anthropicのレッドチーム評価では、「Claude 3.5 Sonnet」はASL-2のままであると結論付けられました。詳細については、モデルカードの付録を参照してください。
安全性と透明性への取り組みの一環として、Anthropicは外部の専門家と協力して、この最新モデルの安全メカニズムをテストおよび改良してきました。「Claude 3.5 Sonnet」を英国の人工知能安全研究所 (UK AISI) に提供し、導入前の安全性評価を行いました。「UK AISI」は「3.5 Sonnet」のテストを完了し、今年初めに発表された米国と英国のAISI間のパートナーシップによって可能になった覚書の一環として、その結果を米国 AI 安全研究所 (US AISI) と共有しました。
評価が堅牢で、悪用の新しい傾向を考慮に入れていることを確認するために、外部の専門家からのポリシーフィードバックを統合しました。この取り組みにより、「3.5 Sonnet」をさまざまなタイプの不正使用に対して評価する能力を拡大することができました。たとえば、Thornの子供の安全の専門家からのフィードバックを利用して、分類子を更新し、モデルをファインチューニングしました。
AIモデル開発の指針となる基本原則の1つはプライバシーです。ユーザーから明示的に許可されない限り、ユーザーが送信したデータで生成モデルを学習することはありません。現在まで、生成モデルの学習に顧客またはユーザーが送信したデータを使用したことはありません。
6. Comming soon
Anthropicの目標は、数か月ごとにインテリジェンス、スピード、コストのトレードオフ曲線を大幅に改善することです。「Claude 3.5」モデルファミリーを完成させるために、今年後半に「Claude 3.5 Haiku」と「Claude 3.5 Opus」をリリースする予定です。
次世代モデルファミリーの開発に加えて、エンタープライズ アプリケーションとの統合など、ビジネス向けのより多くのユースケースをサポートする新しいモダリティと機能を開発しています。私たちのチームは、メモリなどの機能も検討しています。これにより、Claudeは指定されたとおりにユーザーの好みやインタラクション履歴を記憶し、ユーザーのエクスペリエンスをさらにパーソナライズして効率化することができます。