Microsoft Azureで視覚と言語を統合したマルチモーダルモデル「Phi-3-vision」他を発表

2024年5月23日 12:51

Microsoft Build 2024にて、マイクロソフトはPhi-3ファミリーに新たなモデルを追加しました。特に注目すべきは、言語と視覚の両方を統合したマルチモーダルモデル「Phi-3-vision」の登場です。この新モデルは、Azure上で即座に利用可能です。

Phi-3ファミリーは、小型でありながら高性能な言語モデル群です。これらのモデルは、同サイズやそれ以上のサイズの他のモデルを凌駕するパフォーマンスを持ち、特に言語、推論、コーディング、数学のベンチマークで優れた結果を示しています。

・Phi-3-vision: 4.2Bパラメータのマルチモーダルモデル。言語と視覚の統合機能を持ち、画像のテキスト抽出やリアルタイムな画像認識に強みがあります。
・Phi-3-mini: 3.8Bパラメータの言語モデル。128Kと4Kのコンテキスト長を提供。
・Phi-3-small: 7Bパラメータの言語モデル。128Kと8Kのコンテキスト長を提供。
・Phi-3-medium: 14Bパラメータの言語モデル。128Kと4Kのコンテキスト長を提供。

これらのモデルは、Azure AIおよびHugging Faceで利用可能です。また、ONNX RuntimeとDirectMLを活用して最適化されており、モバイルやウェブデバイスを含む広範なプラットフォームでサポートされています。さらに、NVIDIA NIM推論マイクロサービスとしても提供され、NVIDIA GPUやIntelアクセラレータに最適化されています。

多くの開発者がPhi-3を活用して革新的なアプリケーションを開発しています。例えば、インドのITCは農家向けに農作物に関する質問に答えるコパイロットを構築し、Khan Academyは教師向けパイロットプログラム「Khanmigo」でPhi-3を活用しており、教育の効率を高めています。また、ヘルスケアソフトウェア企業のEpicは、患者の複雑な履歴を効率的に要約するためにPhi-3を利用しています。

Digital Greenは、AIアシスタント「Farmer.Chat」にビデオ機能を導入し、農村コミュニティがAIの力を活用できるようにしています。これにより、効率的な農業支援が可能となり、地域社会の自立を促進しています。

Phi-3-visionは、言語と画像の両方を処理できる初のマルチモーダルモデルです。これにより、リアルワールドの画像に対する推論や画像からのテキスト抽出が可能となり、チャートや図表の理解にも優れています。Phi-3-miniの言語機能を基盤にしており、強力な言語および画像の推論能力を持つ小型モデルです。

Phi-3-smallとPhi-3-mediumは、同サイズのモデルやそれ以上のサイズのモデルを凌駕するパフォーマンスを誇ります。

・Phi-3-small（7Bパラメータ）は、言語、推論、コーディング、数学のベンチマークでGPT-3.5Tを上回ります。
・Phi-3-medium（14Bパラメータ）は、Gemini 1.0 Proを上回る性能を持ちます。
・Phi-3-vision（4.2Bパラメータ）は、Claude-3 HaikuやGemini 1.0 Pro Vを超える視覚的な推論タスクで優れた結果を示します。

Phi-3モデルは、マイクロソフトの責任あるAI基準に基づいて開発されており、厳格な安全評価とテストを経ています。また、Phi-3ファミリーを使用する開発者は、Azure AIで提供される一連のツールを利用して、より安全で信頼性の高いアプリケーションを構築できます。

Phi-3ファミリーは、さまざまなニーズに応じた高性能な言語モデルを提供し、Azure上で簡単に利用できます。特に、Phi-3-visionの登場により、言語と視覚の両方を統合した高度なAIアプリケーションの開発が可能となりました。ぜひAzure AI Playgroundで体験してみてください。

詳細内容は、Microsoft が提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか？