見出し画像

LlamaIndex によるOpenAIの新機能を使用・理解するためのガイド

以下の記事が面白かったので、かるくまとめました。

LlamaIndex Updates 11/12/2023


1. 新機能

1-1. Parallel Function Calling

・エージェント

・複数のツールを一度に呼び出す
・順次実行よりも高速 (例: ReAct)

・構造化データの抽出

・Function Callingを使用して、複数の構造化された出力を一度に抽出 (例: 複数のPydanticオブジェクト)
・Pydanticクラスでラッパーを定義する必要がなくなった

・ガイド

Structured Data Extraction
Parallel Function Calling for Agents

1-2. Assistant API Agent

・組み込みの「Retrieval Tool」「Code Interpreter Tool」を使用
・独自の「Vector Store」の持ち込み

・ガイド

Agent Guide

1-3. Function Callingによる高度なRAG

・QA と 要約 のジョイント
・Auto-retrieval
・text-to-SQL と semantic search のジョイント

・ガイド

Advanced RAG Guide

1-4. マルチモーダルRAG

・マルチモーダルLLM、埋め込み、インデックス
・GPT-4V、LLaVa、Fuyuと統合
・ユーザーのクエリを指定して、取得した画像/テキストを出力

・ガイド

Blog
Guide
Multi-modal CLIP Retrieval
Retrieval-Augmented Image Captioning

1-5. [Draft] GPT Builder (at home)

・「Meta」tools : システムプロンプトの作成、ツールの作成、エージェントの定義

・ガイド

Guide

2. 分析

2-1. JSONモード vs Function Calling

・Function Callingは構造化データの抽出に使いやすい (JSONモードは常に有効)
・JSONモードはJSON形式を検証するが、スキーマは強制しない

・ガイド

Guide (Notebook Comparison)
Stack Overflow Thread

2-2. GPT-4のコンテキスト制限の分析

・長いコンテキストLLM (コンテキストウィンドウのオーバーフローなど) を使用した大規模な要約は依然として困難
・gpt-4 と claude-2 の両方ですべてのコンテキストが同等に扱われるわけではない

・ガイド

Notebook / Guide

2-3. Retrieval API のベンチマーク

・「Retrieval API」はどの程度優れているか、デフォルトのtop-k RAGパイプラインと比較。
・驚くべきことに、状況はさらに悪くなる (しかし、より重要なのは、独自のデータに対してスクリプトを実行する必要があること)。

・ガイド

Guide

関連



この記事が気に入ったらサポートをしてみませんか?