見出し画像

AIフル活用ガイド:企業の社内情報・知的資産を生かす方法のRAGとAPI(+ファインチューニング)の違いについて解説します。


1.  はじめに

社内文書や社内データベースの機密情報を、Azure OpenAIと組み合わせて安全に利用するための方法については、主にRAG(Retrieval Augmented Generation)とAPIの2つのアプローチがあります。

2.  RAGを用いる方法について

RAGは、生成AIモデルと検索エンジンを組み合わせた手法です。以下のようなプロセスが一般的です。

  1. 社内文書や企業データベースを検索可能な形式(ベクトル化されたインデックスなど)に変換する

  2. ユーザーからの質問を受け取ると、検索エンジンで関連する社内情報を検索し、関連スニペットを取得する

  3. 生成AIモデル(Azure OpenAI)に質問と関連スニペットを入力として渡す

  4. 生成AIモデルが出力した回答から機密情報を除去したうえで、ユーザーに回答を提示する

RAGのメリットは、生成AIモデルに直接機密情報を学習させず、検索したスニペットのみから回答を生成できる点にあります。また、出力された回答から機密情報を事前に除去できます。

一方でデメリットとして、RAGには検索エンジンと生成AIモデルの2つのコンポーネントが必要で、システム全体が複雑になる点が挙げられます。

参考.  RAGの詳細については、以下の記事をご参照お願いいたします。


2.  APIを用いる方法について

もう一つの選択肢として、Azure OpenAIのAPIを利用する方法があります。

  1. Azure OpenAIの制限付きモデルのデプロイ

  2. 社内文書のテキストデータを利用してこのモデルをファインチューニングする

  3. ファインチューニング済みモデルをAPIとして公開し、アプリケーションから安全にアクセスできるようにする

このアプローチのメリットは、システム全体が単純で、一つのカスタムモデルに社内の機密情報を組み込めることです。

ただし、ファインチューニングされたモデルからの出力に機密情報が含まれるリスクがあり、事前の機密情報検出や出力のフィルタリングが欠かせません。

3.  ファインチューニングについて

ここで、ファインチューニングについて、簡単に説明させていただきます。
ファインチューニングとは、事前に学習された大規模な言語モデル(GPT-3などの基本モデル)に、特定のタスクやドメインのデータを追加学習させることで、そのタスクやドメインに特化した性能向上を図る手法のことです。

具体的なプロセスは以下の通りです。

  1. 基本モデルの用意 OpenAI、Anthropicなどによって学習された大規模言語モデル(数十億~数兆パラメータ)を出発点とします。

  2. ファインチューニングデータの収集 特定のタスク(チャットボット、文書要約、コード生成など)に関連する質問応答ペアや文書データなどを収集します。

  3. データの前処理と分割 収集したデータを前処理(クリーニングなど)し、学習用と評価用に分割します。

  4. ファインチューニングの実行 収集した学習データを基本モデルに追加学習させます。これにより、基本モデルのパラメータが調整され、当該タスクやドメインに特化したモデルになります。

  5. 評価と調整 評価用データを使って生成性能を評価し、パラメータや学習手順を調整します。評価が良好になるまでこのプロセスを繰り返します。

ファインチューニングのポイントは、すでに膨大なデータから一般的な知識を学習済みの基本モデルに、追加で特化したデータを学習させることです。これにより、基本モデルの汎用性を維持しつつ、特定タスクの性能を向上させることができます。

Azure OpenAIのAPIを使ってファインチューニングする場合は、基本モデルをデプロイし、そのカスタムモデルに社内データを学習させることになります。これにより、社内の機密情報やドメイン固有の知識をモデルに組み込むことができます。

ただし、ファインチューニングされたモデルからの出力に機密情報が含まれるリスクがあるため、出力をモニタリングしてフィルタリングする体制が重要になります。また、機密データの扱いにも注意が必要です。

要約すると、ファインチューニングは大規模言語モデルに特化したデータを追加学習させ、特定タスクやドメインで高い性能を発揮できるようカスタマイズするための有効な手段なのですが、企業の機密情報を含む場合は細心の注意を払う必要があります。

4.  RAGとAPIの方法のメリット・デメリット

RAGとAPIの方法はそれぞれ長所短所がありますが、どちらを選ぶかは、企業のユースケース、セキュリティ要件、技術的制約などを総合的に勘案する必要があります。RAGは機密情報の漏洩リスクが低い代わりに複雑なシステムが必要ですが、APIはシンプルな構成ですがセキュリティ対策が重要になります。

いずれの手法を採用する場合も、機密情報の検知と除去のための事前準備と、出力の検証プロセスの確立が重要となります。企業のニーズと柔軟性を検討し、バランスの取れたアプローチを選ぶことが賢明でしょう

この記事が気に入ったらサポートをしてみませんか?