RAGによる社内データ利活用〜社内FAQシステム編(1)
はじめに
多くの企業が生成AIの導入を検討する中で、最も要望の多い事例として、社内ナレッジの活用に挙げられるのではないでしょうか、「業務問い合わせ」「カスタマーサポート」「就業規則」「マニュアル確認」、私も一年前からPython+OpenAIでコードを書いて検証していましたが、ローコードのDifyの出現に衝撃を受けました、今まで書いていたコードは何だったのか、ただRAGの仕組みについては深掘りできましたが。
社内ドキュメント活用の現状と課題
多くの企業で膨大な社内ドキュメントやナレッジを蓄積していますが、効果的な活用ができていないのが現状では無いでしょうか、情報のフォーマットも内容もバラバラ、エクセル、ワード、テキスト、ホームページと多種多様。私の会社でも活用できていませんでした。今までは、ファイルサーバ管理、Alfrescoで全文検索が限界でした。
解決策としてのRAG
私の会社では最近情報共有に「プリザンター」を使っています、これはノーコード・ローコードで簡単に情報の一元化、共有が簡単に出来るようになりました。おかげで、どんどん情報が蓄積されて行きます。
プリザンターは簡単にデータベースから、データを取り出すことができます(手動、API)
RAG導入における検討項目
・データの質と量です
もちろんクレンジングしてデータを生成して、投入すれぱ回答率は上がりますが、それなりの選別とデータの修正が必要になります、我々はデータの修正をできるだけしないように工夫しています。(質問者情報、質問内容、回答)
後は、回答を引き出す「指示の与え方」の書き方、与え方。
・セキュリテイ
機密情報の検索
・コスト
データの選別と生成にまつわるコスト
データの質については、AIの力を借りて元データをAIで変換して使うという事も考えられます、Difyでも可能です。
例えば、「PDF とかTEXT について500~1000文字程度の意味のあるチャンクに分割をしてマークダウン形式のテキストとして出力してください。 区切り文字は###としてチャンクのヘッダーに短い要約文をいれます。」このようにするだけで、元文章をただ流し込むのとは随分と回答率は上がります。
RAG導入環境
我が社ではセキュリティーを加味して「クラウド」と「オンプレ」で独自運用しています。機密情報がある場合はもちろん「オンプレ」環境で、問い合わせできる人を限定。
RAG運用の課題
やはり継続運用の為には、正しいデータを自動で定期的(リアルタイム)にAIに投入する事ができる仕組み、又古いデータを消す(修正)する事が大事です。これは、RAGを構築している多くの企業でも課題になると思います。
APIを活用することで、ナレッジ管理の自動化が大きく前進するのは間違いありません。Difyの真価を引き出す上でも、APIの存在は欠かせません。
我々も次の命題として認識しており、その取り組みを始めている所です。
この記事が気に入ったらサポートをしてみませんか?