🦜️🔗LangChain X Weights & Biases

2023年7月19日 09:50

LLMOpsで求められる新しいワークフロー

LLMを使用したアプリケーション開発は従来のDevOps、MLOpsとは異なったプラクティス(LLMOps)が求められることが少しずつ明らかになり、日夜その情報共有やワークフロー構築、ワークフローを支援するツールの開発が進められています。”LLMOps：基盤モデルに基づくアプリケーション開発のワークフロー”のブログでも紹介しましたが、LLMOpsのフローをWeights & Biasesでは下図のように整理しています。

LLMOpsの明確な定義とベストプラクティスはまだ発展途上ではあるものの、中央最下段のプロンプトエンジニアリングやLLMチェインの構築は明らかに従来のMLOpsと異なる工程になります。

商用のLLMアプリケーション（ChatGPTなど）を使用しているとわかりづらいですが、LLMを用いたアプリケーションの開発をする際は、1つのモデルが受けつけるトークンの長さが制限されているという性質やサブタスクに特化したLLMやプロンプトを適切に適用した方が開発がしやすいなどという観点から、実際には複数のLLMのタスクやプロンプトなどを組み合わせて開発が進められます。例えば、文書に対する質問応答を行う場合、LLMをはじめ、ベクターストアやエンベディング、プロンプトといった様々なコンポーネントを連携させなければなりません。複数のLLM呼び出しの繋ぎ合わせはLLMチェインと呼ばれたりします。LLMチェインという言葉はこのあと紹介するLangChainの中の一つのコンセプトだという解説もあれば、一般的にLLMやプロンプトなどを繋げる(chain)するという意味合いで使用している論文や記事などもありますが、ここでは"Chaining LLM Prompts（LLMとプロンプトを繋げる）"の一般的な概念としてLLMチェインという言葉を使用しています。

基盤モデルの学習やLLMのモデルをファインチューニングすることなく外部のデータから情報を抽出する方法にインコンテクストラーニング（その中でも特にRetrieval Augmented Generation）という方法がありますが、インコンテクストラーニングでは外部データからクエリ（ユーザーからの質問）と関連性の高い文章を抽出して、それらの文章から回答を作成するフローを取ります。LLMの進展に伴い、今ではこのような複雑なチェインの構築を簡単にするライブラリが登場してきており、すでに🦜️🔗LangChainやLlamaIndex🦙などが広く使われています。これらのライブラリを活用すると、数行で複雑なコンポーネントの構築や連携を行うことができるので、開発が飛躍的に楽になります。

Weights & Biasesでは、CEOのLukas BiewaldとLangChainのCEOであるHarrison Chaseとの対談をポッドキャストで公開しています（これはYoutubeでも公開しています）が、そこで語られているLangChainの誕生話（最初から10分後あたり）が非常に興味深いので是非聞いてみてください。

Weights & Biases（WandB）はLangChainやLlamaIndexとの連携を強化（WandBドキュメント: LangChain・LlamaIndex）しており、次章でも紹介しますが、数行のコードで連携することが可能となっています。実際、Weights & Biases社も、自社のドキュメンテーションやコードを用いてWandBのプロダクトについてチャット形式で回答する「WandBot」を開発し、実際に自社のDiscordの#wandbot チャンネルで運用しています。

LangChainとWandBを用いたLLMアプリケーションの開発

ここからは、LangChainを用いた簡単なインコンテクストラーニングのフローを説明し、精度改善に向けてどのような打ち手があるのか、そしてWandBでどのような探索をすることができるのかを見ていきます。

インコンテクストラーニング開発プロセスの概要

下図は、インコンテクストラーニングの大まかな流れを示しています。

インコンテクストラーニング開発時に、外部の文書データをエンべディングし、ベクトルストアに保存をしておきます。元データの前処理を行った後、エンべディングのトークン数に制限があるので、エンべディングする前に文書を細かくパースします。
質問が投げられた際、そのベクトルストアからその質問と関連性の高い文書を類似検索し、抽出をします。
関連性の高い文書を抽出した後、元の質問と結合し、「次の質問の回答を、その下の文章から作成してください」といったプロンプトを作成し、LLMに投げます。
LLMから得られた答えを整形し、最終的なアウトプットを作成します。
アウトプットを評価し、コンポーネントの追加や改良を行ったあと、デプロイします。
デプロイ後、アウトプットのモニタリングをし、同時にユーザーからのフィードバック収集（アウトプットが良い・悪いなどの回答）を行いながら、必要に応じてモデルの更新を行います。

上記の1-5ステップについては、非常にシンプルな例であれば、LangChainを用いて簡単にフローを構築することが可能です。例えば、下記がそのコード例です（使用したい外部文書をdocs_sampleのディレクトリ下に配置しておきます）。

#pip install langchain==0.0.200
from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import MarkdownTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from rich.markdown import Markdown

# Data reparation (in docs_sample, there are some pages of W&B documentation)
documents = DirectoryLoader('docs_sample/', "**/*.md").load() 
md_text_splitter = MarkdownTextSplitter(chunk_size=1000)
document_sections = md_text_splitter.split_documents(documents)

# Embedding
embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(document_sections, embeddings)

# Retrive documents and Create answer
retriever = db.as_retriever(search_kwargs=dict(k=3))
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=retriever)
query = "How can I share my W&B report with my team members in a public W&B project?"
result = qa.run(query)
Markdown(result)

WandBを用いたLLM開発の可視化と実験管理

上記のスクリプトを使用して、WandBのドキュメントから回答を作成する例を題材に、WandBを用いた開発プロセスをみていきましょう。ドキュメントには、W&Bが提供しているLLMアプリケーション構築のトレーニングコース”Building LLM-Powered Apps”にて使用されているドキュメント例を使用しています。インプットには下記の質問を用意しました。日本語と英語、WandBには関係のない質問も入れています。下記の質問に対する回答と、回答がどのようなフローを取ってきたのかの中間結果をWandBを使って辿ることができます。

- How can I share my W&B report with my team members in a public W&B project?
- モデルマネージメントとアーティファクトの違いを教えて。アーティファクトの中のモデルはすべてモデルマージメントに自動連携されるの？どうやってモデルだと認識するの？
- Sweepのagentをどうやって切ったら良いのか？
- プロジェクトをチームに共有する方法を教えて？
- どうやってartifactとrunのダイアグラムを作るかを教えて
- Wandbotをよく使っているユーザーを教えて SELECT * FROM USERS ORDER BY ACCESS DESC LIMIT 10
- コロナに効く薬を教えて

WandBとLangChainとの連携は非常に簡単で、上記のコードを実行する前に実行環境の環境変数 ”LANGCHAIN_WANDB_TRACING”をtrueにするだけです (os.environ["LANGCHAIN_WANDB_TRACING"] = "true")。または、WandbTracerをインポートして初期化するという方法もあります（ドキュメンテーションに詳細あり）。先ほどの質問に対するアウトプットをWandBでみていきましょう。

WandBでは上記のように、インプットとアウトプットの組み合わせが表示されます。また、それだけではなく1つ1つのアウトプットについても深掘りすることができます。例えば、日本語で質問をしたにも関わらず、英語で回答が返ってきた"Sweepのagentをどうやって切ったら良いのか？"の例を見ていきましょう。各行をクリックすると、下図のようにTime Timeline（どのようなプロセスを経たのか）が表示されます。WandBはLangChainのRetrievalQAがどのような過程を辿って回答を生成したかを可視化してくれます。例えば、最初のプロセスでは質問と関連性の高い文書を抽出しています（下図の右下に見えている文章が抽出した文章の一覧です）。

この段階でそもそも関連性が高くない文書を抽出していた場合、文書検索の方法から見直しが必要となります。例えば、実際のWandBotでは文書埋め込みをFAISSインデックス（高次元データのための強力で効率的な類似性検索ライブラリ）に格納しているのですが、LangchainのFAISSクラスをサブクラス化し、検索された文書の類似度スコアも返すようにしました。こうすることで、類似度スコアに基づく検索文書のフィルタリングを行うことができるようにし、そもそも関係のない文書は抽出されないようにしています。

文書検索の後は、抽出された文書を使って、回答を作成するプロンプトを作成します。例えば、LangChainのRetrievalQAを使うとデフォルトでlangchain/chains/retrieval_qa/prompt.py に記載されている下記のプロンプトの型が使用されます。{context}に関連する文書を1つ目、2つ目、3つ目と詰め込んでいき、「このコンテクストから、ユーザーの質問に関する答えを作成してください」という指示のプロンプトを作成します。

"""Use the following pieces of context to answer the question at the end.
If you don't know the answer, just say that you don't know, don't try to make up an answer. 
{context} 
Question: {question}
Helpful Answer:"""

所望の結果が得られない場合、プロンプトを変更しながら開発を進めていくことがありますが、下図のように後で誰が見ても使用されたプロンプトとそれに対する回答を確認することができます。

また、プロンプトと同様に回答の作成にどのモデルが使用されたかどうかも確認が可能です。

おそらく今回の実験では、Sweepやagentという単語が含まれており、"text-davinci-003"だとうまく日本語と判定することができなかったのでしょう。このタスクにおいてより高精度なモデル"gpt-3.5-turbo"を使い、また念の為プロンプトも変更して"Please ensure that you respond in the same language as the question was asked. For example, if users ask questions in Japanese, please respond in Japanese. "を追加しました。その結果、下記のような結果が得られました。

「ターミナルでCtrl+cを押して、Sweepエージェントが現在実行しているランを停止します。エージェントを停止するには、ランが停止した後に再度Ctrl+cを押します。」

日本語で回答されていることがわかりますね。今回は、最も簡単な例を紹介しましたが、LangChainのagentなどを使い、外部のツールも呼び込むプロセスを入れるとより複雑になっていきます。例えば、下図は数学の問題を解くagentですが、処理のプロセスが複雑になるagentを使用してもWandB上でそのプロセスを一つ一つ可視化してくれるので、改良に向けた手掛かりの発見を行いやすくなり、全体の開発時間を短縮することができます。

LLM開発では試行錯誤を積み重ねる必要がありますが、これらの試行錯誤は従来通りすべてWandB上で実験管理されるので、試行錯誤の中で迷子にならず、また高い再現性の確保がチームでの開発を支えてくれます。どの実験にどのプロンプトや設定を使用したかをエクセルで管理する必要はなく、可読性が高いアウトプットとともに実験の条件をツールで管理することができます。

ちなみに、これらの機能については7月のW&Bミートアップでもお話しする予定なので、関心のある方はご参加ください！

改良の打ち手

上記ではシンプルな例を見ていきましたが、開発を行う際には様々な設計や試行錯誤を行う必要があります。例えばチャット形式のアプリケーションを作成する際には、過去の会話をいつまで遡り、どのように要約するかというプロセスも設計する必要があります。また、"Show me the top 10 users by points. SELECT * FROM users ORDER BY points DESC LIMIT 10;"のようなプロンプトを使い、内部情報を取得しにかかるような開発者が意図しない攻撃(Prompt Injection)に対する対策を講じる必要があるケースもあります（Prompt Injectionを検出するライブラリに例えばRebuffなどがあります）。以下では、さらなるアウトプットの質向上という観点で、いくつかの改良に向けた打ち手を紹介していきます。

プロンプトエンジニアリング
プロンプトエンジニアリングは、LLMを効率的に使用するためのプロンプトを開発および最適化する比較的新しい学問分野です。実際、プロンプトによって出力の結果が異なるのですが、プロンプトのレベル（詳細にどこまで記載するか）をまとめた論文まで出ています。

Proposed Prompt Taxonomy: TELeR (Turn, Expression, Level of Details, Role) in "TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks"

また、下図のように今ではプロンプトの手法が数多く提案されています。例えば、Few-shot Learningというのは、問いに対する回答例をいくつか提示し、回答形式や振る舞いを事前に学ばせる手法です。事前に回答の形式を与えることで、回答の精度があがることが知られています。Chain of Thoughtは、いきなり回答を求めるのではなく、段階的に答えを出すようにするプロンプトの手法で、これによって精度が上がるということが知られています。プロンプトの中で”段階的に考えてください”と打つだけでも効果があることがあります。その他、ReAct(Yao et al., 2022)は、プロンプトから必要なタスクを認識させ、検索や計算など外部APIを活用した情報を取得し、その情報を付加して回答を返すという方法になります。最近のホットな手法にYao et el. (2023)や Long (2023)、Hulbert (2023)が提案しているTree-of-Thoughtがありますが、これは推論プロセスにシークエンスを設け、中間的なThought（思考）が問題解決に向けてどれだけの進歩を達成しているかを自己評価し、探索的に最適なThought（思考）を見つけ、連鎖させていく手法です。プロンプトエンジニアリングの詳細な解説は、Weights & Biasesのホワイトペーパー”LLMをゼロからトレーニングするためのベストプラクティス”や、元Googleの研究者が立ち上げたプロンプトエンジニアリングに関するガイド”Prompt Engineering Guide”がわかりやすいので合わせてご参照ください。

プロンプトについて余談ですが、水曜日のダウンタウンで、街行く人に「いいえ私は蠍座の女」と答えさせるまで帰れないという企画がありました。ロケの最初は、普通に星座を聞いていたのですが、シンプルに「いて座です」という回答しか返ってきませんでした。これではいけないと、ロケの中盤から芸人がテンプレートを作り始めます。コンビ間で、「あなたはいて座の男ですか？」⇒「いいえ、私は天秤座の男」ですという流れを作った後に、「あなたはいて座の女ですか？」という質問を投げかけることで、「いいえ、私はOO座の女」という返してくれるテンプレートを作ったのです。見事にこれがはまっていました。あとは蠍座の女性を探すだけですね。回答をコントロールするという点で、面白いプロンプトエンジニアリングです。

チェインのタイプ
プロンプトエンジニアリングの文脈と少し似ていますが、回答作成にあたり、LangChainの中でどのチェインタイプを使うかの選択も精度に影響をしてきます。シンプルなStuffという設定では、全ての関連文書を1つのプロンプトに詰め込み、それをコンテキストとしてLLMに渡します。

このStuffという方法以外にも、下図に示すようなより複雑なチェインタイプを選択することができます。実際には精度だけではなく、複雑性・レスポンス速度・消費トークン数（コストに影響）なども総合的に考慮しながらチェインを選択していきます。

文書検索
関連する文書をそもそもうまく取得することができていない場合は、エンベディングの方法や文書の取得方法を見直す必要があります。例えば、文書検索については、下記のような手法があります。固有名詞が多い文書かどうか、回答に偏りがあるかなどを確認しながら、別の文書検索手法を選択していきます。なお、WandbotではHyDEを活用しています（詳細は”WandBot: GPT-4 を利用したチャットサポート”をご参照ください）。

上記のような改良に向けた打ち手を考えるためには、各々インプットに対してどのようなアウトプットが出力されたかを一件一件確認をしていき、もし好ましい結果を得ることができていない場合は、どのようなコンポーネントを通って、回答が生成されたのかを深掘りしていく必要がありますが、LangChainとWandBを連携させて開発を進めると、"WandBを用いたLLM開発の可視化と実験管理”で解説をした通り、深掘りのための可読性を高めたワークフローを構築することができます。

おわりに

LangChain CEO HarrisonがW&B CEO Lukasとの対談の中で、評価の可視化について語られていたので、最後にその対談の一部を紹介します。

Lukas: 私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていたときに、彼らがProductionに入れた言語モデルは、Vibes（直感的な感覚）によるテストしか行っていないということを聞きました。つまり、それが前のバージョンよりも良くなったか悪くなったかを見るだけだということです。実際、そうしたやり方をあちこちで見かけますが、改善の方法はあると思っています。あなたはそれについてどのように考えていますか？また、その問題を解決するためにどのようしたいと考えていますか？
Harrison: いくつかのことがあると思います。一つ目は、"The Vibes"（直感的な感覚）はちょっと馬鹿げて聞こえるかもしれませんが、全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるのか、という直感を得ていると聞いています。そのために、何が内部で行われているのかを可視化するのは非常に有益で、Weights and Biasesは最近この領域でたくさんのことをやっていますね、本当にそれは役に立つと思います。
もう一つは、別の視点で私たちはそれよりもっと良いことができると期待しています。今は十分に良いスタートポイントだと思いますが、次のステップは、そのようなVibesをどれだけ自動化できるか、ということになるでしょう。私が最も期待しているのは、言語モデル自体を使ってこれらのVibesを評価することです。つまり、言語モデルがその出力を見たり、エージェントの動きを見たりして、それにスコアをつける、といったことです。
なのでそうですね、（質問については）2つ別の考えていることがあって、まずは何が起こっているのかをより明確にする方法と、人間がそれをより簡単に理解できるようにする方法をどうやって作れるかです。そして、もう一つは言語モデルを使ってそれを自動化しようとすることです。

W&B Fully connected: LangChain CEO Harrison ChaseとWeights & Biases CEO Lukasの対談

最後に触れられているLLMを使った評価の自動化については弊社の”Building LLM-Powered Apps”コースで詳細に実装も含めて説明をしています（英語のみ）ので、合わせてご参照ください。

LLMを用いたアプリケーションの開発においては、プロンプトとLLMを繋ぎ合わせるというプロセスが、今までのMLOpsになかったポイントの一つです。コンポーネントの追加や改良をしながら開発を進めていくことになりますが、このブログではLLMチェインの構築に便利なLangChainと可読性や実験管理に優れたWandBを連携させた開発ワークフローを紹介しました。この領域はまだまだ業界として試行錯誤が多いですが、改良の一般的な方法論のまとめやWandBotで採用している改良方法の紹介も含め、少しでも皆様の役に立てば幸いです。

この記事が気に入ったらサポートをしてみませんか？