Q* の勝手な予想メモ

OpenAIのQ*というモデルアプローチに関してメモ。この分野は素人なので、あくまで勝手な予想です。

Qラーニングとは?

Q学習(Q-learning)は、強化学習の一種で、エージェントが最適な行動を学習する方法です。このアプローチでは、エージェントは環境との相互作用を通じて、各状態でどの行動を選択することが最も報酬をもたらすかを学習します。

A*は?

A*(エースター)アルゴリズムは、最短経路問題を解決するための効率的なグラフ探索アルゴリズムです。このアルゴリズムは、グラフの一部を探索し、目的地に最も近いと推定される経路を優先して探索します。Aの重要な特徴は、それが「最適」かつ「完全」であることです。つまり、解が存在すればAはその解を見つけ、その解は最適な解です。

この2つから素直に考えると、Q* とは

解決方法が不明のタスクAを、自律的なトライ&エラーのフィードバックループを用いて探索し、継続的にトライして解決するAI

ということにならんかなと。ざっくり

  • 問題解決を、基礎研究からスタートし、段階的に応用問題に広げていく

  • 総当たり的な発散を経て、アプローチを評価し、収束させていく

みたいな処理を自動化して、LLM内の空間探索を行う手法ではないか? LLMの解答群をベクトル空間とみなして、「タスクへの答え」が内包されている空間への経路探索をおこなう処理、アプローチと考えられる。

こんな

問題→解答を、ベクトル空間上の経路探索と考える


「すでに答えのある問題」から、思索ステップを逆転させてデータセットを作る


会話じゃなくて、中間ステップを含めたなんかを学習させる?


みたいな? 。

たとえばQ&Aじゃなくて、みたいので学習データセットを作ったり。

Q→中間思考1→中間思考2→中間思考3→A

で、QからAを推論させるんじゃなくて、Qから中間思考1,2,3…みたいのを生成できるようにして、思索を経路探索できるようにするみたいな。

問〜答えまでを、N個の中間ステップを経由した経路探索のグラフ問題と考える感じ?? で、その空間探索をするアルゴリズムを考える…みたいな。言語化しにくい。

  • 施策と失敗を通じてダイナミックに更新される、探索アプローチへの重み付け

  • 施策と失敗を通じてダイナミックに更新される、探索アプローチのログDB

  • でみんなでAI使いながら、「問題が解決したアプローチ」「解決しなかったアプローチ」に対する評価ウェイトをどんどん調整していく。

  • で、アテンションみたいので、「ある問い」に対して、それが成功しそうなアプローチに注目があつまるマスクみたいの。

みたいな感じみたいな。こういう作り方でトレーニングすると、「答えのない問題」に対して、「可能なアプローチを列挙しながら論をつめていく」ことに特化したLLMにならんかなと

すごく大雑把な概念的なメモ。技術的には超雑にかいたイメージのお話。

こういうのは、適当書いといてあとで、どれくらい予想とあってるか、大外れしてるか考えるのが楽しいのでメモ。

まぁ99%、OpenAIのはもっとエレガントなソリューションだと思うけど!

いただいたサポートは、コロナでオフィスいけてないので、コロナあけにnoteチームにピザおごったり、サービス設計の参考書籍代にします。