GPT4完全上位互換の最強GPTs「Auto Prompt Agent 🚩」できた

こやし｜生成AIマニア

2024年1月22日 15:45

開発の背景

先日、OpenAIのGPTs Storeがローンチされ、有料ユーザーは自分で作成したGPTSをストアに公開することができるようになりました。

ものすごい数のGPTsが現在公開されていますが、正直実用的なものはあまり多くない印象です。

実用的であっても、用途が特化されすぎていて、なかなか使い分けの判断コストもあったりと、現実的じゃないなぁと感じていました。

そこで思ったのは、一番求められるGPTsというのは、「どんなリクエストに対しても、無印のGPT4を超える精度で回答を返してくれるGPTs」ではないかということです。

そして、もう一つの文脈として、プロンプト集みたいなものがよく出回っていますが、状況毎に必要なプロンプトを探してきて、自分に合うようにアレンジして、、みたいなのってめちゃくちゃ面倒くさくないですか…？？っていうことです。

ここを自動化、つまり「どんなインプットもAIが自動でプロンプトエンジニアとして内容を拡張修正して、それを基に自動で回答するGPTs」があればどんなに便利だろうかと。。

というわけで、理想のGPTsを追い求め、作っちゃいました。

『Auto Prompt Agent 🚩』の概要

このGPTsは、一言で言うと、ユーザーのインプットをプロンプトエンジニアが自動修正・拡張して、それを基に推論を行い、成果物を生成するGPTsです。ちょっとAGIみたいな動きをします。

以下に特徴をまとめます。

✅プロンプトを自動で拡張&修正！
✅それを基に推論し、成果物を出力！
☝ここまでワンターンで実現
✅単純な質問は上記省略しspeed優先！
✅画像生成も専用のプロンプトで拡張し対応！
✅WebPilotとVoxscript搭載で検索系のタスクも強力！

こんな感じです。

プロンプトの自動拡張&推論&回答

プロンプトを作成するGPTsは既にいくつか存在しますが、自動で作成してそのまま推論までして、回答まで一発で出してくるGPTsは今のところ他にないと思います。

また、chatGPTは英語が最も得意であり、質もスピードも英語が最も優れています。自動修正するプロンプトは全て一旦英語で生成されます。英語で解釈させて、ユーザーインプットの言語で出力するという、まさに理想的な設計になっています。

これ実は昨年の10月頃に思いついて、自分用に作っていたのですが、今回GPTsストアがローンチされて、出すべきか正直迷っていました。

ただ、そうこうしている間に、GPT4.5が出たり、GPT5が出るでしょうし、思いついたものはすぐに公開すべきだろうということもあり、今年に入って急いで細かいプロンプトのチューニングを行いました。

まだ挙動が完璧ではないですが、通常使用においては無印のGPT4よりも良い成果物を得やすいのではないかと思います。

ステップバッククエスチョンの罠

よく界隈では、ステップバッククエスチョンを行って、成果物の生成をする前に必要な変数をユーザーに聞くアクションが推奨されます。

これは至極正論で、ユーザーが求める成果物を得るにはその変数を定義することはとても重要だと思います。

ただ、人間って成果物が見えない状態から変数を決めるのに使う脳のコストって結構大きくて（単純に面倒くさいのもある）、できた成果物によっては変数が多少変動しても受け入れられちゃったりすることもあったりします。

例えば、恋愛で、事前に好きなタイプに挙げていた条件があったとして、それに反する人でも好きになってしまうこともあるわけです。

ステップバッククエスチョンで、がちがちに変数を決めて成果物を決めるのは、特にビジネスの文脈においてはスタンダードな意思決定の在り方だと思うので、その文脈でならば全然OKだと思います。

しかし、そうでない文脈の場合も当然あるので、そういう時は先に不確定な変数をこちらで良しなに決めてしまって、成果物を見せたほうが早いと思うんですよね。

成果物を見ると、「ああ違う、そうじゃない」とかユーザーも言いやすくて、求めている成果物の言語化がしやすくなるんです。

つまり、自分が求めるものとの比較対象が生まれることで、その差分が見えて初めて言語化が容易になるというロジックです。

とはいえ、そこで見せるゴールとなる成果物の精度がガバガバだと、ユーザーも話す気をなくしてしまうので、そこをオートプロンプトで文脈補完して精度高めのゴールを提示してあげるという流れです。

そんなわけで、この「Auto Prompt Agent 🚩」には、ステップバッククエスチョンを行うロジックは組まずに、精度の高い成果物を一発で見せに行って差分の発見を誘導するというフローを基本として設計しています。（※それでもユーザーのリクエストの解像度が低い時は勝手に聞いてくることがあります。）

単純な質問は上記省略しspeed優先！

プロンプトを自動修正と言っても、単純なリクエストも全てそのような動作が走ってしまうと困ります。待ち時間が長くなるので。

そのため、比較的単純なタスク（例えば、翻訳や知識を問うようなもの）などは、プロンプトの自動拡張は行わないようなロジックを組んでいます。

深い推論が求められるようなタスクにおいて、しっかり必要な変数を自動で集めてきて、プロンプトを作成し直し、推論を実行するようにしています。

これにより、深い思考におけるアウトプットの質はグッと高まり、単純なタスクはすぐに答えてくれる優秀なエージェントが完成します。

画像生成にも対応！

画像生成を行う場合にも、画像生成に必要な要素を割り出してプロンプトを自動作成し、それを基にDALL-Eを実行します。

正直DALL-EはMidjourneyほどではないので、クオリティが常に高く出せるわけではないですが、この「Auto Prompt Agent 🚩」を使用すれば、より文脈を良しなに補完していい感じの画像ができやすいです。

WebPilotとVoxscript搭載！

chatGPT標準のwebブラウジングは、正直イマイチな所があります。前よりもかなり良くなってはきていて、クローリングの動きはAGIを彷彿とさせるものがあります。回答時にはしっかりとリンク先も拾ってきますし、そこそこ使える印象ではあるのですが、ピンポイントで正確に情報を拾ってきたり、いくつかの可能性を考慮して複数の検索結果を並べたりといった気の利いた検索はできません。

あと、よくあるのは検索クエリが英語の時など、検索した内容が英語の時は回答がそのまま英語に引っ張られて英語で出力してしまったりなどです。

この辺の動きがまだイマイチです。

しかし、この『Auto Prompt Agent 🚩』では、プラグインでも有名な「WebPilot」と「Voxscript」を使用できるようにしているので、この辺のデメリットも解消しています。

特にVoxscriptは、URLをピンポイントで辿って、内容を抽出したり、要約したりできます。YouTubeの動画の要約なんかもできます。またWebPilotはウェブ上のPDFも読み込むことができます。かなりできることが広がって便利です。

検索系も強化されていて、あらゆる情報へアクセスする力が強化されている『Auto Prompt Agent 🚩』はかなり汎用的で実用的なGPTsになっていると思います。

というわけで、以上『Auto Prompt Agent 🚩』の紹介でした。
良かったら、是非触ってみてください。

この記事が参加している募集

#GPTsつくってみた

1,538件

この記事が気に入ったらサポートをしてみませんか？