[GPTs]陰陽師AI(プロンプト付)と旅するAI bot
旅botのほうで拡張中の機能がまだ完成しないので、ちょこっと思い立ってエンタメ一発ネタ系GPTsを作ってみたのでご紹介します。
このGPTsは陰陽師です。写真を霊視してそこにいる地縛霊を見つけ出し、生い立ちを見抜きます。地縛霊についていろいろ聞いてみましょう。
陰陽師AI GPTs https://chat.openai.com/g/g-nORQJIxBF-yin-yang-shi-ai
遊び方
会話を開始したら写真をアップロードしてください(プライバシー情報等を含まない無害な画像でお願いします)
陰陽師はアップロードされた写真から地縛霊がどのように見えているかイラストを描いてくれます。さらに地縛霊の生い立ちを読み解いてくれます。
さらにこちらから問いかけたら地縛霊の代わりに質問に答えてくれます。
きっかけ1
OpenAIは先日いろいろ発表してGPTsというChatGPTのパッケージングツールをリリースしたのですが、これを見たとき「旅botの簡易的なサブセットをGPTsで作れるのではないか」と思ったのです。すぐにChat GPT Plusに登録して(それ以前はリクエストだけして登録してませんでした。定額課金するとAPIコストが下がるみたいな契約を期待したのですがそうではなかったので)GPTsをいろいろ触ってみました。カスタマイズで外部のAPIが呼べるというのがわかって、うまくやればもしかしたら、とごそごそ検討してました。
きっかけ2
ローカルのTVを見ていたら「あなたの知らない世界」的なエンタメコーナーをやっていたのです。そこで出てくる陰陽師が街角で「霊が見える。おじいさんですね。」みたいなことをやっていたのです。
風景から人を幻出させるならすでに旅botで技術的にやれているので、これは簡単にAIにできそうだな、と思ったわけです。
GPTsで旅botは作れるか?
LLMは強力なGPT4が入っていて、画像生成もDALL-E(使うの今回がはじめて)が入っていてそれに作業内容を指示できる、というなら旅botっぽいものが作れてもおかしくはない。経路関係の処理と画像処理が少し足りないが外部のREST APIが呼べる(1個だけどエンドポイントはおそらく制限ない)、APIのスキーマ周りはベーシックなSwagger/OpenAPIで、mi-server周りでChatGPTのfunction callの癖もなんとなく分かる。
外部APIに経路処理と画像処理をパッケージした専用のwebアプリをうまく作れば旅botをGPTsとして公開できるのではないか?
試作用のwebアプリを少し書いてクラウドにデプロイし動きを試してみました。
結果からいうと、現時点は断念しました。。。
理由は以下のような感じですがとにかく画像処理周りがまだ旅botには足りない。無理にやればやれないでもないかもしれないけど、旅botの目的である旅情を連れてくるという体験感は現時点は難しいという判断です。
画像データを生まま外部のAPIに受け渡すのが出来なさそう
画像生成はimage to imageが使えるDALLE-2ではなさそう(image to imageは使えなさそう? 後述)
エンドポイントURLが見えちゃう(セキュリティが面倒)
生成シーケンスが表示されるので、かっこいい表示にはしにくい
旅botは画像処理にrembgを使って人だけを抽出しますが、rembgを直に実行することはできない。そこをwebアプリ側に置いて、DALL-Eが作った旅画像を再加工するとして、どうやったらDALL-Eの画像を現在のActionsで送ることが出来るのか。試しにスキーマを書いてみてrawデータやbase64で送れないか試したが、何か内部タグみたいな文字列が出るだけで画像データは外部には出せなさそう。。
どうやら似たようなことを試した人がいるみたいだがまだ解決がないみたい。
https://community.openai.com/t/gtps-action-send-dalle-image/499258
https://community.openai.com/t/custom-gpts-is-it-possible-to-pass-dall-e-urls-with-actions/493184
この段階で触った感触も含めて考えると「どうもGPTsで旅botを作るのは時期尚早かな。。」という結論に達して、しばらくGPTsは放置してました。
GPTsの試作品と割り切って陰陽師を作ってみる
このままではChatGPT Plusにわざわざ課金したのがもったいないので、GPTsで何か作ってみようと思って、きっかけ2を思い出して、最新技術を触るいみで陰陽師AIというエンタメ系GPTsを作ってみた訳です。
陰陽師GPTsでも結構厳しいところがあった
GPTsで本格アドベンチャー/RPGを作ろうとしている人達が沢山いるので、霊媒師/陰陽師がいいそうなことはおそらくGPTsで言わせることは出来るかなと。
考えないといけない部分は以下の部分。でもどれもChatGPT4/DALL-E内でなんとかなりそうなので作れそうかなと考えました。
画像をアップロードしてもらう
アップロードした画像に何が写っているか評価する
アップロードした画像に人影を追加する
怪談的な生い立ち話を生成してもらう
https://platform.openai.com/docs/guides/images/edits-dall-e-2-only
人影の追加の部分は、DALL-E2のimage to image変換での inpaint(与えた画像の一部のみにAI画像合成する)を使えばよいのではないかと思ったのですがいくつかプロンプトを試してみたところ、どうしても入力イメージの全体画像が変換されてしまう。
これは陰陽師AIとしては結構厳しい話です。。「ここに霊がいますよ」と指図するならやはり「元の写真はほぼそのままに一部だけ怪しい影」が出ているという絵が欲しいところ。。
仕方ないので、スピリチャル番組の霊視者が遠隔霊視でやる「イラストを描いて『こういう絵が見えたんです』と手描き絵を差し出す」みたいなスタイルにすることにしました。。
陰陽師AIのInstructions全文
ざっくりと半日で作ったものです。よく言われている抽出防止も入れていません。参考にして何かもっと面白いものを作っていただければよいかと。
自分的にはGPTsはまだ惜しい
現時点のGPTsは制限が多すぎるので自分の用途としては微妙です。APIを使って他の使い慣れたコンポーネントを組み合わせたほうがいろいろできますし。
セキュリティ/プライバシー/安定動作/システム負荷などを考えると画像の送受信ができないとかURLが丸見えとかは分からないではなく、判断が難しい問題があると思うのです。
でもcommnity.openaiなどでOpenAIがそれらの問題は認識していると思うので何らかの解決を考えているとは思います。問題が解決したら旅botをGPTsで作れるかもしれませんし。
GPTs同士を組み合わせて会話して問題解決とか出来たら面白いと思うのでまだ大きく化けるのかもしれませんし。
作っていて他の方のGPTsもいくつか参考に見ていて、ふと思い出したのは1980年頃の第五世代コンピュータとか言ってた頃によくあったプロダクションシステムです。
AIやコンピュータ専門の人以外の人が自分の専門分野の知識だけを投入して知識を共有するというのは当時のプロダクションシステムの狙いそのものです(まぁ結果はご覧の通りですが)。
おそらくその頃プロダクションシステムを作っていた人は本当はGPTsみたいなものを作りたかったのだろうなと。
GPTsに感じたそこはかとない不安(2023/12/04追記)
「GPTsが第五世代コンピュータ頃のエキスパートシステム/プロダクションシステムに似ている」と書いた段階でふと思い出したのです。
この手のシステムがまったく回らなくなった問題の一つに「知識の更新が困難/知識の更新コストが爆発的に膨れる」があり、GPTsもうっかりすると似た問題が起きるかもとちょっと感じました。。
GPT-5~Xが出たとして、このinstructionsをそのままGPT-Xに読み込ませて同じ陰陽師がやれるのか? 他社がGPT-X同等という製品を出してinstructionsを読み込ませて同じ陰陽師がやれるのか? 陰陽師に新しい技(声を聴いて霊視とか?)を追加とか既存の技のルールの変更(生き霊を呼び出しとか)は難しくならないか、膨大に追加技を入れ始めたら辻褄が合わなくなってこないか? ルールが矛盾しだしたらAIは嘘を言い始めないか? 逆に膨大なルールに矛盾が一つでもあったら動かなくなったりしないか(自分は矛盾があっても動くのがAIの利点だと思っている)
GPTの問題ではなく「人の作るドキュメント」の問題かもしれません。
今はCPUパワー/リソース/開発知見がまったく違うし、AIがAIのinstructionsを保守していけるので杞憂かもしれません。
GPT/昨今のAIを見ても「知識の更新のコストは本当に適正か?」という問いはまだこれからと思います。
この記事が気に入ったらサポートをしてみませんか?