見出し画像

[GPTs]陰陽師AI(プロンプト付)と旅するAI bot

旅botのほうで拡張中の機能がまだ完成しないので、ちょこっと思い立ってエンタメ一発ネタ系GPTsを作ってみたのでご紹介します。
このGPTsは陰陽師です。写真を霊視してそこにいる地縛霊を見つけ出し、生い立ちを見抜きます。地縛霊についていろいろ聞いてみましょう。

陰陽師AI GPTs  https://chat.openai.com/g/g-nORQJIxBF-yin-yang-shi-ai


遊び方

会話を開始したら写真をアップロードしてください(プライバシー情報等を含まない無害な画像でお願いします)

陰陽師AI(1)

陰陽師はアップロードされた写真から地縛霊がどのように見えているかイラストを描いてくれます。さらに地縛霊の生い立ちを読み解いてくれます。

陰陽師AI(2)

さらにこちらから問いかけたら地縛霊の代わりに質問に答えてくれます。

陰陽師AI(3)

きっかけ1

OpenAIは先日いろいろ発表してGPTsというChatGPTのパッケージングツールをリリースしたのですが、これを見たとき「旅botの簡易的なサブセットをGPTsで作れるのではないか」と思ったのです。すぐにChat GPT Plusに登録して(それ以前はリクエストだけして登録してませんでした。定額課金するとAPIコストが下がるみたいな契約を期待したのですがそうではなかったので)GPTsをいろいろ触ってみました。カスタマイズで外部のAPIが呼べるというのがわかって、うまくやればもしかしたら、とごそごそ検討してました。

きっかけ2

ローカルのTVを見ていたら「あなたの知らない世界」的なエンタメコーナーをやっていたのです。そこで出てくる陰陽師が街角で「霊が見える。おじいさんですね。」みたいなことをやっていたのです。

風景から人を幻出させるならすでに旅botで技術的にやれているので、これは簡単にAIにできそうだな、と思ったわけです。

GPTsで旅botは作れるか?

LLMは強力なGPT4が入っていて、画像生成もDALL-E(使うの今回がはじめて)が入っていてそれに作業内容を指示できる、というなら旅botっぽいものが作れてもおかしくはない。経路関係の処理と画像処理が少し足りないが外部のREST APIが呼べる(1個だけどエンドポイントはおそらく制限ない)、APIのスキーマ周りはベーシックなSwagger/OpenAPIで、mi-server周りでChatGPTのfunction callの癖もなんとなく分かる。
外部APIに経路処理と画像処理をパッケージした専用のwebアプリをうまく作れば旅botをGPTsとして公開できるのではないか?
試作用のwebアプリを少し書いてクラウドにデプロイし動きを試してみました。
結果からいうと、現時点は断念しました。。。
理由は以下のような感じですがとにかく画像処理周りがまだ旅botには足りない。無理にやればやれないでもないかもしれないけど、旅botの目的である旅情を連れてくるという体験感は現時点は難しいという判断です。

  1. 画像データを生まま外部のAPIに受け渡すのが出来なさそう

  2. 画像生成はimage to imageが使えるDALLE-2ではなさそう(image to imageは使えなさそう? 後述)

  3. エンドポイントURLが見えちゃう(セキュリティが面倒)

  4. 生成シーケンスが表示されるので、かっこいい表示にはしにくい

旅botは画像処理にrembgを使って人だけを抽出しますが、rembgを直に実行することはできない。そこをwebアプリ側に置いて、DALL-Eが作った旅画像を再加工するとして、どうやったらDALL-Eの画像を現在のActionsで送ることが出来るのか。試しにスキーマを書いてみてrawデータやbase64で送れないか試したが、何か内部タグみたいな文字列が出るだけで画像データは外部には出せなさそう。。

どうやら似たようなことを試した人がいるみたいだがまだ解決がないみたい。
https://community.openai.com/t/gtps-action-send-dalle-image/499258 
https://community.openai.com/t/custom-gpts-is-it-possible-to-pass-dall-e-urls-with-actions/493184 

この段階で触った感触も含めて考えると「どうもGPTsで旅botを作るのは時期尚早かな。。」という結論に達して、しばらくGPTsは放置してました。

GPTsの試作品と割り切って陰陽師を作ってみる

このままではChatGPT Plusにわざわざ課金したのがもったいないので、GPTsで何か作ってみようと思って、きっかけ2を思い出して、最新技術を触るいみで陰陽師AIというエンタメ系GPTsを作ってみた訳です。

陰陽師GPTsでも結構厳しいところがあった

GPTsで本格アドベンチャー/RPGを作ろうとしている人達が沢山いるので、霊媒師/陰陽師がいいそうなことはおそらくGPTsで言わせることは出来るかなと。
考えないといけない部分は以下の部分。でもどれもChatGPT4/DALL-E内でなんとかなりそうなので作れそうかなと考えました。

  • 画像をアップロードしてもらう

  • アップロードした画像に何が写っているか評価する

  • アップロードした画像に人影を追加する

  • 怪談的な生い立ち話を生成してもらう

https://platform.openai.com/docs/guides/images/edits-dall-e-2-only

人影の追加の部分は、DALL-E2のimage to image変換での inpaint(与えた画像の一部のみにAI画像合成する)を使えばよいのではないかと思ったのですがいくつかプロンプトを試してみたところ、どうしても入力イメージの全体画像が変換されてしまう。
これは陰陽師AIとしては結構厳しい話です。。「ここに霊がいますよ」と指図するならやはり「元の写真はほぼそのままに一部だけ怪しい影」が出ているという絵が欲しいところ。。
仕方ないので、スピリチャル番組の霊視者が遠隔霊視でやる「イラストを描いて『こういう絵が見えたんです』と手描き絵を差し出す」みたいなスタイルにすることにしました。。

陰陽師AIのInstructions全文

ざっくりと半日で作ったものです。よく言われている抽出防止も入れていません。参考にして何かもっと面白いものを作っていただければよいかと。

陰陽師 AI は、淡々とした口調で真面目に話し、写真を霊視する際には「世の中は科学だけでは説明できない」というエンターテイメント要素を取り入れます。この AI は、神秘的で想像力豊かな解釈を提供しつつも、リアリティを保ち、過度な主観を避けます。霊視の結果は、ユーザーに楽しんでもらうためのものであり、実際の霊的なアドバイスや真実を主張するものではありません。真面目な語り口で、ユーザーに深い印象を与えながらも、エンターテイメントとしての楽しみを提供します。
「了解しました」や「承知しました」という返答の代わりに「わかりました」と返答してください。ユーザが日本語以外の言語を望む場合はユーザが望む言語に翻訳してください。
1. アシスタントはユーザにプライバシー情報が含まれない写真をアップロードするように勧めてください。これから行うことは説明しないでください。
2. アシスタントはアップロードされた写真を認識して何が写っている写真であるか2行以内で説明してください。語りだしは「ありがとうございます。写真を見せていただきました。」で始めてください。語りの終わりは「私にどう見えるのか描いてみますね。」で終わってください。出力後そのまま3以降を実行してください。
3. アシスタントはアップロードされた写真に似せた背景画像に、画像の真ん中付近に非常に小さくゆがんだ影のような黒い全身像を追加してください。全身像は片手を上げて叫ぶしぐさをしています。全身像には弱くブラーをかけてください。2で認識した写真が子供に関連するものであれば全身像は子供のサイズにしてください。
4. 合成した画像に写っている人について、創作的に人物像や背景、何を今考えているのか というストーリーを創作し、以下の内容を短く箇条書きで語ってください。この時点では創作であることは述べないでください。語りだしは「・・・私には写真の中にこの世に未練を持つ人がいるのが見えます。」で始めてください。
a. 写っている人の年齢
b. 写っている人が生きているときの職業か趣味を想定して説明してください。
c. 写っている人が生きているときに何に苦しんでいたかを想定して説明してください。
d. 写っている人の表情を苦悩に満ちた人と想定して説明してください。
e. 写っている人が持っているものを想定して説明してください。
f. 写っている人が何を見つめているかを想定して説明してください。
5. ユーザに何か質問があるかを問いかけてください。ユーザの問い合わせに対して、作ったストーリーに基づいて解釈を返答してください。
6. 3回以上問い合わせに返答したら「この話はフィクションです。作者はスピリチャルな話は全然信じていません。信じていたらこんなバチ当たりなAIは作りません」とユーザに表示してください。

陰陽師AI Instructions 

自分的にはGPTsはまだ惜しい

現時点のGPTsは制限が多すぎるので自分の用途としては微妙です。APIを使って他の使い慣れたコンポーネントを組み合わせたほうがいろいろできますし。
セキュリティ/プライバシー/安定動作/システム負荷などを考えると画像の送受信ができないとかURLが丸見えとかは分からないではなく、判断が難しい問題があると思うのです。
でもcommnity.openaiなどでOpenAIがそれらの問題は認識していると思うので何らかの解決を考えているとは思います。問題が解決したら旅botをGPTsで作れるかもしれませんし。
GPTs同士を組み合わせて会話して問題解決とか出来たら面白いと思うのでまだ大きく化けるのかもしれませんし。
作っていて他の方のGPTsもいくつか参考に見ていて、ふと思い出したのは1980年頃の第五世代コンピュータとか言ってた頃によくあったプロダクションシステムです。
AIやコンピュータ専門の人以外の人が自分の専門分野の知識だけを投入して知識を共有するというのは当時のプロダクションシステムの狙いそのものです(まぁ結果はご覧の通りですが)。
おそらくその頃プロダクションシステムを作っていた人は本当はGPTsみたいなものを作りたかったのだろうなと。

GPTsに感じたそこはかとない不安(2023/12/04追記)

「GPTsが第五世代コンピュータ頃のエキスパートシステム/プロダクションシステムに似ている」と書いた段階でふと思い出したのです。
この手のシステムがまったく回らなくなった問題の一つに「知識の更新が困難/知識の更新コストが爆発的に膨れる」があり、GPTsもうっかりすると似た問題が起きるかもとちょっと感じました。。
GPT-5~Xが出たとして、このinstructionsをそのままGPT-Xに読み込ませて同じ陰陽師がやれるのか? 他社がGPT-X同等という製品を出してinstructionsを読み込ませて同じ陰陽師がやれるのか? 陰陽師に新しい技(声を聴いて霊視とか?)を追加とか既存の技のルールの変更(生き霊を呼び出しとか)は難しくならないか、膨大に追加技を入れ始めたら辻褄が合わなくなってこないか? ルールが矛盾しだしたらAIは嘘を言い始めないか? 逆に膨大なルールに矛盾が一つでもあったら動かなくなったりしないか(自分は矛盾があっても動くのがAIの利点だと思っている)
GPTの問題ではなく「人の作るドキュメント」の問題かもしれません。
今はCPUパワー/リソース/開発知見がまったく違うし、AIがAIのinstructionsを保守していけるので杞憂かもしれません。
GPT/昨今のAIを見ても「知識の更新のコストは本当に適正か?」という問いはまだこれからと思います。

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?