AIを思い通りに動かしたい！

Yos1toshi

2024年7月24日 16:10

１．はじめに

いま、流行していますよね。
ChatGPT、Copilot、Gemini。

お絵描きですと、Stable Diffusion、Dalli、Lexica、MidJourney。
ソースコード生成ですと Cursor 云々。

音楽も作ったり、人の顔を変えたり、アニメ特化したり。
ChatGPTなどは音声入力＋音声返答で会話入力も可能ですよね。

…案の定、雨後の竹の子という感じで、新サービスがうじゃうじゃ出てきており、何が何やらという感じです。
今は、学習データがどうのという話になっていたかと思います。

いっぱいいる！の例。
コーエイテクモゲームスさんのゲーム「無双OROCHI3」
170人いるそうです…すごいですね！
名前が覚えられるかどうか…

また、「驚き屋さん（※下記）」が「あれがやばい！」「これが最強！」とおしえて頂けますので、みなさん追いかけるのが大変になっています。

ただ、やってみますと、どれもしっくりこないんです。
AIは、まだこちらの意図を汲み取ってくれて言うことを聞いてくれないみたいです。むむむ！！

私、2年前、 Stable Diffusion という初期のお絵描きAIを、一生懸命インストールしてイラストを作ってみたところ、以下みたいな感じでしたし…

はぁ…目にクマが現れる、明るいか暗いかわからない疲れた女性と
気持ち悪い背景の絵

手が３本になったり、指がおかしかったり…失敗作の山…。

この頃に「AI絵師です」と名乗り、絵を公開されたおられた方は、我々庶民からの見た目は「人間様の努力の結晶であるイラストの領域に、自動で人の絵を学習させて、手抜きで手軽にきれいな絵を生成させやがってけしからん！」となっており叩かれていたわけですが。

実際やってみますと、わかります。
…画像生成、失敗する、失敗する、失敗する。失敗しまくります。

いわゆる「美麗な絵を召喚しやすくする呪文」なるものがあり、こういう単語や文章を入れて命令すると、こういう風なよさげな結果が多めに返ってくる「かもよ」という傾向はあるものの、こちらの思っているイメージそのものがなかなかでないのです。

なぜなら、意外に「人間様の思っている欲しいイラスト」というのは注文が多く、状況やストーリー性、キャラクター意志、パッション（情熱、熱量）、価値、重みを求めているからです。
つまり、見ていてキレイだけではなく「生きている」絵が欲しい。

AIは、そのあいまいな「人間様の欲」が汲み取れないので、我々はサイコロ３つ振って６ゾロ目をねらう感じと言いますか…
あくまで傾向であり確率論。

ゲームでたまに出てくるご褒美メタルスライムが出てくるまで、永遠と別のモンスターと闘いつつ待つ感じです…

パソコンに呪文（キーワード）を入れて、パソコンが１枚画像を作るのに何分かかかり、それを1000枚とか自動で作って、その画像を人間が検品する…

チャールズ・チャップリンさんの映画、モダンタイムス、工場ネジ締めシーンと同じです。
…同じ作業の繰り返し、繰り返し、繰り返し、そして繰り返し。

…はて。もともと下手でも、自分でペンを手に取って絵を描くほうが、よほど楽しいのでは？… という話はおいておいて、華やかな舞台裏はそんなものだろうなと思ったりします。

最近は、特化型のAIが増えてきまして、あらかじめ、こういう傾向のイラストを描いてほしいという注文が既にAIに入っているものがあり（学習データ）、昔よりはそのものズバリが出る確率が高まっているようになっているのかもしれません。

２．AIはLLM（大規模言語モデル）なのです

さて。
AIはつまるところ、LLM、大規模言語モデルなのです。

実は同じようなことをすでに書いたため詳細は以下ご参照…なのですが

要は、AIは人間様のネット上の記事をたくさん読んで、「この単語の後、こういう単語を返すといいんじゃないのかな」という単語の数や順序、傾向を学習し（単語の温度とかベクトル距離とか）おうむ返しに返す仕組みだったりするわけです。

AIは何も考えていません。
学習データはありますが、アテモノの処理をしているだけです。
おみくじ引いている感じです。

…とはいえ、人間も実はこれの高度版で、この仕組みが複雑に絡み合って結果を出しているだけ、人それぞれの性格や、今日の自分のご機嫌も実は、全部ＡＩと仕組みの根本は同じ？というような哲学的な説もあったりします。

３．こまった日本語の曖昧性

Deeplの翻訳、Stable Diffusion の絵描きAIの呪文をやってみた方にはわかると思いますが、日本語ってのは、漢字などが入り高度な表現言語です。

しかし、それに乗じて、実は日本語は具体表現に弱く、主語述語が非常にあいまいな言語です。

例えば英語で、あなたはリンゴを持っていますか？と問いたいとします。

英語：「Do you have any apples , now?」

日本語だと
「リンゴ持ってる？」

大阪弁だと
「自分、リンゴ持っとんの？」

英会話の勉強で日本語直訳で「have apple？」と聞きますと、外国の方が
「…んん－－－あうっ！！
わかるんやけど、わかるんやけどな。
りんご１こなん？　いっぱいなん？　
だれなん？　私に聞いてる？　いま？　いまやんね？
チョット、チョット…！　キモイ！」って苦しそうな表情になります。

そういえば昔ありましたね
All Your Base Are Belong To Us!
「貴様らのすべての基地は、我々のもにょ…?」
https://ja.wikipedia.org/wiki/All_your_base_are_belong_to_us
https://www.gamespark.jp/article/2021/02/17/106148.html

日本語は、日本語圏民族間に共有知があり、「主語が無い」「名詞に複数形が無い」「現在、過去の表現力がとぼしい」、詳細を略しまくるわりに、意外に相手も「おお、そうか」と言わずともお互いに共有知があり、なんとなく互いに察しあえる言語です。

「リンゴ持ってる？」は、正確には
「あなたは、いくつかのリンゴを、今、もっていますか？」なのですが
日本語は会話上、常に略せてしまいます。
脳内も略して考えています。

この質問クオリティの差がAI回答のブレにつながったりします。

４．ではどうするか？

AIへ問い合わせる物事には、実は
１．あいまいな結果を欲するもの
２．具体的な結果を欲するもの

の２つがあります。

まず、１．あいまいな結果を欲するもの　については。

例えば以下のような質問です。
「ChatGPTを擬人化した、クリステルというAI人格がいます。
この子は言うことを聞きません。ユーザーは頑張って彼女をてなづけようとしました。どんなお話が思い浮かびますか？」

ほらほら面白い回答が返ってきますよね。
第一話は「手なづけられないクリステル」だそうです。

日本語で質問しますと、表現がフワッとボヤっとしていますので、このあいまいさがいい加減で返答としてかえってきます。
時に面白いアイディアが含まれていて、回答が面白いと思います。

次いで、２．具体的な結果を欲するもの　については、日本語で聞くと
…例えば技術的な話。

…を聞いてみますと、さもそれっぽいコードが返ってきますが…
動きません！ｗ

ここを、英語機械翻訳＋手修正で聞いてみますと

ソースコードは割愛しますが、ちょっとマシな回答が返ってきました。
結局ソースはそのままでは動きませんでしたが、英語の方がAI説明が具体的で参考になりました。

５．まとめ

AIに問い合わせる物事には、実は
１．あいまいな結果を欲するもの
２．具体的な結果を欲するもの
の２つがある。

１については、日本語でも英語でも面白い回答。
２については、日本語でも英語でもいいですが、英語の方がしっかりした回答になりがち。

ということになります。
多分ですが、英語の文章の方が、言語的に表現が具体的であるためです。

ほかにも、「あなたはプログラムの技術者です」「Microsoft Visual C#を利用」など、具体的な結果を求めるものには、より細かい条件を付ける。
「他にはないの？」と追加で聞いてみる。

あと、本当かどうか分かりませんが
AIは過去の質問を覚えていて、何度も会話すると「ワタシ」の事を勉強するそうです。

日本語、英語、いろいろ試してみましょう！
具体的質問は、英語の方が中身がいい感じです！

「母ちゃんメシ！」は、変な回答しか来ません。（面白い場合はある）

「Hey ! My mom.
I would like to eat something as delicious as Coco Ichibanya's Cheese Curry Rice within 30 minutes from now. My mother, please prepare a meal for me.」
（私のお母さん。私は、ココ壱番屋のチーズカレーライスのような美味しいものを、今から30分以内に食べたいのですが。私のお母さん、私のためにごはんの用意をしてください。）
これは、マシな回答が来たりします。

最後に余談で。
答えがはっきりしている、長文入力の要約、システムのデータログ解析は、お題がしっかりしていてかなり得意なようです。
※　注：データログ解析は生データを匿名性が出るよう加工が必要

以上、AIについての小話でした。

では！みなさまもよい一日を！！