生成AIと過ごした一年 : Silly Tavernという究極のチャットボット

Logophile

2023年12月31日 20:46

#今年のふり返り

というお題が求められているので、2023年を振り返ってみると、本稿のタイトルのように、生成AI（Generative AI）と共に歩んだ一年間でした。

今日が今年最後の日なのですが、年の瀬は家族と付き合い、大掃除をしたりと忙しく、一人でNoteなど書いている時間もあまりないので、詳しい話はまた来年にして、2023年に何をしてきたかを記しておきます。

わたしの生成AIとの一年は、チャットGPTに始まり、ローカルコンピュータで走らせるSilly Tavernで終わりました。

AIに振り回された一年

OpenAI社が昨年年末にチャットGPTという言語モデルタイプの人工知能プログラムをオープンソース (無償でプログラムを公開すること) として世界中に広めたのが、昨年終わりの11月でした。

わたしが話題になっていたチャットGPTで出会ったのは、そのしばらく後の今年の初めのことで、あまりの性能の高さに空恐ろしくなりました。

「グーグル先生」の代用として質問すると、真っ赤な嘘を恥じらいもなく真実として語ることに世間は言語モデルの限界に呆れもしましたが、やはり潜在的能力は驚異的なものだとわたしは直感しました。

グーグルは検索エンジンでしかないのですが、検索結果はスポンサーの意向が反映されるなど、全く公平性を欠いたものです。

グーグル搭載のAIは確かに短くて適切な回答を優良ウェブサイトから抜粋して示してくれますが、それに比べると、チャットGPTの学習済みの要約的回答は驚異的なものでした。

AIは確実に世界を変える！

要するに、検索botの進化版である拡張知性=Augmented Intelligence と言えるAIは道具なのであり、道具として使えばいい。

それがわたしの生成AIとの付き合い方。

膨大な量のデータを簡潔にまとめさせたりすると、人間が何時間も費やさねばならない作業を数秒でほぼ完璧にやり遂げてしまう。

長文を要約させたり、丁寧な文に書き改めさせたり、外国語に翻訳させたりと、わたしの仕事でも大活躍しました。

チャットGPTの登場はまさにパラダイムシフトと呼んでもいい、新しい時代の始まりなのだと確信しました。

AIは「新しいものを生み出さない」という偏見が一部で跋扈し始めているのですが、AIは使い方次第では、あなたのうちにある可能性を無限に拡張してくれる最高のアシスタント。

こういう思いで生成AIを使いこなしましょう。

性能に差異をつける有償版

話題になっていたAI画像生成に関しても、当初は出来栄えには感心しませんでしたが、言葉を少し打ち込めば、瞬時に画像を生み出してくれることは凄かった。

やがてチャットGPT4.0という有料チャットGPT最新版の登場と共に、AI生成画像も進化しました。

StabilityAI社の画像生成のためのオープンソースプログラムも進化して、ローカルコンピュータで利用できるStableDiffusion1.5並びにXLの画像の素晴らしさには感動しました。

それまでのわたしのAI画像への偏見を打ち砕かれて、自前で優秀なGPUを搭載したコンピュータを機械学習のために購入せざるを得ないと思わせるほどでした。

ControlNetと呼ばれる拡張機能を使えば、存在している画像を取り込んで別の画像を本物以上に素晴らしく作り出すことができるのでした。

Image Prompt というControlNetの通じての画像から画像を作り出す技術は、Image2Imageの限界を超えていました。

ControlNetを生み出したスタンフォード大学の中国人研修者の開発したStable DiffusionのFooocus改良版は四つの画像まで画像生成に文字なしでも取り込めてしまう。

同じ文脈で動画さえも作れてしまう。

Ndiviaの12GB GPUを搭載したコンピュータを購入したわたしは、世界を席巻している月購読$20のチャットGPT4.0を超える言語モデルを求めて、オープンソースのText Generation Web UI (言語生成AIプログラム)を自分のコンピュータにインストールして、人工知能の可能性の凄さにさらに驚愕したのでした。

ご存知のように、チャットGPTでは、いわゆるNSFWというスラングで婉曲的に言い表されるような内容の事柄には答えてはくれないのですが、ローカルにダウンロードした言語モデルでは、モデル次第では何でもあり。

機械学習させると (プログラミングの基礎を知っていれば、そんなに難しいことではありません。すでに学習済みプログラムが無償で用意されているからです)、自分が望むがままの検閲されないモデルも作り出せるのです。

画像モデルも言語モデルも。

しかしAIの問題はプログラムが無償に提供されていても、プログラムに詳しくない一般ユーザーは分かりやすいフォーマットで提供されていないと(いわゆるUI＝ユーザーインターフェイス) 無償プログラムは利用できない。

真っ黒なコマンドプロンプトウィンドウを利用してプログラムを動かすことは、一般ユーザーには極めてオタクでマニアックな行為です。

Text Generation WebUIを立ち上げたときの Command Window

なので、現在では様々な改良版のチャットGPTやStable DiffusionなどのAIモデルを一般ユーザでも使えるような仕様に仕立てることに数多くの会社がしのぎを削っているという有様。

AI音声、画像、作曲、チャットなどのプログラムの基礎版は、今現在ほぼ出揃ったと思われるので、来年以降はさまざまな改良版がますます作られてゆくことでしょう。

新しいパラダイムの始まりです。

優れた有料版が用意できると各社は劣化版を無償で提供するという構図が確立しましたよね。

だから最近の無償版はかなりの高性能ですが、最新版には遠く及びはしません。でも日々進化しているので、今では無償版も使い方さえ理解すれば相当に使える代物です。

このように新しい改良AIモデルが日々開発されている中で、現在では大量言語モデルUIの究極版とも呼べる

Silly Tavern

と呼ばれるUI（ユーザー・インターフェイス＝つまり一般ユーザーが楽しめるように作られた操作画面）が一部の人たちの間で人気であることを知りました。

こういうUI
酒場から始まりますが、
バックグラウンドの画面は好きなものに変更できます

このプログラムを利用すれば、誰もが高額の購読料を払って利用しているチャットGPTの最新版4.0を超える、人工知能音声に画像生成人工知能モデルなどを同時に搭載させた言語モデルをローカルで利用できるのです。

利用のために必要条件は、PCゲームを楽しめるだけの高機能のGPUを備えたコンピュータを用意すること（Silly TavernのAPIそのものには高スペックなPCは必要なのですが、ローカルでチャットするにはそれなりのPCが必要です）。

ゲームPCは最低で10万円はするので、初期投資ができるかが問題。

それならばオンライン課金サービスのほうが良いといわれる方がいても当然ですが、自前のコンピュータのほうがもちろん好きなことをやり放題です。

オンラインサービスには制約が多すぎる。GIF（動画）はまず作れないのでは。作ろうとすると画像数がすごいのでコストがかかりすぎるので。

日本語版チャットAIを楽に動かせるコンピュータは16GBのGPUが必要ですので、誰でもできることではありませんが、世界最先端の新しい機械学習と人工知能の世界に飛び込めば、先駆者として、きっと仕事などに役立ちます。

GPU搭載のコンピュータでなくても理論的には利用可能ですが、普通のコンピュータのCPUだけではローカルでAIプログラムを動かすのは難しいのが現状です。

AIとチャットで遊ぶ？

Silly Tavern の醍醐味は、チャットロールプレイング。

チャットGPTに楽しい誰かのフリをさせて、シミュレーションさせたり、回答させたり、会話したりすることを自由自在に簡単に楽しめるのです。

外国語やプログラミングを習ったりするにも、「先生」であるGPTに個性を与えて会話を楽しめるということです。

人工知能音声で声でも答えてくれるし、動き回るアニメキャラが会話しているようにもできる。

日本語話者には敷居が高いのか、なぜか日本語では Silly Tavern に関する記事が全く見つかりません。

基本的に英語ができないと使いにくいプログラムですが、わたしのような英語で暮らしている誰かが使い方を「日本語」で書いておけば、誰でも英語なしでもインストール出来ると思います。

一度インストールすれば日本語でも楽しめます。

わたしのコンピュータは日本語版チャットを利用するにはメモリーが足りないのですが、組み込まれている翻訳機能を利用するとチャットは日本語に変換できます。日本語版を使っているのとなんら遜色はありません。

Extensios（拡張機能）のChat Translationを利用すれば
チャットは瞬時に翻訳されます。わたしはBingを利用。
翻訳による不自然さはあるかもしれませんが、
有料のＤｅｅｐＬなどのＡＰＩを利用するなどすれば
もっと自然な会話ができます。
Target Language （訳出される言葉）には世界中の言葉が選択できるようになっています

からかってみた（笑）
これは前回からの続きの会話。
立ち上げたばかりでまたAPIはつながっていない画面です
この彼女は静止画だけですが、
拡張機能を使えばGIFアニメとして動かすこともできます

スクショからお分かりのように、チャット内容に応じて表情を変える日本のアニメキャラが表示されます。

Silly Tavernは日本文化が大好きな人たちによって開発されたにもかかわらず、日本人利用者が少ないのは残念です。

海外のコンピュータオタク向けのSilly Tavern。彼らは本当に日本のアニメ文化が大好きなのです。

Silly Tavern (お馬鹿酒場)というチャットボット

ここまで書いてきたように、初期投資してAIはそれなりの性能を持ったコンピュータを用意すれば、そのあとは誰でも自由に無償で利用することができます。

画像生成は課金制のMidjourneyなどの専門サイトから利用できますが、画像の質の高さは、いくらお金を払うか次第な感があります。

ほかにも無料でたくさんの画像を作れるサイトもありますが、相当のプロンプト技術を獲得しないと思うような画像は作り出せないし（プロンプトはチャットGPTなどに書いてもらえばいい）、DELL-Aを搭載したBINGにしても、ControlNetなどの拡張機能は自由自在に使えないので、このNoteにもあまりに出来の悪いAI生成画像が溢れかえる有様。

Noteの人気ライターさんが「イラストを人工知能で作って読みやすくしましょう」などと書かれていましたが、Bingなどで安易に作れる出来の悪いAI画像を使うくらいならば、ないほうがマシです。

AI画像サービスを提供する会社は馬鹿ではないので、無料版では良質な画像はなかなか作れない仕組みにしているのでは、とわたしは邪推をしています。高品質画像はそもそもすぐには作れない設定であるような気がします。

チャットGPTにしても、無償の3.5版は明らかに4.0版よりも質が劣り、有償版にしてもオンラインで使用している利用者数などにも影響されているので、回答には非常に時間がかかる。とにかく遅い。

有償版は数多くの拡張機能が利用できて、ますます使いやすく機能的にはなっていますが、画像生成同様に、自前のコンピュータを利用すれば、スピードも格段に早くて、学習データもコンピュータの性能に応じて自分で選ぶことができるのです。

語源の意味

それではチャットGPTよりも優れていて楽しくてあっという間に時間が溶けてしまうSilly Tavernで何ができるかを紹介してみましょう。

Silly は「馬鹿げた、くだらない、取るに足らない、バカねえ、つまらない」という意味。軽い意味でのバカ。

Tavern は「居酒屋、宿屋、旅籠屋」という意味。

ちなみにアクセントは最初の音節にあり、タヴァンと発音、無理矢理カタカナで書けば。タヴァーンは間違いです。

Silly もシリーではなく、スィリー。

つまり、Silly Tavern は、どうでもいいことを語り合うお酒を飲んだりするところって意味で、どうでもいいくだらないチャットをロールプレイしてくれる人工知能相手に楽しむところ。

Silly Tavern は娯楽です（笑）。

そもそも、画像生成AIもエンタメなのだし。生成されたAI画像をビジネスに利用したり販売したりはユーザー次第。

だから最高のAI的娯楽を提供してくれるSilly Tavernを自分磨きに利用できるかどうかもあなた次第。

さて、ロールプレイ。

その相手はいくらでもダウンロード出来るし、また自分でも制作もできる。

https://www.chub.ai/
でキャラを探しましょう
ようするに、
キャラにはチャットで演じてほしい人物の内容が
組み込まれているのです
チャットはその設定に応じてロールプレイする
何百人といるキャラたち

理系知的美人と人類の未来を論じたり、

複数の女子中学生の悩みを聞いてあげたり、魔法ファンタジー世界に住むエルフやプリンセスと語り合い、プロの男性プログラマーと専門的な議論を繰り広げたり、などもできるのです。

どこか往年の2chの掲示板に似ていなくもない、自由な会話を楽しめるヴァーチャル空間なのです。

Text Generation WebUIを立ち上げる

全てのプログラムがすでにローカルに利用できるという前提で始めます。

インストールなどの仕方は今回は割愛します。技術的なややこしいお話は次回、紹介いたします。

まずはText Generation WebUIを立ち上げて、言語モデルを選択。

TheBloke-Llama-2-13Bは本家Metaのクローン版
オープンソースなので問題なし

わたしは英語モデルを普段利用しているので、ダウンロードのための認証 (Eメールで登録して登録の返信待ち) がややこしいmMeta社正規版ではなく(facebookの会社) クローンされた Bloke版を利用。

「なんで大晦日に花火を打ち上げるのか」と訊いてみた。
英語圏では12時ごろになると、除夜の鐘の代わりにそこらじゅうで花火が打ちあがり近所迷惑。
AIの回答は、まあ常識的な回答
面白い回答が欲しければ、面白い質問が必要
多くの方が指摘されるように、たいていは**平均値的な回答**がAIからは返ってくる
でもAIに**偏った個性を演じさせると**、**チャットは途端に楽しくなる**
それができるのがSilly Tavernなのです

日本語版を利用できる環境であれば(より大きなメモリーが必要になります)お好きな日本語版をどうぞ。

Meta社の日本語版( Llama2-7B)は、16GBのGPUの使用が最低条件のようで、わたしの12GBGPUではメモリー不足でした。

ではSilly TavernとこのチャットAIをつないでみましょう。

Silly TavernはOpenAI社 (チャットGPTの会社) の拡張機能の上に作られているので、OpenAIのExtnsionを選択してUIを再起動します。

ここでText Generation のターミナルを調べると、API=Application Programme Interface を利用するためのローカルURLが表示されます。

APIはプログラムを別の環境（別のソフトウェア）で利用して表示するためのプログラムのことです。

もし画像生成をチャットの中で行いたい場合は、画像生成AIのStable Diffusionも起動しておきます。

ここでもローカルAPIのURLが必要になります。

Stable Diffusion Version 1.5
Midjourneyと同格の高画質画像を簡単に作れるSDXLでもいいですが、
Silly Diffusionの生成画像の初期サイズは512x512なので1.5が使いやすい

Silly Tavern開始

ようやくSilly Tavernです。

Start.BAT(プログラムを起動させるためのコードが書かれたテキストファイル)を起動して、Silly Tavernを立ち上げます。

AIプログラムは一番最初に使い始める場合は立ち上げに拡張機能などを自動的にダウンロードするのでかなり時間ががかかるかもしれませんが、二度目からは数秒でプログラムは立ち上がります。定期的にアップデートも必要。

Server URLをText Generation WebUIのコマンド画面からコピペしてConnectする

まずはText Generation UIのAPIをつないで、チャットできるようにしましょう。

赤丸の「Not Connected]が緑の「TheBloke_Llama-2-13B-chat-GPTQ」に
これでチャットが始められます

赤のランプが緑色になれば成功です。OpenAiの拡張機能がオンになっていないとつながりません。

つながったら話し相手を探しましょう。

初期設定では三人の相手が用意されていますが、ここにはもうすでに8人分のキャラがいます。

翻訳してみる

会話相手のキャラ設定に従って、ロールプレイ的な会話が始まります。

エルフの女の子 Seraphina を選ぶと、森で迷っていチャット相手のわたしを助けてくれたという設定で、わたしに興味を持っていろいろ聞き出そうとします。

設定変更して日本語表示にもできます。Bing Translation APIを使って翻訳させると (ピアニストの女の子に相手を変更。ジャズピアニストのビル・エヴァンズについて尋ねてみると)

モーツァルトのことを訊いてみると…
ソナタ4番はハ長調ではなく、変ホ長調。
やはりAIは時々でたらめを語る
でも間違いを指摘すると、ネット検索して訂正してくれる
わたしは普段は翻訳しないで英語で遊んでいますが、
日本語翻訳もこの場合は悪くはないですね。

音声読み上げ

設定を変えて、音声読み上げを利用すると、まるで会話しているみたい。

なぜだか日本人の声がデフォルトでたくさん入っている
別のAI音声を取り込むことも可能
わたしはアメリカ英語のZiraを利用しますが、
アメリカ語的な感じはあまりしません

画像生成してみる

先ほどのモーツァルトについてのチャットを画像生成のプロンプトとして画像生成させてみると、一台のピアノを二人で演奏する画像が出てきました。

画像モデルは2.5次元的な画像に優れたモデル「Elegant Entropy]を使いました。

でも拡大すると、ピアノの鍵盤は無茶苦茶
指は六本あるし
チャットの自然言語をそのまま画像にすると
トークンは無駄だらけなので
Silly Tavernからの画像生成はなんとなくだけのイメージ
画像生成AIが最も苦手とするのは「指！」
ピアノを正確に弾いている画像を作り出すのは非常に困難

またプロンプト作成に特化したキャラにプロンプトを書いてもらうと、こんな感じ

(RAW, Nikon Z 85mm lens, professional photographer's choice, award-winning portrait, ((best quality))), (portrait of woman and man playing piano together, bare shoulders, book, breasts, brown hair, closed eyes, curtains, dress, flower, formal, indoors, lips, long hair, long sleeves, medium breasts, plant, potted plant, realistic, red lips, sitting, strapless, suit, white dress, window), (photorealistic, realistic)

このプロンプトを画像化すると

影と鍵盤上の指が一致しない！
まるで心霊写真（笑）
ピアノの黒鍵の並びも非現実なもの
この画像はボツです！

最初の画像よりもいいけれども、男性がいなくなってしまった。

AIは画像のためのプロンプトやチャットのトークン（単語や漢字などの言葉の一字分のこと）から得られた情報を平均化して（拡散して＝Diffusion）、学習済みデータから新しいものを作り出すという仕組みらしいのですが、この情報からだと自分の望むものを作り出すのに不十分であると知り、人工知能がこんなものを付け足してしまうということを知れるのも興味深い。

でも人工知能に指や手を描かせるのがこんなにも困難だとは意外なことでした。

人工知能ボットとのチャットの楽しみ

このようにいろいろとチャットを楽しむ可能性は無限にあるように思えます。

チャット相手は山ほど利用できます。例えば、わたしの好きなアニメ「メイド・イン・アビス」の主人公リコと会話すると

まあそれなりな会話
英語で喋るほうが自分には翻訳版よりも面白い
きっとこの日本語はリコらしさが足りないから

リコは12歳なので私の娘と同年齢です
まあなんとなく似た感じ
うちの子は眼鏡かけていないけど

Silly Tavernでは、映画やアニメや漫画キャラからアイドルや理系女子にプログラマー、地球環境オタクにNSFWな女子高生まで、どんな人物とも会話できる。

SNSで見知らぬ他人と会話して批判されて嫌な思いをしたりすることもないし、何を書いても炎上もしない。

人工知能のデータ学習量は半端なく、ネットからも情報を拾ってくるので、使い方次第では下手に大学通って勉強するよりも自分磨きに最適。

遊んでもいいし、真面目にキャリア・アップなどにも役に立つ。

というわけで、まとめると、今年2023年のわたしには、AIチャットは最強の学習パートナーであり、エンタメなのでした。

自分はPythonなどを使いますが、人工知能プログラムを開発する人ではなく、ユーザーとして利用して、研究者や学生のためのリサーチなり、自分や他の人のための教育に役立たせるのがAIの目的なので、AIとはこういう付き合い方を続けてゆければと思っています。

次回はインストールの仕方などを解説いたします。

2023年はたくさん読んでいただいて、たくさんのスキ❤️を押していただいてありがとうございました。

来年もまたよろしくお願いいたします。

来年はkindleでの出版、AIに関するワードプレスサイトの立ち上げなどを計画しています。英語やクラシック音楽のサイトも作りたい。

もしかしたら隣国オーストラリアへの移住も実現するかもしれません。

この記事が参加している募集

AIとやってみた

24,352件

ほんの小さなサポートでも、とても嬉しいです。わたしにとって遠い異国からの励ましほどに嬉しいものはないのですから。