僕は何故、ChatGPT、Bing、Bard色んな対話型AIに「家系ラーメン」の質問をするのか。
*本記事は5・14に書いた記事が変遷を経て鎮魂の意味でNoteでだすことになったものなので、2ヶ月前はこんなだったよねーとご笑納くださると幸い。↓↓↓↓本文↓↓↓↓
ChatGPT、Bing、Bard色々な対話型AIが発表され、どれを使えばいいのだろう?一番性能が良いのはどれ?そんなお悩みがある方も多いのではないでしょうか?
今回は、無料で使えるChat GPT3.5、Bing、Bard、そして高性能ですが有料のChat GPT4.0に同じ質問をしてみました。皆さんの対話型AIの一助になれば、、なんて思ってます。
何故対話型AIは知らない事でも堂々と嘘をつくのか
まずはじめに、対話型AIでしばしば話題になる「AIのつくウソ」についてちょっと説明させてください。
皆さんがアプリや、LINE等で利用できるAIにはChatGPTの他にも、Bard、Dragonfly、Claude、Sageといった様々なAIが存在しています。
それらのAIが生成するテキストには共通して「ハルシネーション」と呼ばれる、「もっともらしい嘘」が多かれ少なかれ存在します。これらは、AIの学習データに偏りがある場合や、AIが言語のニュアンスや文脈を理解することが難しい場合に発生するとされています。
旧来の機械学習は、特徴の合致率を元に判断していました。例えば「何のジュースか判断するAI」があった場合、既に学習済みのデータ群から、缶やペットボトルの形状、色、そこに書かれている文字列やイラストの合致率を元に写真が何のジュースなのかを判断していたわけです。これらはざっくりいうと「判定」した結果を出力していると言えます。
しかし、「どこが一緒か」等の判定に関するアルゴリズムは、人間が設定しないとならず、大量のデータを扱い、なおかつ汎用的な対話型AIを作るのには必ずしも向いていませんでした。
一方で、ChatGPT等に使われる「ディープラーニング(深層学習)」では、ジュースの画像を大量に読み込ませると、「ジュース」の特徴をAIが自ら抽出し、定義を理解した「推論モデル」を作成します。未知のデータを与えられたときにも、そのデータについて予測や分類が可能で、一番正解の確率の高い回答をします。
これらは「考える行為のシミュレート」で、「大体こんなのが正解なんじゃないかな?」といった結果を回答します。ですので、未知の問題に対する回答が可能な反面、あくまでも一番正解の確率の高い回答をするに過ぎず、AI自体の性能やデータが不足している際に「適当なウソ」をついてしまいます。これが、「AIのつくウソ」ハルシネーションの正体です。
人間が「ハルシネーション」を見破るには?
このハルシネーションは少々やっかいな存在です。そもそも対話型AIの多くは「自然な文章で回答すること」を目的の1つとして設計されています。誤った情報が書かれたものでも「極めてそれっぽく」自然に書かれており、利用者が「ハルシネーション」の有無を判断するには、回答された情報の真偽がわかる自分の専門分野であることが必要となります。
生成された内容が正しいか正しくないかがわからないと、その真偽のほどはわかりません。また、「推論モデル」を作成する際に、インターネット上で定義が一般的に確立していることも必要です。ChatGPTでは、2021年9月までの情報を元に推論モデルを作成しており、それらのソースは主にインターネット上から集められているからです。
そこで、新しい対話型AIが発表される際や、バージョンアップが行われる度に、私は上記の条件を満たす質問をすることでその性能や特徴を推し量る様にしています。
私がいつも行う質問は「家系ラーメン」に関する質問です。
と、「家系ラーメン」に関する質問をする場合には、真偽は私が判断でき、最新情報に対応していないChatGPTとWeb検索にも対応したBingやBardとの比較をする際にも、定義や情報が以前から確立していることで、純粋に「推論」の性能比較が出来ると、その条件を十分に満たしているというのがその理由です。
早速「家系ラーメン」の質問をしてみよう!
さて早速AIに「家系ラーメン」の質問をしていきます。
今回は無料で利用可能なChatGPT3.5と、ChatGPT4.0、ChatGPT4.0を搭載したBing、そしてGoogle Bardに同じ質問を投げて、どの様な回答がくるのかをみてみましょう。
まずは、ChatGPT3.5への質問と回答は以下の通りです。
家系ラーメンにはあまり使われることがないメンマが具材とされているだけではなく、重要な海苔と、ほうれん草が抜けています。正直、質の高い回答とは言えません。
家系ラーメンの定義の1つとして『海苔3枚、チャーシュー、ほうれん草』があります。これはGoogleで『海苔3枚、チャーシュー、ほうれん草』検索すると「家系ラーメン」が表示される様に、「家系」に関する各種関連ワードとして一般化されていると言って良いでしょう。
続けておすすめの店舗を聞いてみます。
文章的な破綻はないものの、見事な「適当なウソ」が返ってきました。
どこが「ウソ」を言っているのかを解説をします。
まず、九州じゃんがら 横浜西口店は店舗として存在しないばかりか、その名の通り「九州ラーメン」であり、家系ラーメンではありません、また、別の場所に実在する店舗の麺はオリジナルの細麺で、太麺でもありません。
「らぁめん いしはら 横浜店」も存在しない店舗で、おそらく人気店である「支那そば いしはら」からAIが考え出した架空の店舗だと思われます。
この「存在しないもの」はAIのつくウソがハルシネーション(幻覚)と呼ばれる理由の一つとなっており、どんな質問でも多かれ少なかれ発生しうる現象です。皆さんも自分の専門領域や、得意とするジャンルで質問をしてみるとその「ハルシネーション」が体験できるかと思います。
「スパイスカレー」に詳しい方はスパイスカレーに、「かすうどん」に詳し方はかすうどんの質問を質問をしてみてください。
ハルシネーションが発生しているときっとすぐに気付く事が出来ると思います。
続けてWeb上の情報を参照することで、学習済みモデルの学習終了以降の回答に新しいネット上の情報を加えて、回答することが出来るBingに質問をしてみます。このBingはChatGPT4.0を搭載しています。
手短でそっけない回答しか返答しない!
今回の質問では何度聞いても、短い回答しか答えてくれませんでした。
Bingはリリース時に比べ、回答のやり取りを途中で中断してしまったり、あまりにも手短な回答をするようになったと利用者の間で話題になっています。この様な、リリース後の変更は特に無料サービスですと、珍しくありません。
負荷が特に高い質問や、そのサービスの評判を落とすこととなる回答に繋がる質問は、頻繁にその穴が塞がれているのか、今まで答えてくれていたものが急に回答拒否になることもしばしば報告されてます。
おすすめの店舗に関する質問はどうでしょうか?
吉村家は家系ラーメン元祖のお店です。そして「三元」は横浜には存在しないお店です。Bingは参考にしたURLを詳細情報として提供してくれます。その中に札幌の家系ラーメンのページがあったことから、「三元」はおそらく、札幌で有名な「横浜家系らーめん 三元 北大前店」のことだと思われます。回答が短い事も関係するのでしょうが、実在する超有名店1点と、存在しない店1点を紹介してくるという結果でした。
手短に答えるというチューニングと、ネット上からの情報を引っ張ってくるという特徴の組み合わせがマイナス方面に働いたのでしょうか?
さて、次に質問するのはChatGPT4.0です。こちらは、Bingと異なりネットから最新の情報を持ってくることは出来ないのですが、前述の通り、家系ラーメンに関する情報は2021年9月以前に確立しているので、最新の店舗の情報を聞かない限り、ChatGPT3.5よりChatGPT4.0は優秀な回答をすると予測されます。
ChatGPT4.0では具材に海苔が加わった!
GPT4には海苔が加わった上で好きなアレンジを注文時に行える「お好み」のシステムに関しての記述が加わっています。また、発祥に関する記述もChatGPT3.5に比べて、より具体的になっています。
この様に、異なるバージョンの同じ対話型AIに同じ質問をし続けることも、チャットAIの性能向上を体感するにはオススメの習慣です。
「カピバラについて教えてください。」も僕が新しいAIチャットを触る時に必ず試す質問なのですが、デビューしたてのChatGPTは、これらの回答に「樹上を飛び回る」や「紫色の長い舌」「神話に登場する」等のハルシネーションを連発していました。ところが、バージョンアップの度に少しずつ改善をしており、ChatGPT4.0ではほぼ正しいカピバラ情報を教えてくれます。
続けて店舗に関する質問をします。
吉村家以外は、どこかしら間違った情報を回答してきました。実際の回答には住所が含まれていましたが、全て誤った情報であり「家系総本山 勇家」に関しては存在しない店舗です。
今回「家系総本山 勇家」の特徴として挙げられた、マー油や煮干しを使った家系ラーメンは、極めて珍しいので逆に食べて見たい気がします。
おすすめの店舗に関しては、ChatGPT3.5と比べてもそんなには質の向上は見られなかったのですが、存在しない「家系総本山 勇家」への回答は、表現力に溢れた表現で、ラーメン屋の紹介文を書く時の参考にはなりそうです。
私の対話型AIの利用方法の一つとして「発想の手助け」があります。その用途の場合には、必ずしも情報の正確さは必要ではなく、いつでも、何回でも壁打ちに付き合ってくれる対話型AIは頼りになる相談相手となります。
Bardは家系ラーメンの魅力に正しく言及してきた!
さて、いよいよお待ちかね。Google Bardに質問です。
Google BardはBing同様に、学習済みのデータ以外だけではなく、インターネット上の情報も参照してくれることが特徴です。Bard(吟遊詩人)という名の通り、韻やリズム、暗喩等々の表現も得意とするといわれています。さて、早速質問してみましょう。
ついに、ほうれん草の記述が加わり、更に「シャキシャキとした食感」という、ほうれん草のトッピングにおける役割分担まで的確に表現しています。麺に関しても「中太のストレート麺」という正解を初めて回答してくれました。うんうん、良い海苔を使っているところのは風味が良いんだよな〜!
各種家系ラーメンに関するユーザーレビュー等を学習しているのでしょう。
この調子でいくと、家系ラーメンの香りを支える「鶏油(ちーゆ)」に対する記述や、「醤油が立ってる系」「クリーミー系」と言った家系ラーメン内の細かいカテゴリにも近い将来言及する様になるのでは?と期待感が高まります。
少なくともここまでに関しては、BardはChatGPT4よりも、Bingよりも優秀です。
続けて、おすすめの店を聞いてみます。
回答内容は概ね納得できるもので、店舗名も全て実在するものです。創業年等、若干事実と異なるアウトプットもありますが、今回試した他の対話型AIの回答に比べると格段の進化です。
また、評判の良く、比較的新しい「勝鬨家」をおすすめの店に入れているあたりは、評価したいところです。
レスポンスも極めて良好!しかも3つの選択肢で話が逸れない!
また、レスポンスに関しても執筆時(2023年6月初旬)では他サービスに比べて極めて高速で、更にBardは質問に対して3つの回答(ドラフト)を用意しています。
この機能はBardを使いこなす上でとても重要で、メインの画面に現れた回答に「ちょっと、それ聞いているんじゃないんだよなぁ?」と感じた場合、3つの選択肢から別の回答を選んだ上で、会話を続ける事で、「話が逸れることの防止」と「文脈維持をした上で話題を続ける」ことが可能になります。
Bingが最近話しを途中で打ち切ったり、回答拒否をしがちな点は前述しましたが、これらもリリース当初はそうではありませんでした。ですのでBardもリリース時のスペックのまま無料利用がずっと出来るとは限りませんが、現状無料で使える対話型AIの選択肢としては、Bardはとても素晴らしいと感じます。
なお、Bardは日本語対応に伴い、学習モデルのアップデートも行われ、多言語性だけではなく、推論機能やコーディング機能も強化されたとのことです。2023年3月に発表され、その二ヶ月弱後の5月には、多言語対応、そして機能強化を実現しました。
対話型AIは複数のサービスが提供されたことで、ますます選択肢だけでなく、その進化スピードも速まっていくと予想されます。また、その利用用途もどんどん身近になっていくでしょう。
この記事が気に入ったらサポートをしてみませんか?