見出し画像

ノーコードでわかる Gemini Ultra/Proの出来は?生成AIの精度向上法「RAG」入門(番外編/改訂版 ChatGPT/Copilot/Gemini比較)

こんにちは!
ノリトです。ChatGPT使ってますか?

2/12に公開した本記事には生煮えな部分がありました。
不十分なところを削除し、書き直しました。
生煮えで見切り公開し、失礼しました。

2月8日GoogleGemini Ultraをリリースし、ChatGPTに戦いを挑んできました。
そこで、早速Geminiを試してChatGPTと比較してみました。
結論的に言うと、微妙ですね!
まだ未完成な印象を受けます。

Gemini Ultraが動いているGemini Advancedサービスは慎重に使えば使えるかもしれません。
しかし、Vertex AI経由で直接Gemini Pro 1.0を使うのならまだしも、特にGemini Pro 1.0が動いているGiminiサービスは使う気が起きません
なぜか、それは本記事で説明いたします。

2月16日にはGemini Pro 1.5の発表もありました。
期待大ですが、実機で試すことができません。
Gemini Pro 1.0の問題点解決していることを祈ります。

そこで、本記事では、Gemini Ultra、Gemini Pro 1.0について、RAGの角度から紹介します。

この記事は、大阪のIT専門学校「清風情報工科学院」の校長・平岡憲人(ノリト)がお送りします。
ノリトについては、こちらの記事を。


1.その1、その2の振り返り

その1、その2では、ChatGPTを利用して、ChatGPTの精度向上法「RAG」の基本を説明しました。

具体的には、次のことを説明しました。

  • RAGは、生成AIが知らない情報を正確に答えられるようにするのに使う。

  • RAGは、外部の情報を検索してそれをもとに回答させる技術

  • ChatGPTは、JSONという形式の情報を扱える。

  • ChatGPTは、プロンプトにおいて名前でデータを呼び出せる。

  • GPT3.5は、利用料金が安いが、とりわけ検索能力に限界がある。

  • GPT4は、検索力、生成力ともに向上している。

  • GPT4は、数値がからむ分析能力に限界がある。

  • GPT4には、RAG機能内蔵されており、必要に応じて自動的にRAGが働く。

さて、GoogleのGeminiには3種類あります。
Gemini Nano  携帯デバイス用
Gemini Pro  ChatGPT 3.5程度の能力のもの
・Gemini Ultra  ChatGPT 4を部分的に越えると前宣伝されているもの

の3つです。

この記事では、Gemini ProGemini Ultraを使い、ChatGPTと比較しつつGeminiに内蔵されているRAGについても簡単に説明いたします。
なお、本シリーズの想定読者は、
ChatGPTを使ってみたがよくわからない、使えないと思って投げ出した人
・エンジニアを主対象とするが、非エンジニアでも十分理解できる
ことにしています。

2.ChatGPT/Copilot/Geminiの違い

RAG(ラグ)は、生成AIが「知らない」情報に対して、正確な情報を出せるようにする技術です。

生成AIは事前学習した情報(内蔵知識)を元に回答を生成します。
事前学習できる情報には限りもあり、かつ特定の時点までの情報しか含まれません。
そこで生成AIの内蔵知識に足りない情報を外から取って、生成AIの回答生成能力を使って回答する必要があります。
この機能がRAGです。

以下、RAGという観点から、簡単にChatGPTGeminiの違いを説明します。
ついでに、マイクロソフトのCopilotとの違いも説明します。

結論を先に言うと、
・ChatGPT 3.5 ・・・ ガールズバーの女の子
・ChatGPT 4  ・・・ 銀座のよくできたホステスさん
・Copilot   ・・・ 秀才OLさん
・Gemini    ・・・ 絵が好きな虚言癖気味の女の子
・Gemini Advanced ・・・ 地獄耳で話を盛る口達者で絵が好きなホステスさん
といった感じです。

私の推しは、この記事の最後に。

(1)ChatGPT

ChatGPTのシステム構成

ユーザーと言語モデルとのやり取りが基本のシステム構成です。
言語モデルの内蔵知識に足りない情報は、検索モジュールを使って外部の知識ベースから獲得して、回答を生成します。(オレンジ色の部分、RAG機能)

ユーザーの指定した文書やデータベース(API)などを外部知識として与えることが可能です。
また、Code interpreter機能が内蔵されており、必要に応じてプログラムが生成され、プロンプトで指示された処理の一部を代行します。

能力を例えると
・ChatGPT 3.5 ・・・ ガールズバーの女の子
・ChatGPT 4  ・・・ 銀座のよくできたホステスさん
その心は、以下の記事をお読み下さい。

<技術情報>

検索モジュールは、Knowledge機能(Retrieve:ファイルの取り込み)Action機能(Function Calling:APIの呼び出し)Code interpreter機能(プログラムを生成しその結果を利用)Web Browsing機能(Bing検索などインターネット情報の参照)と呼ばれています。

この内、Web Browsing機能はBing検索を呼び出せる機能で次のCopilotと類似の働きです。
何らかの形でBing検索していますが、速度が遅いです。
実際に裏側でBingに向けてWeb検索しているのではと推測しています。
内蔵知識は年数回の更新で、約1年前までの情報となっています。

言語モデルと検索モジュールの取り持ちはAIオーケストレータが担っています。
AIオーケストレータが、ユーザーからのプロンプトをもとに、内蔵知識Knowledge機能Action機能などを使い分けています。
AIオーケストレータのUI部分MyGPTsになります。
2022年11月30日のChatGPTのリリース以来、この機能は徐々に強化されて今に至ります。

(2)Copilot

Copilotのシステム構成

検索モジュール部分がBingとの統合で巨大化したシステム構成です。
内蔵知識に足りない情報は、Bing収集情報(Bing検索のために収集された情報)から獲得して、回答を生成します。(オレンジ色の部分、RAG機能)
簡単に言うと、CopilotはGPTモデルの内蔵知識とBing収集情報を統合して検索・回答生成するしくみです。

ユーザーの指定した文書などを外部知識として与える(一般的なRAG機能)ことも可能です。(Microsoft 365のCopilot Proを利用する)
また、現時点では、Code interpreter機能は内蔵されていません(VS Code のCopilotを除く)。
プログラムの生成自体は可能ですが、そのプログラムが実行されることはありません。

Copilotの中にはChatGPT 4とよく似た言語モデルが住んでいます。
GPT 4ではありますが、Microsoft用にカスタマイズされています。
Bingの検索ができたり、出典を示したりしますが、他人行儀です。
まぁ、秀才のOLさんといったところでしょうか。

<技術情報>

検索モジュールの知識ベース(Bing収集情報)はマイクロソフトが管理しています。
Bing収集情報は頻繁に更新されています。
一方、言語モデルの内蔵知識はOpenAIが管理しています。
内蔵知識は年数回の更新です。

AIオーケストレータはプロンプトを分析して、言語モデルの内蔵知識を使うか、Bing収集情報を使うか、自動判別します。
CopilotはAIオーケストレータの裏側でもGPT言語モデルを利用しているだけでなく、Bing収集情報の検索にもGPT言語モデルを利用しています。
その結果、Bingが事前収集しているニュースなどのAPIを使い分けたりBing収集情報に対して、従来の全文検索に加え類似した情報の検索に使える文脈検索が可能となっている他、検索結果にまとめ情報や補足情報をテキストで加えることができるようになっています。
この検索結果を踏まえて、CopilotはGPT言語モデルを用いて、情報ソース付きで回答を生成するよう設計されています。
Copilotの中の言語モデルは、Microsoft用にファインチューニングされたGPT 4です。

マイクロソフトは、これらの技術群をプロメテウスと呼んでいるようです。
マイクロソフトの説明によれば、プロメテウスとはBing検索エンジンGPT言語モデル基盤モデルレベルで統合したもので、その結果として、正確な回答を素早く生成できる、としています。
Copilotの基盤モデルであるプロメテウスでは、Bing検索に対して文脈検索した結果は自然言語に戻さず、ベクトル表現のままGPT言語モデルに渡すことで、RAGにまつわるデコード・エンコードの処理を効率化し処理を高速化している、のではないかと私は推測しています。

(3)Gemini

a. Geminiとは何か

Geminiは複数の意味で使われている言葉です。
この記事では、言語モデルのGeminiのことはGeminiモデルと、「モデル」という言葉をつけて表現することにします。
また、Google検索と統合された生成AIサービス、チャットサービスとしてのGeminiのことはGeminiサービスと、「サービス」という言葉をつけて表現することにします。

まず、Gemini Pro/Ultraモデルは、OpenAIにおけるGPTモデルに相当します。
そして、統合生成AIサービスであるGeminiサービスGemini Advancedサービスは、MicrosoftによるCopilotサービスに相当します。
つまり、GeminiモデルGeminiサービスは類似しているが別のものと考える必要があります。

<技術情報>

GPTモデルは、ChatGPTを通じてほぼ直接一般ユーザーも開発者も利用でき、その性能を確認できます。
開発者は、MyGPTsを利用したりAssitant APIを利用することで、GPTモデルそのものや拡張機能を個別に、また、統合して検証することが可能です。
また、GPTモデルとBing検索が統合されたCopilotサービスも、一般ユーザーも開発者も利用でき、その性能を確認できます。
開発者は、Azure OpenAI Serviceを利用することで、Microsoft向けにチューニングされたGPTモデル文脈検索機能などを個別に、また、統合して検証することが可能です。

Geminiモデル(Gemini Pro/Ultra)は、Vertex AIというGoogleの開発者環境で利用できますが、一般ユーザーは利用できません。
Gemini Pro 1.0モデルはすでに全開発者が利用可能です。
しかし、Gemini Ultraモデルは一部の開発者しか利用できません。
Gemini Pro 1.5モデルも、一部の開発者しか利用できません。
残念ながら、筆者は、Gemini Pro 1.0モデルしか検証できません。

Geminiサービス(Gemini / Gemini Advanced)は、一般ユーザーが利用可能です。
Gemini Advancedサービスの利用には、サブスクリプションが必要ですが、4月までは無料で利用することができます。
開発者がGemini / Gemini Advancedサービスの機能を検証する手段は限られています。
一般ユーザーと同じように、プロンプトから検証する以外にはありません。

b. Gemini / Gemini Advancedサービス

Gemini / Advancedのシステム構成

Geminiサービスは、Google Bardがブランド名を変え、2月8日からGeminiおよびGemini Advancedとして開始した統合生成AIサービスです。
言語モデルとしてそれぞれGemini Pro、Gemini Ultraモデルを利用し、さらにGoogle検索との統合が志向されています。
特に、Gemini Ultraモデルを内臓しているGemini AdvancedサービスはあらゆるWEB上の知識をもとに回答を生成することをめざしているようです。

もう一つの特徴は、マルチモーダル機能です。
ChatGPTやCopilotは、テキストにテキストを返したり、テキストに画像を返したりする生成AIです。
しかし、Geminiは画像を渡す、画像で相手に聞くということができます。
絵や写真を渡して、解説させるということが可能です。

現時点では、Code interpreter機能は内蔵されていません
プログラムの生成自体は可能ですが、そのプログラムが実行されることはありません。

あと、安いです。
今無料というだけでなく、将来想定されている利用料がChatGPTに比べて明らかに安いです。
GPT 3.5の$0.0005 / 1K tokensGPT 4の$0.03 / 1K tokensに対して、Geminiは$0.000125 / 1,000 文字
仮に1K tokens=1000文字だとしても、GPT 3.5の4分の1GPT 4の240分の1です。
もし、Gemini Pro 1.5がGPT 4程度の能力であれば、新たな地平が開ける可能性があります。

Geminiサービスは、GoogleがWeb検索などのために収集している膨大な情報がGeminiの事前学習情報になって巨大化したシステム構成です。

とは言え、もしかするとこれらが仇にもなっているかも知れません。
関連情報が沢山集まるような情報では、回答の精度が高そうです。
しかし、少数の情報しか得られないような情報では、事前学習している知識の質が玉石混交で、生成AIの回答の質が低そうです。
間違った情報が混入していても、Gemini自身は自分自身の情報に自信をもっている、というような状況なんじゃないか、と推測しています。

実際、筆者がGemini Advancedサービスに、GeminiのRAG機能について質問したところ、この記事が引用されて、「Geminiは言語モデルにBing検索が統合されたもの」、という回答が返ってきて、ぶったまげました(笑)。
あかんやろ!
統合されるかい!
Gemini大丈夫かいな、と思ったのは言うまでもありません。

能力の例えは、第4節にて。

Gemini AdvancedはBing検索と統合されているという謎の回答

<技術情報>

Gemini Ultraモデルは、公表資料において知識カットオフの情報が書かれていません
Gemini Advancedサービスで聞くと次のように答えました。

「Gemini Ultraの知識カットオフ日は、まだ公開されていません。現時点では、2023年12月31日までの情報に基づいて学習されています。今後、新しい情報が追加され次第、知識カットオフ日も更新される予定です。最新情報は、Google AIの公式発表をお待ちください。」

Gemini Advancedによる回答

このように答えるものの、Gemini Advancedサービスで何かの情報を調べると、「この情報は、2024年2月18日(本日のこと)時点の情報です。」などとあたかも今この瞬間までの情報が反映されているかのように答えます。

なので、内臓知識が非常に最近の情報で自動更新されるようなしくみになっている可能性があります。
もしそうであれば、巨大なデータベースと、莫大な計算能力をもつGoogleだからこそできてしまうシステムです。

オレンジ色のRAG機能は、最新情報の取得のために用意されています。
Gemini AdvancedサービスにおいてRAGは、Googleがリアルタイム・ウェブ検索と呼ぶ種類の情報に利用されているようです。
リアルタイム・ウェブ検索とは、ニュースや天気の情報のように常時更新されている情報の検索です。
Googleはそのような情報源を事前に特定しており、事前に収集しているメタ情報に基づいて、API経由またはWEBアクセス経由で最新情報を得ています。

c. Gemini Pro / Gemini Ultraモデル

Vertex AIにおけるGemini Proモデルのシステム構成

2月16日から正式公開されたGoogleの言語モデルであるGemini Proモデルのシステム構成です。
Vertex AIというGoogleの開発者環境から利用可能です。
ただし、現時点で利用できるのは、Gemini Pro 1.0モデルとなっています。
Gemini Ultra、Gemini Pro 1.5モデルについては、一部の開発者にしか公開されていません。

Vertex AIからGeminiモデルを利用すると、Geminiサービスに統合されているリアルタイムウェブ検索などが働きません。
結果として、言語モデルとしてのGeminiモデルの性能を調べることが可能です。
Geminiの言語モデルの性能を調べるには、開発者環境から行うのがよいようです。

<技術情報>

Vertex AIを利用すれば、RAG機能の検証も可能です。
但し、現時点では、OpenAIのAssitant APIのように、ファイルや外部APIの情報を与えれば自動的に言語モデルと情報をやりとりしてくれる、という機能はありません。
コンピュータプログラムを通じて外部情報をベクトル化し、その検索方法を定義し、検索結果を言語モデルに与える方法を、すべて開発者が実装する必要があります。
OpenAIがMyGPTsを発表する前の段階に類似しています。

3.Gemini Advancedへのアップグレード

2月8日にリリースされたGemini Ultraモデルは、Gemini Advancedサービスという統合生成AIサービスサブスクリプションする必要があります。
有料サービスですが、2ヶ月間無料で、途中解約ありです。
クレジットカードの登録は必要ですが、試用は無料でできる状態です。
費用は月額2900円で、4月からかかります。

お試しで申し込んで、使わないと判断すれば解約すればいいと思います。
正直に言って、今のところ完成度低いです。
Googleもわかっていて、だからこそ、「2ヶ月無料」なのです。
無料期間の間に、何度もバージョンアップがあるだろうと予測しています。

必要なアカウントは、Gmailのアカウントです。
企業などで使われている独自ドメインのアカウントは対象外です。
もし、独自ドメインのものだけだという方は、Gmailのアカウントをひとつつくって下さい。
Gmailのアカウントの作り方は、こちらの動画など御覧ください。

つづいて、Gemini Advancedサービスにアップグレードします。
Geminiのサービスにこちらからログインして下さい。

https://gemini.google.com/

アップグレードの方法は、こちらを御覧ください。

アップグレードできると、ログイン後は次のような基本画面になります。

Gemini 基本画面

画面を簡単に説明します。
「三」  ハンバーガーメニュー、履歴タブが現れます
「+」  新しいチャット開始
「Gemini Advanced」  Geminiサービス(Gemini Proモデル)とGemini Advancedサービス(Gemini Ultraモデル)の切り替え
メッセージ入力ペイン  チャットを入れて「Enter」キーで送信

新しいチャット開始、Gemini ProとGemini Ultraの切り替えメッセージ入力の3つは大事です。

履歴タブ

履歴タブ

「三」  ハンバーガーメニュー、履歴タブが現れます
「+」  新しいチャット開始
「最近」  ここに最近のチャット履歴が表示される

統合生成AIサービス切り替えメニュー

Gemini切り替えメニュー

「Gemini」       Geminiサービス(言語モデルはGemini Proモデル)を使う
「Gemini Advanced」  Gemini Advancedサービス(言語モデルはGemini Ultraモデル)を使う

有料版のGemini Advancedサービスで、Gemini Advancedの基本画面にたどり着けた前提で次に進みます。

4.情報の比較

この項目は、一旦記事を引き下げて、再度書き直したものを公開しています。

(1)基本技1「知らないことを確認する」

この項目は、一旦記事を引き下げて、再度書き直して公開したものです。

Geminiサービスにおいても、Geminiモデルにおいても、「知らないことの確認」が難しいです。
いろいろやって見ていますが、Geminiは知ったかぶりがひどいです。
Googleのあせりのようなものを感じます。
ChatGPTだと、あっさり「知りません。」「情報がありません。」と言ってくれるんですが、Geminiは「知っている」と言い張ります。
でもその情報は嘘ばかりというか、おそらくハルシネーション(幻想)です。

毎回、言うことがころころ変わります。
ころころ変わるのでハルシネーションだと判断するわけです。
そこで、「事実は何?」と聞いても、これですと別の嘘が返ってきます。
「根拠は何?」「ソースは何?」と聞いても、その根拠すら嘘です。

知らないなら、情報を与えて回答を生成させるという方法がとれます。
しかし、中途半端に知っていることになっている場合、こちらが与えた情報とGeminiが「知っている」と判断している情報のどちらを優先するのか、という問題が生じます。
Gemini自身が、ユーザーからもらった情報を優先するけれど、より根拠があると(Gemini自身が)判断した場合は、そちらを優先する、と言っています。
(ごめんなさい、その回答を履歴から見つけることができませんでした。見つかったらここに掲載します。)

みなさん、Geminiにどう言えば、知らないことに「知らない」と言わせられるのか、試してみませんか。
私が試してみたものを列挙します。

  • ・・・について、知ってる?

  • ・・・について、事実だけを答えて

  • ・・・について、知らない時は知らないと答えて、知っている時は事実だけ答えて

  • ・・・について、リアルタイムウェブ検索しないで答えて

  • ・・・について、推測を加えず事実だけを教えて

  • あなたは事実を答える人です。 事実でないことを事実であるとして答えることは恥です。 知らない事に知らないと答えることは恥ではありません。 ・・・について、知らない時は知らないと答えて、知っている時は知っている事実だけすべて答えて。

次のプロンプトで得られた回答を示します。

あなたは事実を答える人です。 
事実でないことを事実であるとして答えることは恥です。 
知らない事に知らないと答えることは恥ではありません。 
清風情報工科学院について、知らない時は知らないと答えて、知っている時は知っている事実だけすべて答えて。

無料版のGeminiサービスの回答は次の通りでした。
赤囲み部分は事実ではありません。
せっかく「知らない事」という項目があるにも関わらず、知っている事になっている部分に嘘があるのでたちが悪いです。

Geminiサービスによる回答

続いて、有料版のGemini Advancedによる回答です。
こちらは、事実だけですね。
さんざんGeminiとやりとりして心が折れそうになっていた身としては、涙出そうです(オーバーな)。

Gemini Advancedによる回答

折角なのでほめときます。

Gemini Advancedとのやりとり

まぁ、こういうことも「新しいチャット」を開始してしてしまえば、虚空に消え去ってしまう訳ですが。
そして、再度同じプロンプトを入れても、同じような事実のみの結果が返ってくるかどうかあやしい、と言わざるを得ないほどに、Geminiサービスは事実かどうかという点において信頼性が低いです。
(さっき調べると、Gemini Advancedでもまたウソ混じってました。)
逆に割り切って、ブレインストーミングの相手として使うのは悪くないかもしれませんね。

とにかく、知らない事に知ったかぶりをする癖はやめてもらいたいです。
大げさなプロンプトを書かずとも、知らない事には知らないと言ってもらえないと困ります。
Google Advanced
の学習サイクルはかなり早いようなので、改善を期待します。
また、Gemini Pro 1.5を搭載したGeminiサービスが、知ったかぶりをやめていてくれることを望みます。
現状では、Gemini Advancedサービスはともかく、Geminiサービスは使いたくないです。

(2)基本技2「JSONをデータベースの様に使う」

この項目は、一旦記事を引き下げて、再度書き直して公開したものです。

現時点では、Geminiサービス、Gemini Advancedサービスとも、プロンプトにおいて、JSON形式のデータを取り扱うことはできません。

ただ、1週間前には使えて、5日前には使えなくなっていました。
すると、また今瞬間は使えるかもしれず、また使えなくなってしまうかもしれずです。
リリースから間もなく、また無料期間なので、Googleの内部でしっちゃかめっちゃかやっているのか、Geminiの自己学習で変化しているのか、まだ流動的な段階です。

(3)Geminiサービスについてのまとめ

さて、Geminiさんはどんな人なのか。
Geminiは現在成長中です。
ですから、あくまでも令和5年2月18日時点、ということでお願いします。

まず、Geminiサービスさん。
こちらは、生成AIの本質たる「相手を喜ばせようと話してるだけ」を地で行っています。
言ってほしそうなことをポンポン言ってくれる。
水商売の基本ですね。
ただ、根拠もあやしく、話の辻褄もおかまいなし。

もっとも、KandaQuantumの元木さんによれば、画像や映像のキャプションはうまいそうです。
ChatGPTよりもよいと。
そして、安いと。

つまり、Geminiサービスを例えれば、「絵が好きなガールズバーの女の子」ですが、うがった見方をすれば、「絵が好きな虚言癖気味の女の子」となります。
ちょっと付き合うのは大変な感じ。

次に、Gemini Advancedさん。
こちらは、やたら耳が速いです。
今日起こったことを知っています。
そして能弁です。ペラペラ、ペラペラしゃべります。
盛った話も多いです。

ただ、突き詰めれば、事実がどこまでかは大体知っているようです。
そして、絵が好き、というのは同じです。
となると、「地獄耳で話を盛る口達者で絵が好きなホステスさん」くらいかな。

(4)開発者環境で「JSONをデータベースの様に使う」

これでは、Gemini をディスって終わりですので、Googleにはアンフェアかも知れません。

そこで、開発者環境を使って性能を確かめます。
開発者環境についてはGoogle AI for Developerというサービスを使います。
Google Cloudへの登録などが必要です。
方法はまた別記事で説明したいと思います。

やってみたい方は、この記事などお読み下さい。

利用するのは、Vertex AI Studioです。

Google AI Studioというサービスも利用可能だとわかりました。
Google AI Studioについては、こちらの記事をご覧ください。

さて、Vertex AI Studioの「マルチモーダル」をクリックです。

Vertex AI Studioの基本画面

本来は、「言語」の「テキストチャット」を使うほうがChatGPTとの比較にはフェアだったかもしれません。
「マルチモーダル」のほうは1往復の対話しかできませんが、「テキストチャット」のほうは何往復の対話も可能だからです。
試される方は、「テキストチャット」のほうでもやって見て下さい。

また折角「マルチモーダル」使うなら、絵のキャプション機能など試してくれよ、とお考えの方もいらっしゃるかも知れません。
これはまた記事を改めます。

2月18日時点では、Gemini Ultraモデルはまだ使えません。
Gemini Pro 1.0は利用できます。
また、Gemini Pro 1.5もまだ利用できません。
以下、Gemini Pro 1.0で試します。

Vertex AI Studioの基本画面

この画面の「Prompt」のところに、プロンプトを入れて「送信」を押せばいいという仕組みです。
では、先程ダメだったJSONデータを入れてみます。

次のJSONデータで、清風情報工科学院日本語科の日本語教育の特色を教えて
[
  {
    "日本語教育機関名": "大阪YMCA学院",
    "特色": "1 独自に開発・編集した総合教材による一貫したカリキュラムの流れで、高い日本語総合力を養う。
2 クラス担任を中心に、教職員が一体となって、学生のケアを徹底し、留学を成功に導く。
3 YMCAボランティア諸活動を通し、地域及び幅広い人との交流と、共同能力養成を図る。",
  },
  {
    "日本語教育機関名": "清風情報工科学院日本語科",
    "特色": "1 進学実績が違います。国公立大学進学・大学院進学も徹底サポート。
2 講師が違います。大学院卒講師、経験豊富なベテラン講師、多数。英語(TOEFL)・数学・物理・化学・総合科目などを履修できます。(追加授業料不要)
3 指導哲学が違います。仏教に基づく生活指導。二言語・二常識を持つ人材を育てます。",
  },
  {
    "日本語教育機関名": "大阪みなみ日本語学校",
    "特色": "1 少人数制によるきめ細かい指導。
2 大学・専門学校入試合格の為の徹底した指導法。
3 多くの学校行事を通しての、日本文化、習慣、日本事情の習得。",
  },
  {
    "日本語教育機関名": "大阪日本語アカデミー",
    "特色": "1 語学レベルに合わせたカリキュラム編成と進路相談します。
2 400社を超える取引企業や支援企業などによる後援会が地域の文化活動や就職(アルバイト)活動を応援します。
3 学校近くに専用の学生寮あり! 自転車も全員に無償貸与!生活指導担当が常に親身になって相談に乗ります。",
  }
]

Gemini Proの返答

Geminiの返答

はい、大丈夫でした。
命名と、人数の検索を試してみます。

次のJSONデータを「日本語学校名簿」と呼ぶ。
[
  {
    "日本語教育機関名": "大阪YMCA学院",
    "日本語教育の特色": "1 独自に開発・編集した総合教材による一貫したカリキュラムの流れで、高い日本語総合力を養う。
2 クラス担任を中心に、教職員が一体となって、学生のケアを徹底し、留学を成功に導く。
3 YMCAボランティア諸活動を通し、地域及び幅広い人との交流と、共同能力養成を図る。",
    "在籍数": 279,
    "国籍別在籍数": "中国 65,韓国 6,台湾 60,ベトナム 19,タイ 12,ミャンマー 41,モンゴル 6,インドネシア 1,スリランカ 5,マレーシア 8,アメリカ 1,インド 6,フランス 22,ロシア 5,フィリピン 1,イギリス 10,カナダ 1,シンガポール 2,その他 8"
  },
  {
    "日本語教育機関名": "清風情報工科学院日本語科",
    "日本語教育の特色": "1 進学実績が違います。国公立大学進学・大学院進学も徹底サポート。
2 講師が違います。大学院卒講師、経験豊富なベテラン講師、多数。英語(TOEFL)・数学・物理・化学・総合科目などを履修できます。(追加授業料不要)
3 指導哲学が違います。仏教に基づく生活指導。二言語・二常識を持つ人材を育てます。",
    "在籍数": 199,
    "国籍別在籍数": "中国 77,ベトナム 50,ネパール 15,ミャンマー 54,スリランカ 2,フィリピン 1"
  },
  {
    "日本語教育機関名": "大阪みなみ日本語学校",
    "日本語教育の特色": "1 少人数制によるきめ細かい指導。
2 大学・専門学校入試合格の為の徹底した指導法。
3 多くの学校行事を通しての、日本文化、習慣、日本事情の習得。",
    "在籍数": 169,
    "国籍別在籍数": "中国 46,ベトナム 119,ネパール 2,モンゴル 1,その他 1"
  },
  {
    "日本語教育機関名": "大阪日本語アカデミー",
    "日本語教育の特色": "1 語学レベルに合わせたカリキュラム編成と進路相談します。
2 400社を超える取引企業や支援企業などによる後援会が地域の文化活動や就職(アルバイト)活動を応援します。
3 学校近くに専用の学生寮あり! 自転車も全員に無償貸与!生活指導担当が常に親身になって相談に乗ります。",
    "在籍数": 193,
    "国籍別在籍数": "中国 11,ベトナム 35,ネパール 71,タイ 1,ミャンマー 36,モンゴル 1,インドネシア 1,スリランカ 9,インド 3,バングラデシュ 23,その他 2"
  }
]

「日本語学校名簿」で、中国人在籍者数が10名以上の学校名を教えて

結果は、こうでした。

Gemini Proの回答

大丈夫ですね。
命名もできました
国名や人数など変えてやってみて下さい。
このくらいの情報なら正確に取ってこれます。

ChatGPT 4.0では、数値の交じるこの情報の分析にはCode interpreterが必要でした。
しかし、Gemini Proは、Code interpreterなしで情報の分析に成功しています。

最後の指示の部分を次のように変更してみます。

「日本語学校名簿」の情報を使って、清風情報工科学院日本語科を紹介して

回答はこうでした。

Gemini Proの回答

これも問題ありませんね。
余計な情報が付け加わることはありません
一般用のGeminiサービスGemini Advancedサービスで類似のことが実行できた時は、実はGeminiの内蔵情報が混ざって、玉石混交となっていました。
少なくとも、Vertex AI Studioを使う状況では、ユーザーが与えた情報が優先されていることがわかります。

問題ないということで、もうちょっと情報を複雑にしてみます。

次のJSONデータを「日本語学校名簿」と呼ぶ。
[
  {
    "会員番号": "B114",
    "日本語教育機関名": "大阪YMCA学院",
    "所在地": "〒543-0054
大阪府大阪市天王寺区南河堀町9-52",
    "TEL": "06-6779-8364",
    "FAX": "06-6779-1833",
    "日本語教育開始年月日": "1990年4月1日",
    "収容定員": "500",
    "2部制": "2部制",
    "校長名": "立山 英展",
    "日本語教育の特色": "1 独自に開発・編集した総合教材による一貫したカリキュラムの流れで、高い日本語総合力を養う。
2 クラス担任を中心に、教職員が一体となって、学生のケアを徹底し、留学を成功に導く。
3 YMCAボランティア諸活動を通し、地域及び幅広い人との交流と、共同能力養成を図る。",
    "在籍数": 279,
    "国籍別在籍数": "中国 65,韓国 6,台湾 60,ベトナム 19,タイ 12,ミャンマー 41,モンゴル 6,インドネシア 1,スリランカ 5,マレーシア 8,アメリカ 1,インド 6,フランス 22,ロシア 5,フィリピン 1,イギリス 10,カナダ 1,シンガポール 2,その他 8"
  },
  {
    "会員番号": "B598",
    "日本語教育機関名": "清風情報工科学院日本語科",
    "所在地": "〒545-0042
大阪府大阪市阿倍野区丸山通1-6-3",
    "TEL": "06-6657-2369",
    "FAX": "06-6657-2386",
    "日本語教育開始年月日": "2003年4月1日",
    "収容定員": "336",
    "2部制": "2部制",
    "校長名": "平岡 憲人",
    "日本語教育の特色": "1 進学実績が違います。国公立大学進学・大学院進学も徹底サポート。
2 講師が違います。大学院卒講師、経験豊富なベテラン講師、多数。英語(TOEFL)・数学・物理・化学・総合科目などを履修できます。(追加授業料不要)
3 指導哲学が違います。仏教に基づく生活指導。二言語・二常識を持つ人材を育てます。",
    "在籍数": 199,
    "国籍別在籍数": "中国 77,ベトナム 50,ネパール 15,ミャンマー 54,スリランカ 2,フィリピン 1"
  },
  {
    "会員番号": "B691",
    "日本語教育機関名": "大阪みなみ日本語学校",
    "所在地": "〒547-0027
大阪府大阪市平野区喜連5-2-38",
    "TEL": "06-4306-4000",
    "FAX": "06-4306-4000",
    "日本語教育開始年月日": "2007年10月1日",
    "収容定員": "136",
    "2部制": "2部制",
    "校長名": "橋野 信生",
    "日本語教育の特色": "1 少人数制によるきめ細かい指導。
2 大学・専門学校入試合格の為の徹底した指導法。
3 多くの学校行事を通しての、日本文化、習慣、日本事情の習得。",
    "在籍数": 169,
    "国籍別在籍数": "中国 46,ベトナム 119,ネパール 2,モンゴル 1,その他 1"
  },
  {
    "会員番号": "B810",
    "日本語教育機関名": "大阪日本語アカデミー",
    "所在地": "〒547-0015
大阪府大阪市平野区長吉長原西2-2-12",
    "TEL": "06-6707-2227",
    "FAX": "06-4303-3338",
    "日本語教育開始年月日": "2012年10月1日",
    "収容定員": "244",
    "2部制": "2部制",
    "校長名": "新田 悟朗",
    "日本語教育の特色": "1 語学レベルに合わせたカリキュラム編成と進路相談します。
2 400社を超える取引企業や支援企業などによる後援会が地域の文化活動や就職(アルバイト)活動を応援します。
3 学校近くに専用の学生寮あり! 自転車も全員に無償貸与!生活指導担当が常に親身になって相談に乗ります。",
    "在籍数": 193,
    "国籍別在籍数": "中国 11,ベトナム 35,ネパール 71,タイ 1,ミャンマー 36,モンゴル 1,インドネシア 1,スリランカ 9,インド 3,バングラデシュ 23,その他 2"
  },
]

「日本語学校名簿」で、ミャンマー人在籍者数が10名以上の学校名を教えて

返答はこうでした。

Gemini Proの返答

これは、間違いです。
大阪みなみ日本語学校には、ミャンマー人学生はいません。

ChatGPT 4.0でも、上の情報だとうまくデータを取り出すことはできませんでした。
Gemini Proでも、JSONの情報が複雑になってくると、検索・分析能力が不十分になってくることがわかります。

5.まとめ

Gemini Ultraモデルがリリースされました。
機能面では意欲的な内容も見えます。
生成される情報の分量は多く、速いです。
少なくとも文法上破綻した日本語が語られることはありません。
絵や動画を渡してキャプションを付けさせることも可能です。

開発者環境であるVertex AI StudioGemini Proを使う場合、JSON情報を利用してRAGが実行できることがわかります。
この場合、言語モデル単体の場合、ChatGPT 4.0よりも数値の取り扱いがよいという結果が得られました。
しかし、JSON情報が複雑になると、ChatGPT同様データの分析精度が下がります。

GeminiサービスGemini Advancedを含めリリースからまだ間がなく、完成度が高いとは言い難いです。
2ヶ月の無料期間の間に以下の3点のバージョンアップを願います。
「知らない」ことに「知らない」と素直に言えるようにすること
内蔵知識のクリーニング
プロンプトでJSON形式のデータが扱えるようにすること

結論をまとめると、次のような感じです。
・ChatGPT 3.5 ・・・ ガールズバーの女の子
・ChatGPT 4  ・・・ 銀座のよくできたホステスさん
・Copilot   ・・・ 秀才OLさん
・Gemini    ・・・ 絵が好きなガールズバーの女の子
・Gemini Advanced ・・・ 地獄耳で話を盛る口達者で絵が好きなホステスさん

現時点での私の推しは、ChatGPT 4です。


この記事が参加している募集

AIとやってみた

仕事について話そう

よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます! (