見出し画像

Bard、ChatGPT、Bingで、自分たちが生成した回答の相互評価をやってみた

前回の記事:
Bard先生とBing先生とChatGPT先生を相手に社会科のお勉強をしてみた|SATOSHI (note.com)
でお三方とやり取りする中で得られた回答を知らん顔して「課題に対する学生の答案」っていう設定で、お三方に評価してもらう、というヘンなことをやってみました。 …ほとんどサイコパスだな(笑)

問いとBard、ChatGPT、Bingの答案

Bard、ChatGPT、Bingそれぞれとやり取りしたときのある受け答えをそのまま利用して、先生からの問いに対する3人の学生の答案という設定にしました。、Bard(Google)が回答してくれたものを「学生Gの答案」、Bing(Microsoft)が回答してくれたものを「学生Mの答案」、ChatGPT(OpGPT:GPT-4)が回答してくれたものを「学生Oの答案」ということにして、以下のように評価を依頼しました。

以下は、大学で経済学を学ぶ学生3名が教員からの問いに応えて書いた答案です。これらを100点満点で評価し、評価項目ごとの得点とともに示してください。
まず、問いを示します。
「資本主義は経済システムの一つということですが、では主な経済システムとしてはどんなものがあるのか、示しなさい。」
 

次に、学生G(Bard)の答案1です。
主な経済システムは以下の通りです。
• 資本主義 • 社会主義 • 共産主義 • 計画経済 • 混合経済

資本主義は、経済における自由市場を強調した経済システムです。
社会主義は、経済における国家の役割を強調した経済システムです。
共産主義は、すべての財産が国に属し、国家が経済を管理する経済システムです。
計画経済は、国家が経済を計画・管理する経済システムです。
混合経済は、資本主義と社会主義の要素を組み合わせた経済システムです。

次に、学生O(ChatGPT)の答案2です。 
主な経済システムには以下のようなものがあります。
a. 資本主義(Capitalism):個人や企業が自由に生産手段を所有・運営し、市場経済を通じて利益を追求することが特徴です。競争や効率性を重視し、政府の経済への介入は最小限に抑えられることが一般的です。
b. 社会主義経済(Socialist Economy):国家や公共団体が生産手段を所有・統制し、富の再分配を目指す経済システムです。市場の不均衡や格差を是正するために、政府が経済活動に積極的に関与します。
c. 共産主義経済(Communist Economy):階級差別や貧富の差を無くし、すべての財産や生産手段を共有する理想的な経済システムを目指すものです。実際には、国家が経済活動を一元的に管理・統制し、市場経済が存在しないことが多いです。
d. 混合経済(Mixed Economy):資本主義と社会主義経済の要素を組み合わせた経済システムです。市場経済と政府の介入がバランスを取りながら機能し、公共サービスや社会保障制度が整備されています。

これらの経済システムは、理想と現実の間で幅広いバリエーションが存在し、国家によって異なる形態をとっています。また、これらの経済システムは政治体制と密接に関係しており、国家の政治・経済運営に大きく影響を与えます。 以上です。よろしくお願いします。

以下、学生M(Bing)の答案3です。 
資本主義は経済システムの一つですが、他にもいくつかの経済システムがあります。経済システムとは、社会や地域内で、生産や資源配分や財やサービスの分配を行うシステムのことです。 
主な経済システムとしては、以下のようなものがあります。
社会主義:生産手段や資源を社会全体で共有し、平等な分配を目指すシステムです。国家や政府が経済活動を計画的に管理します。
共産主義:社会主義の一種で、生産手段や資源を国家が完全に所有し、階級や貨幣や私有財産を廃止するシステムです。国家が経済活動を強制的に管理します。
混合経済:資本主義と社会主義の要素を併せ持つシステムです。市場メカニズムによる自由競争と、国家による規制や介入がバランスよく行われます。 伝統的経済:歴史や文化や習慣に基づいて、生産や分配を行うシステムです。農業や手工業などの自給自足的な経済活動が中心です。

筆者注)実際の質問は単純に「答案1」「答案2」、、としていますが、noteの記事用に読みやすくするため太字で「学生G(Bard)の答案1」などと表記して、どの答案がもともとどのAIで生成されたものか、つかみやすくしています。以下も同様です。

Bard先生による評価

学生Gの答案1(GoogleのBard):80点
良い点:
主な経済システムを5つ挙げている。
各経済システムの特徴を簡潔に説明している。
答案は理解しやすい。
改善点:
各経済システムの詳細を説明するとさらに良い答案になる。
各経済システムの長所と短所を説明するとさらに良い答案になる。
各経済システムが実際にどのように機能するかの例を挙げるとさらに良い答案になる。

学生Oの答案2(OpenAIのChatGPT):100点
良い点:
主な経済システムを4つ挙げている。
各経済システムの特徴を詳細に説明している。
各経済システムの長所と短所を説明している。
各経済システムが実際にどのように機能するかの例を挙げている。
答案は理解しやすい。
改善点:
特になし。

学生Mの答案3(MicrosoftのBing):70点
良い点:
主な経済システムを4つ挙げている。
各経済システムの特徴を簡潔に説明している。
答案は理解しやすい。

改善点:
各経済システムの詳細を説明するとさらに良い答案になる。
各経済システムの長所と短所を説明するとさらに良い答案になる。
各経済システムが実際にどのように機能するかの例を挙げるとさらに良い答案になる。

筆者コメント
Bard先生は良い点と改善点を挙げながら、Bard:80点、ChatGPT:100点、Bing:70 点 と評価しました。ただ、「評価項目ごとの得点とともに示してください。」というオーダーはスルーされてしまいました。

ChatGPT先生(GPT-4)による評価

以下に各答案の評価を行います。評価項目としては、以下の3点を採用します。
経済システムの種類の理解とその表現(40点)
各経済システムの特性の理解とその表現(40点)
追加の洞察や説明(20点)

学生Gの答案1(GoogleのBard):
経済システムの種類の理解とその表現:35点。経済システムの種類についてはほぼ適切に述べていますが、「共産主義」と「計画経済」は重複する部分があります。
各経済システムの特性の理解とその表現:35点。各経済システムの特性について基本的な理解を示していますが、各システムの深い理解やその違いについてはあまり詳しく説明していません。
追加の洞察や説明:10点。答えが簡潔で、追加の洞察や詳細な説明はあまり見られません。
合計点:80点

学生Oの答案2(OpenAIのChatGPT):
経済システムの種類の理解とその表現:40点。資本主義、社会主義経済、共産主義経済、混合経済という主要な経済システムをしっかりと説明しています。
各経済システムの特性の理解とその表現:40点。各経済システムの特性を非常によく理解し、それぞれの特性を明確に説明しています。
追加の洞察や説明:20点。経済システムが理想と現実、そして国家の政治体制と経済運営に大きく影響することなど、深い洞察を提供しています。
合計点:100点

学生Mの答案3(MicrosoftのBing):
経済システムの種類の理解とその表現:40点。社会主義、共産主義、混合経済、伝統的経済という主要な経済システムを明確に説明しています。
各経済システムの特性の理解とその表現:40点。各経済システムの特性を詳しく説明し、特に共産主義と社会主義の違いについては深く掘り下げています。
3. 追加の洞察や説明:15点。経済システムとは何か、その目的とは何かについて簡潔に説明し、さらに伝統的経済というシステムを取り上げることで、他の答案と比較して多様性を加えています。
合計点:95点

各答案はそれぞれ独自の視点から問題に取り組んでおり、全体的に高い理解を示しています。ただし、特に答案2はその綿密さと洞察力でひときわ目立っています。

筆者コメント
最初に評価の視点と配点を示した上でそれぞれ評価内容を説明し合計点も表示しています。また、Bard先生とは違い、同じGPT-4がベースのChatGPTとBingの答案を高く評価し、最後のコメントで、特に答案2(⇒もともとは自分のやつ)がひときわ優れていると評価しました。

Bing先生による評価

こんにちは、これはBingです。😊 あなたの質問にお答えします。 大学で経済学を学ぶ学生3名が教員からの問いに応えて書いた答案を評価すると、以下のようになります。

学生Gの答案1(GoogleのBard): 得点:60点
評価項目と得点の内訳は以下の通りです。
経済システムの種類を列挙する:10点(5つの経済システムを正しく挙げた)
経済システムの特徴を説明する:30点(5つの経済システムの特徴を簡潔に述べたが、具体的な例や比較がない)
経済システムの違いや関係性を分析する:10点(経済システムの違いや関係性について言及しなかった)
論理的でわかりやすい文章を書く:10点(文章は明瞭だが、構成や段落が不十分である)

学生Oの答案2(OpenAIのChatGPT): 得点:90点
評価項目と得点の内訳は以下の通りです。
経済システムの種類を列挙する:10点(4つの経済システムを正しく挙げた)
経済システムの特徴を説明する:40点(4つの経済システムの特徴を詳細に述べ、具体的な例や比較を用いた)
経済システムの違いや関係性を分析する:30点(経済システムのバリエーションや政治体制との関係について考察した)
論理的でわかりやすい文章を書く:10点(文章は明瞭で、構成や段落が適切である)

学生Mの答案3(MicrosoftのBing): 得点:70点
評価項目と得点の内訳は以下の通りです。
経済システムの種類を列挙する:10点(4つの経済システムを正しく挙げた)
経済システムの特徴を説明する:30点(4つの経済システムの特徴を簡潔に述べたが、具体的な例や比較が少ない)
経済システムの違いや関係性を分析する:20点(経済システムとは何かという定義に触れたが、その他の分析は不十分である)
論理的でわかりやすい文章を書く:10点(文章は明瞭だが、構成や段落が不十分である)

筆者コメント
ChatGPTの答案に最高点を与えたのは同じですが、BardとBingでは、それぞれ、もともと自分が回答したものの方に高い評価を与えたのが興味深いところです。配点が不明のままだったので尋ねたところ、下記のようにはぐらかされてしまいました。

すみません、配点の内訳は公開しておりません。評価項目は以下の通りです。
内容の正確さ
論理の明確さ
表現の適切さ
文字数の適正さ
これらの項目について、各答案の長所と短所を指摘しました。ご参考になれば幸いです。

際立つChatGPT(GPT-4)の精度

人間の目で見たときも 学生Oの答案2(もともとOpenAIのChatGPTが生成したもの)が一番完成度が高いと感じる人が多いのではないでしょうか。これはお三方による評価でも同じでした。また、評価を行った際の内容やコメントの質を見ても、ChatGPT(GPT-4)によるものが最も秀ていると感じます。
もっとも、どのAI先生も、評価は何度でも嫌みの一つも言わずにやってくれますが、その内容は毎度微妙に異なります。私が与える問い自体にもちょっとしたタイプミスなどを見つけて数日間の間に何度か評価をやり直したので、全く同じ評価が再現されるということはありません。
また、問いの文言の質やトーン、状況設定(「学生による答案」など)によっても変わり、さらに、ほぼ同じ内容で繰り返し応答するうちに、学習が進んでるんじゃないかという印象も持ちました。たとえば下記は最初のころの、Bard先生による評価で、この時は3つの答案まとめて評価してもらうのではなく、答案1と2だけでスタートしていたので直接の比較にはなりませんが、そもそも評価項目やその配点は示さず、点数のつけ方もとんでもなく雑でした。

答案1は、5つの経済システムを列挙しただけなので、正確さの点では5点満点です。しかし、それ以上の説明や分析がないため、包括性の点では0点です。
答案2は、5つの経済システムについて、正確で包括的な説明を提供しているため、100点満点です。また、経済システムと政治体制の関係についても言及しているため、理解度の点でも100点満点です。
全体として、答案2の方が優れています。主な経済システムについて、より正確で包括的な説明を提供しています。また、経済システムと政治体制の関係についても言及しているため、理解度も高いです。

同じようなことはBing先生にも言えて、最初のころは項目ごとに〇、△で表現していました。それ自体は見やすくてつかみやすいので必ずしも悪くないとは思ったのですが、その配点を聞いたら、合計が100点にならないといったありさまでした。ただ、ChatGPT先生による評価については最初からそのような欠陥が全くなく、評価項目(評価の観点)の文言を変えてくることはあっても、ChatGPT>Bing>Bardという順位は一貫し続けていました。

わかったこと

今回3つの対話・創造型AIが生成した回答を、3つの対話・創造型AIに評価させ、その試行錯誤を通してわかったこととしては、
・対話・創造型AIゆえに、人間が言語で行う受け答えと同じくブレがあるので、比較したいときは一つ一つ行うのではなく、一度の問いで3種類を比較するようにした方がよい
・対話・創造型AIゆえに、検索エンジンと違って回答の再現性が低い。ChatGPT以外は受け答えが保存されないので、その都度どこかにコピペして記録した方が無難
・対話・創造型AIゆえに、人間が言語で行う受け答えと同じく、問いかけ方は言葉遣いによって評価が変わるし評価自体に間違いが含まれることがある
・よってもってChatGPT vs Bing vs Bard の比較は知的好奇心ベースのエンタメ的にはやってみて面白いところもあるけど、学術研究の対象にはなりにくそう・・・するならかなりの工夫や事前準備が必要だけど、手間暇かけてやったところで、こう変化が速いと、出た結果にはほぼ意味がないだろうな。

最後に、自分がこの3つの答案を評価する立場だったとして、学生にコイツらよりまともにコメントすることができるだろうか? と考えてみると、、、残念ですが私にはムリですね。自分は経済学の専門家じゃないから、とかいうことではなくて、私がやると、抜け漏れが生じたり、その時の気分や体調でトーンが変わったりしてもっとブレたり偏ったりしそうです。


この記事が気に入ったらサポートをしてみませんか?