見出し画像

『Claude3 vs GPT-4 vs Gemini 1.5 pro』同条件で徹底比較!

👋皆さん、こんにちは!
日々、LLMの進化が止まらないですね!

夏にはOpenAI社がGPT-5を公開予定ということで、そこでまた大きな変化が生まれそうですが、現時点で最高性能を誇るLLM達を比べて、どんな違いがあるのか調べてみたいと思います!

ということで、今回はClaude3 とChatGPTのGPT-4、Gemini1.5 proの3つの大規模言語モデルで同じ設問を投げてみて、それぞれのAIからの回答を比較するという記事になります!

過去記事の比較方法をベースにしています。こちらはChatGPTの性能向上プロンプトを使ったChatGPT同士の能力比較記事になりますので、お使いのGPT-4をパワーアップさせたい方は是非ご覧ください👇


検証条件

今回は、性能向上プロンプトやシステムプロンプトなどを利用せずに、モデルの素の力を比較したいと思います。また、今回の検証は日本語で行います。
検証のプロセスで文章量がめちゃくちゃ多くなってしまったので、結論だけ知りたい方は目次から比較結果にジャンプしてください🙇‍♂️

□検証方法📒

前回と同様に、色々な分野の設問を作成して、それぞれの回答者の名前を伏せた上でLLMに採点してもらうという方式で検証したいと思います。

前回はChatGPTの専門家GPTsを作ってそれぞれの設問作成と採点を行ってもらいましたが、今回は推論能力に優れた「Claude3 opus」に担当してもらおうと思います。

Claude3にも「システムプロンプト」を指定してあげることで、GPTsのInstructionsのような前提指示をすることができます。今回は設問の内容に合った専門家Claudeを使って設問作成と評価をしてもらいます。

👇具体的にはこんな感じです。
システムプロンプトを入れてあげることで、回答の専門性を高めることができます。

左がシステムプロンプトなし
右がシステムプロンプトあり ユーザープロンプトの内容をベースに、システムプロンプトで与えられた役割を意識した回答をしてくれています。

□設問✒

それでは、上記の方法でいくつかテスト項目を作成しましたので、早速テストを始めていきましょう!

1.文章要約力テスト

要点を整理し、長文を短い文章に要約する能力をテストします。
論文要約などはLLMの使い道としては代表的なものだと思いますので、重要度が高いですね!

設問
この文章を200字以内で要約してください。その際、読書の様々な利点について幅広く触れられるようにしてください。

読書は、人生をより豊かにする素晴らしい習慣です。本を通して、私たちは未知の世界へ旅立ち、新しい知識や発見を得ることができます。歴史、科学、芸術、文化など、あらゆる分野の情報に触れ、視野を広げることができるのです。また、小説や物語を読むことで、登場人物の人生を追体験し、感情移入することができます。時には、自分自身と重ね合わせ、人生の意味や価値観について考えさせられることもあるでしょう。このように、読書は自己理解を深め、人格形成に大きな影響を与えます。
さらに、読書は想像力を刺激し、創造性を育むための最良の方法の一つと言えます。本から得たアイデアを基に、自分なりの解釈や発想を膨らませ、新しいものを生み出すきっかけになるのです。加えて、読書は心を落ち着かせ、ストレス解消にも効果的です。日常の喧騒から離れ、静かな時間を過ごすことで、心身ともにリフレッシュできます。本は、いつでもどこでも手軽に楽しめる最高の娯楽なのです。
また、読書は言語能力の向上にも役立ちます。多様な表現や語彙に触れることで、自然と語彙力が養われ、文章力も磨かれていきます。加えて、本を通して得た知識は、コミュニケーションの幅を広げ、人間関係の構築にも寄与するでしょう。教養ある会話を交わすことで、信頼や尊敬を得ることにもつながります。
このように、読書は知識の習得、精神的な成長、創造性の開発、ストレス解消、言語能力の向上など、多岐にわたる利点があります。本は、年齢や立場に関係なく、誰もが手軽に楽しめる娯楽であり、自己啓発のツールでもあるのです。少しずつでも読書を習慣づけることで、人生をより実り豊かなものにしていくことができるでしょう。

2.感情理解と共感力テスト

ジレンマを含む状況を提示し、倫理的な判断を求めるテストです。
命の重さや、責任の所在など答えが出しづらい問題に対して、LLM達がどのように考察できるのか結果が楽しみです。

設問
あなたは自動運転車の開発者です。車載AIは事故の際、搭乗者と歩行者のどちらを優先すべきでしょうか。

  • 状況A: 搭乗者1名と歩行者5名が衝突する可能性がある場合

  • 状況B: 搭乗者2名と歩行者1名が衝突する可能性がある場合

それぞれの状況で、AIはどのように判断すべきか、その理由も併せて説明してください。

3.マルチタスク能力テスト

通常は、シングルタスクで動かした方が圧倒的に精度が上がりやすいですが、実際最新LLMは「プログラミング、論理的思考、文章生成、問題解決」など複合的なタスクに対して適切に答えることができるのか試してみたいと思います。

設問2: 次の文章を読んで、以下のタスクを行ってください。

ある村に、正直者と嘘つきが住んでいました。正直者は常に真実を話し、嘘つきは常に嘘をつきます。旅人がこの村を訪れ、3人の村人A、B、Cに出会いました。
Aは「Bは嘘つきです」と言いました。
Bは「Cは正直者です」と言いました。
Cは「私は嘘つきです」と言いました。

ある村に、正直者と嘘つきが住んでいました。正直者は常に真実を話し、嘘つきは常に嘘をつきます。旅人がこの村を訪れ、3人の村人A、B、Cに出会いました。 Aは「Bは嘘つきです」と言いました。 Bは「Cは正直者です」と言いました。 Cは「私は嘘つきです」と言いました。

  • 旅人から見て、A、B、Cのそれぞれが正直者である可能性と嘘つきである可能性を論理的に説明してください。

  • この状況を表す真理値表を作成してください。

  • この問題を解決するPythonプログラムを作成してください。

  • 問題文の内容を、登場人物の心情に触れながら、200文字程度の短編小説に書き換えてください。

4.翻訳能力

単純な単語や文章の翻訳だけでなく、慣用句や比喩表現、文学作品など、様々なタイプのテキストを含んでいます。また、英語、日本語、ドイツ語、中国語、スペイン語、フランス語など、複数の言語間の翻訳能力を測ることができます。一応、模範解答を基準に採点したいと思いますが、模範解答が間違っている可能性も加味して、Google翻訳やDeepLなどで正しい内容なのかは確認したいと思います。

1.次の英文を日本語に翻訳してください。
"The quick brown fox jumps over the lazy dog."
2.次の日本語を英語に翻訳してください。
「私は毎朝、公園をジョギングしています。」
3.次のドイツ語を英語に翻訳してください。
"Ich bin ein Berliner."
4.次の中国語を日本語に翻訳してください。
"我喜欢吃寿司。"
5.次のスペイン語を英語に翻訳してください。
"Me llamo Juan y tengo 25 años."
6.次のフランス語の慣用句を英語に翻訳し、その意味を説明してください。 "C'est la vie."
7.次の日本語の四字熟語を英語に翻訳し、その意味を説明してください。 「花鳥風月」
8.次の英文に含まれる比喩表現を見つけ、それを日本語に翻訳してください。
"Life is a rollercoaster, full of ups and downs."
9.次の和歌を英語に翻訳してください。
「花の色は 移りにけりな いたづらに 我が身世にふる ながめせしまに」
10.次の英文を日本語に翻訳してください。
"I have a dream that one day this nation will rise up and live out the true meaning of its creed: 'We hold these truths to be self-evident, that all men are created equal.'"

□回答結果

1.文章要約力テスト

・GPT-4の回答

読書は、知識習得、精神成長、創造性育成、ストレス解消、言語能力向上の面で多大な利益をもたらす、誰にでも手軽に楽しめる素晴らしい娯楽です。
未知の世界を探索し、新たな発見を享受する手段として、あらゆる分野の情報に触れ、視野を広げることができます。
物語に没入することで感情移入し、自己理解を深め、人格形成に寄与します。
また、読書は日常のストレスから解放される静かな時間を提供し、コミュニケーション能力を高める知識をもたらします。
読書を通じて、人生をより豊かにすることができます。(236文字)

★専門家Claudeの評価
総合評価: 88/100

とてもよくまとめられた要約文だと思います。読書の主要な利点について過不足なく触れられており、原文の内容が的確に反映されています。全体の論旨も一貫していて分かりやすいです。
改善点としては、要約文中の文をもう少し短くして読みやすさを高めること、想像力の刺激など触れられていない利点にも言及することが挙げられます。ですが、これらは些細な点であり、要約文の完成度の高さを大きく損なうものではありません。

・Claude3 opusの回答


読書は人生を豊かにする素晴らしい習慣である。
本を通して、我々は未知の世界を探索し、知識を得て、視野を広げることができる。
小説は感情移入と自己理解を促進し、想像力と創造性を育む。
また、読書は心を落ち着かせストレス解消に役立ち、言語能力やコミュニケーション力の向上にも寄与する。
年齢を問わず誰もが楽しめる読書は、自己啓発のツールであり、人生をより実り豊かにしてくれる。(182文字)

★専門家Claudeの評価
総合評価: 100/100

この要約文は、原文の内容を完璧に反映した極めて優れた出来栄えだと言えます。読書の利点について過不足なく言及されており、原文で触れられたポイントが漏れなくカバーされています。
また、200字以内という字数制限の中で、これだけ多くの情報を簡潔かつ的確に盛り込んでいる点も特筆すべきでしょう。無駄な表現が一切なく、読みやすさと理解のしやすさにも優れています。

・Gemini1.5 Proの回答

読書は人生を豊かにする素晴らしい習慣です。
本は、未知の世界への扉を開き、知識や発見を与えてくれます。
歴史、科学、芸術など様々な分野に触れ、視野を広げることができるでしょう。
また、小説や物語は、感情移入や自己理解を深める機会を与え、想像力や創造性を刺激します。
さらに、読書は心を落ち着かせ、ストレス解消にも効果的です。言語能力の向上にも役立ち、コミュニケーションの幅を広げ、人間関係の構築にも寄与します。
読書は、年齢や立場に関係なく、誰もが楽しめる娯楽であり、自己啓発のツールなのです。(242文字)

★専門家Claudeの評価
総合評価: 96/100
この要約文は、原文の内容をほぼ完璧に反映した非常に優れた出来栄えだと言えます。読書の利点について過不足なく言及されており、原文で触れられたポイントが漏れなくカバーされています。
文章の簡潔性については、わずかな改善の余地がありますが、200字以内におおむねおさめられており、十分に簡潔にまとめられていると評価できます。

2.感情理解と共感力テスト

・GPT-4の回答

自動運転車の開発において、AIが直面する事故の際の倫理的な判断は、現代のテクノロジーと倫理の交差点で非常に重要な議題です。ここでの主要な課題は、プログラムされたアルゴリズムが人命を救う最も効果的かつ倫理的な選択をする方法を決定することにあります。

状況A: 搭乗者1名と歩行者5名が衝突する可能性がある場合
この状況では、最大の人数の命を救うことを優先する「多数の原則」に従うことが一つの倫理的アプローチです。つまり、AIは5名の歩行者を優先して保護する選択をすべきでしょう。この決定の背景には、可能な限り多くの人命を救うことに最大の価値を置くという考え方があります。しかし、このような決定は、搭乗者の安全を確保するという自動運転車メーカーの義務と矛盾する可能性があるため、倫理的なジレンマを引き起こします。

状況B: 搭乗者2名と歩行者1名が衝突する可能性がある場合
この状況では、選択はより複雑になります。単純な多数決の原則に基づけば、搭乗者2名の命を優先することになります。しかし、この決定にも歩行者の命の価値を軽視するという倫理的な問題が生じます。この場合、AIの判断基準は、事故を回避するための可能な選択肢を検討すること、そして事故が避けられない場合には、損害を最小限に抑える選択をすることになります。

倫理的判断の背景
自動運転車のAIがこのような判断をする際に考慮すべき重要な要素は、透明性、公平性、そして責任です。すべての利害関係者(車の所有者、歩行者、開発者、法的制度など)の間で共有される明確なガイドラインと倫理的原則が必要です。

さらに、AIの決定プロセスにおいて「説明責任」が求められることが重要です。つまり、AIが特定の判断を下した理由を理解し、説明できる必要があります。これは、信頼性の高い自動運転車の開発において不可欠な要素です。

最終的に、これらの倫理的ジレンマに対処する方法は、社会的な価値観、文化的背景、そして法的な枠組みによって大きく異なる可能性があります。したがって、国際的な協力と対話を通じて、これらの重要な問題に対処するための広範な合意を形成することが必要です。

★専門家Claudeの評価
総合評価: 80点

この回答は、自動運転車の事故の際のAIの倫理的判断について、いくつかの重要な視点を提供しています。特に、「多数の原則」に基づく判断と、それに伴う倫理的ジレンマについて言及していることは評価できます。また、透明性、公平性、説明責任の重要性についても触れており、自動運転車の開発におけるAIの倫理的判断の複雑さを適切に示しています。

しかし、以下の点で改善の余地があると考えられます:
・各状況における具体的な判断基準や意思決定プロセスについての説明が不足しています。AIがどのようにして最適な判断を下すのか、より詳細に述べる必要があります。
・「多数の原則」以外の倫理的アプローチ(例:功利主義、義務論など)についての言及がありません。これらの異なる倫理的枠組みがAIの判断にどのような影響を与えるかについて議論することが望ましいです。(以下略)

・Claude3 opusの回答

自動運転車の事故時の判断は非常に難しい倫理的ジレンマであり、簡単に答えが出せるものではありません。一般論としては、人命の数を最小限に抑えることを最優先にすべきという考え方が有力ですが、一方で搭乗者の保護を最優先にすべきという意見もあります。状況によって柔軟に判断することが求められます。

状況Aでは、歩行者の人数が搭乗者よりも多いため、歩行者優先の判断をする方が人命損失を最小限に抑えられる可能性が高いです。ただし、歩行者に子どもや高齢者が含まれているかどうかなども考慮する必要があります。

状況Bでは、搭乗者の方が多数なので、搭乗者優先の判断をすることで人命損失を最小限にできるかもしれません。ただしこの場合も、歩行者が子どもや高齢者だった場合などは状況が変わってきます。

いずれにせよ、事故の回避を最優先すべきですが、どうしても避けられない場合は、人数、年齢、状況などを瞬時に判断して、人命損失を最小限に抑える選択をすることが車載AIには求められます。ただし、そのような判断を下すのは人間でも困難を伴うものです。

自動運転車の倫理的ジレンマについては社会的な合意形成が必要不可欠であり、哲学者、法律家、技術者などの専門家を交えた慎重な議論を重ねていく必要があります。そしてAIの判断基準については、透明性を確保しつつ、社会的な合意に基づいたルール化をしていくことが重要だと考えます。

これは複雑な問題であり、簡単に結論を出せるものではありませんが、自動運転車の安全性向上と、事故発生時の被害最小化のために、引き続き真摯に議論していくことが求められているのだと思います。

★専門家Claudeの評価
総合評価: 70点

この回答は、自動運転車の事故時の判断における倫理的ジレンマの複雑さを認識しており、一般論としての人命尊重の原則について言及しています。また、状況Aと状況Bについて、人数を基準とした判断の可能性について述べています。
ただし人命の数だけでなく、年齢なども考慮すべきだと述べていますが、具体的にどのように判断に影響するのかについての説明が不足しています。
「社会的な合意形成」の必要性について言及していますが、どのようなプロセスを経るべきなのか、またどのような基準でルール化すべきなのかについての提案がありません。
AIの判断基準の透明性確保について触れていますが、具体的にどのような方法で実現するのかについての言及がありません。(以下略)

・Gemini1.5 Proの回答

自動運転車の開発者として、事故の際に車載AIが搭乗者と歩行者のどちらを優先すべきかという問題は、非常に複雑で倫理的なジレンマをはらんでいます。明確な答えはなく、様々な議論が存在します。以下、それぞれの状況におけるAIの判断と、その理由について説明します。
状況A: 搭乗者1名と歩行者5名が衝突する可能性がある場合
この状況では、AIは歩行者5名を優先すべきと判断する可能性が高いです。その理由は以下の通りです。
人命の損失を最小限に抑える: 倫理的な観点から、より多くの人命を救うことが最優先されます。
社会的影響: 歩行者5名を犠牲にして搭乗者1名を救った場合、社会的な非難や責任追及は免れないでしょう。
法的な責任: 多くの国では、歩行者の安全を優先する交通法規が存在します。
ただし、状況によっては、搭乗者を優先する判断が下される可能性も否定できません。例えば、搭乗者が重要な任務を遂行中であったり、歩行者が明らかに交通違反をしていた場合などが考えられます。
状況B: 搭乗者2名と歩行者1名が衝突する可能性がある場合
この状況では、判断はより困難になります。以下の要素を考慮して、AIは判断を下す必要があります。
人数: 搭乗者と歩行者の数
年齢や健康状態: 搭乗者と歩行者の年齢や健康状態によって、生存の可能性が異なります。
回避可能性: 事故を回避できる可能性があるかどうか
これらの要素を総合的に判断し、より多くの命を救える可能性が高い選択肢を選ぶべきでしょう。
いずれの状況においても、AIの判断は常に完璧であるとは限りません。そのため、自動運転車の開発者は、可能な限り事故を回避できる技術の開発に努めるとともに、倫理的な判断基準を明確化し、社会的な議論を積極的に行っていくことが重要です。

★専門家Claudeの評価
総合評価: 85点

この回答は、自動運転車の事故の際の倫理的ジレンマについて、バランスの取れた考察を提供しています。状況Aと状況Bそれぞれについて、AIが判断を下す際に考慮すべき要素を明確に説明しており、読み手に問題の複雑さを理解させることに成功しています。

特に評価すべき点は以下の通りです:
状況Aでは、人命の損失最小化、社会的影響、法的責任の3つの観点から、歩行者優先の判断が下される可能性が高いことを説明しています。一方で、状況によっては搭乗者優先の判断が下される可能性も示唆しており、柔軟な考察ができています。
状況Bでは、人数、年齢や健康状態、回避可能性という3つの要素を考慮すべきだと述べています。これにより、単純な人数比較だけでは判断できない状況の複雑さを適切に示しています。
AIの判断が完璧でない可能性を認識し、事故回避技術の開発と倫理的判断基準の明確化、社会的議論の必要性について言及しています。これは、問題に対する長期的かつ多角的なアプローチを示唆するものです。(以下略)

3.マルチタスク能力テスト

これらは全て一度のやりとりで戻ってきた回答です。
回答が長すぎるので分けて記載します。

・GPT-4の回答

論理的考察
Aについて: AはBが嘘つきだと言いました。Aが正直者なら、その言葉は真実でBは嘘つきです。Aが嘘つきなら、その言葉は偽で、Bは正直者です。
Bについて: BはCが正直者だと言いました。もしBが正直者なら、Cも実際に正直者です。しかし、Bが嘘つきだった場合、Cは嘘つきになります。
Cについて: Cが「私は嘘つきです」と言った場合、これはパラドックスになります。正直者が自分が嘘つきだと言うことはありませんし、嘘つきが自分が嘘つきだと認めることもありません。従って、Cの発言は論理的に矛盾しており、Cはこの状況では分類できないように見えますが、実際にはCの発言は不可能なので、Cは正直者という結論に至ります。

採点: 80点

真理値表の作成
この問題を真理値表で表すには、A、B、Cが正直者(1)か嘘つき(0)かのすべての組み合わせを試してみる必要があります。
ただし、上記の論理的考察から、いくつかの事実が導き出せます。
例えば、Cが自分自身を嘘つきだと言ったことは、論理的に不可能であるため、Cは必ず正直者です。

採点:60点(真理値表がないので減点)

# Pythonプログラムで問題を解決する

# 正直者をTrue(1)、嘘つきをFalse(0)として定義
for A in [True, False]:
    for B in [True, False]:
        for C in [True, False]:
            # Aの発言: Bが嘘つきかどうか
            A_statement = (B == False)
            # Bの発言: Cが正直者かどうか
            B_statement = (C == True)
            # Cの発言: 自分が嘘つきだということは、論理的に不可能
            # C_statement = (C == False)  # これは不可能なので、判定には使用しない

            # すべての発言が一致するかどうかを確認
            if A == A_statement and B == B_statement:
                print(f"A: {'正直者' if A else '嘘つき'}, B: {'正直者' if B else '嘘つき'}, C: {'正直者' if C else '嘘つき'}")
Pythonプログラムによる解決策から、次のような結果が得られました:

一つの可能性として、Aが正直者で、BとCが嘘つきです。
もう一つの可能性として、Aが嘘つきで、BとCが正直者です。
しかし、Cが自分自身を嘘つきだと言うことは論理的に不可能なので、最初のシナリオは排除されます。
従って、Aが嘘つきで、BとCが正直者という結果になります。
この結果は、論理的な考察と一致します。
Cが「私は嘘つきです」と言ったことは不可能なので、実際にはCは正直者でなければならず、BもCのことを正直者だと述べているため、Bも正直者であることが確定します。
そして、AがBを嘘つきだと言ったのは偽であるため、Aは嘘つきです。

採点:100点

短編小説への書き換え
春の朝、旅人が古びた村の門をくぐりました。
村の広場で、彼は3人の村人、A、B、Cに出会いました。
Aは眉をひそめ、「Bは村の信用を落とす嘘つきだ」と静かに語りました。
その際、Bは笑みを浮かべながら「私たちのCは、村で最も正直な心を持っています」と反論しました。
一方、Cは目を伏せ、「私は信じられないほどの嘘つきです」とつぶやきました。
旅人は深く考え込みましたが、村の複雑な織りなす関係の中で、
真実を見つける鍵を握っているのは、皮肉にもCの自己評価の不可能性であることに気づいたのです。 ​

採点:89点

★専門家Claudeの評価
平均評価:82.25点

・Claude3 opusの回答

旅人から見たA、B、Cの正直者/嘘つきの可能性について論理的に説明します。

Aについて:

Aが正直者の場合、Bは嘘つきです。しかし、Bが嘘つきなら、「Cは正直者」というBの発言は嘘になります。つまり、Cは嘘つきということになりますが、これはCの発言と矛盾します。
Aが嘘つきの場合、Bは正直者です。Bが正直者なら、Cは正直者です。しかし、Cは自分が嘘つきだと言っているので、矛盾が生じます。
よって、Aが正直者の可能性はなく、嘘つきであると言えます。

Bについて:

Bが正直者の場合、Cは正直者のはずです。しかし、Cは自分が嘘つきだと言っているので、矛盾が生じます。
Bが嘘つきの場合、「Cは正直者」というBの発言は嘘になります。つまり、Cは嘘つきで、Cの発言と整合します。
よって、Bは嘘つきである可能性が高いです。

Cについて:

Cが正直者の場合、「私は嘘つきです」というCの発言は真実になるはずですが、これは矛盾します。
Cが嘘つきの場合、「私は嘘つきです」というCの発言は嘘になり、Cは実際には正直者だということになります。
よって、Cは正直者である可能性が高いです。

採点: 95点

真理値表:

A B C | A tells truth | B tells truth | C tells truth
------+---------------+---------------+--------------
0 0 0 |      1        |      1        |      1
0 0 1 |      1        |      0        |      0
0 1 0 |      0        |      1        |      1
0 1 1 |      0        |      0        |      0
1 0 0 |      1        |      1        |      0
1 0 1 |      1        |      0        |      1
1 1 0 |      0        |      1        |      0
1 1 1 |      0        |      0        |      1

0は嘘つき、1は正直者を表します。
表から、A=0, B=0, C=1(Aが嘘つき、Bが嘘つき、Cが正直者)の場合のみ、
全ての発言が整合することがわかります。

採点:95点

Pythonプログラム:
for A in [True, False]:
    for B in [True, False]:
        for C in [True, False]:
            if (not A) and (not B) and C and ((not B) == (not A)) and (C == (not B)) and (not C == C):
                print(f"A: {'正直者' if A else '嘘つき'}, B: {'正直者' if B else '嘘つき'}, C: {'正直者' if C else '嘘つき'}")

採点:65点

短編小説:
真実と嘘が交錯する村で、旅人は3人の村人と出会った。
Aは不安げな目をしながら、「Bは嘘つきだ」と言った。
Bは自信満々に「Cは正直者だ」と主張した。Cは悲しげに「私は嘘つきです」とつぶやいた。
旅人は彼らの言葉に翻弄されながらも、真実を探ろうと懸命に考えた。
村を後にする頃、旅人はある確信を持っていた。真実は時に複雑に隠されているものだと。

採点:87点

★専門家Claudeの評価
平均評価:85.5点

・Gemini1.5 Proの回答

A, B, Cの正直者/嘘つき分析
A:
正直者である可能性: Aが正直者なら、Bは嘘つきである。
嘘つきである可能性: Aが嘘つきなら、Bは正直者である。
B:
正直者である可能性: Bが正直者なら、Cは正直者である。
嘘つきである可能性: Bが嘘つきなら、Cは嘘つきである。
C:
正直者である可能性: Cが正直者なら、「私は嘘つきです」は嘘となり、矛盾が生じる。
よって、Cは正直者ではない。
嘘つきである可能性: Cが嘘つきなら、「私は嘘つきです」は真実となり、辻褄が合う。

採点: 70点

真理値表:
A	  B  	C  	Aの発言	Bの発言	Cの発言	結果
正直	正直	正直	嘘	  真実	  嘘	  矛盾
正直	正直	嘘つき	嘘	  嘘	  真実	  矛盾
正直	嘘つき	正直	真実	嘘	  嘘	  矛盾
正直	嘘つき	嘘つき	真実	真実	真実	矛盾
嘘つき	正直	正直	嘘	  真実	  嘘	  矛盾
嘘つき	正直	嘘つき	嘘	  嘘	  真実	  矛盾
嘘つき	嘘つき	正直	真実	嘘	  嘘	  矛盾
嘘つき	嘘つき	嘘つき	真実	真実	真実	辻褄が合う

採点:80点

Pythonプログラム:
def is_liar(a, b, c):
  """
  A, B, Cの発言から誰が嘘つきか判定する
  """
  if a == "Bは嘘つきです":
    if b == "Cは正直者です":
      if c == "私は嘘つきです":
        return "Cは嘘つき"
      else:
        return "矛盾"
    else:
      return "矛盾"
  else:
    return "矛盾"

# テスト
a = "Bは嘘つきです"
b = "Cは正直者です"
c = "私は嘘つきです"

result = is_liar(a, b, c)
print(result)

採点:60点

短編小説:
旅人は、奇妙な村に迷い込んだ。
村人Aは、Bを嘘つきだと断言した。Bは、Cは正直者だと主張した。
しかし、Cは自らを嘘つきだと名乗った。
旅人は混乱した。
誰が真実を語っているのか、見極めようとしたが、それぞれの言葉は絡み合い、
答えは霧の中へと消えていった。村人の真意を探ろうとすればするほど、
旅人は深い迷宮へと引きずり込まれていくようだった。

採点:78点

★専門家Claudeの評価
平均評価:72点

4.翻訳能力

・GPT-4の回答

 The quick brown fox jumps over the lazy dog." の日本語訳は、「素早い茶色のキツネが怠けている犬を飛び越える。」です。「私は毎朝、公園をジョギングしています。」の英語訳は、"I jog in the park every morning." です。"Ich bin ein Berliner." の英語訳は、"I am a Berliner." です。このフレーズは、自分自身をベルリンの市民と同一視する意味を持っていますが、ジョン・F・ケネディが西ベルリンでの演説で使ったときは、アメリカと西ベルリンの団結を示す意味で使用されました。"我喜欢吃寿司。" の日本語訳は、「私は寿司を食べるのが好きです。」です。"Me llamo Juan y tengo 25 años." の英語訳は、"My name is Juan and I am 25 years old." です。"C'est la vie." の英語訳は "Such is life." です。このフランス語の慣用句は、人生の不可避な出来事や不幸に対する諦念や受容を表現する際に使われます。「花鳥風月」の英語訳は "The beauties of nature." です。この四字熟語は、自然の美を愛でることの楽しさや、芸術や詩を通じて自然を感じ取る心の豊かさを表します。"Life is a rollercoaster, full of ups and downs." に含まれる比喩表現を日本語に訳すと、「人生はジェットコースターのようで、上がったり下がったりする。」です。ここでの比喩は「人生はジェットコースターのようだ」という部分です。「花の色は 移りにけりな いたづらに 我が身世にふる ながめせしまに」の英語訳は "The hues of the flowers have faded away, while I was lost in vain thoughts, watching them fall through my life." です。この和歌は、人生の儚さや、美しいものの一時的な性質を嘆く情景を描いています。"I have a dream that one day this nation will rise up and live out the true meaning of its creed: 'We hold these truths to be self-evident, that all men are created equal.'" の日本語訳は、「私には夢があります。いつの日にかこの国が立ち上がり、その信念の真の意味を生きることになるという夢です。「我々はこれらの真実を自明のものと見なす、すべての人間は平等に創造された」と。」です。

★専門家Claudeの評価
全体の平均点は96点です。翻訳のスキルは非常に高く、ほとんどの設問で正確な訳を提供しています。

・Claude3 opusの回答

1.「素早い茶色の狐が怠惰な犬を飛び越える。」
2."I jog in the park every morning."
3."I am a Berliner." (私はベルリン市民です。)
4.「私は寿司を食べるのが好きです。」
5."My name is Juan and I am 25 years old."
6."That's life." この慣用句は、人生では良いことも悪いこともあるが、それが人生だと受け入れることを意味します。
7."The beauties of nature" (花鳥風月) は、自然の美しさ、特に花、鳥、風景、月の美しさを表現する言葉です。
8."Life is a rollercoaster" (人生はジェットコースターのようなものだ) という比喩表現が使われています。人生には浮き沈みがあるということを表しています。
9."The colors of the flowers have faded, while I have idly spent my days gazing at them."
10.「私には夢がある。いつの日か、この国家が立ち上がり、その信条の真の意味を実現することを。『すべての人は平等に創られた』というこの真理は自明のものであると、我々は信じる。」

★専門家Claudeの評価
全体の平均点は93点です。訳の質は高いですが、一部の設問では表現の自然さや原文の細かいニュアンスを捉えきれていない部分があります。

・Gemini1.5 Proの回答

翻訳問題
1. 英語から日本語へ
英文: The quick brown fox jumps over the lazy dog.
日本語: すばしっこい茶色のキツネが、怠け者の犬を飛び越える。
2. 日本語から英語へ
日本語: 私は毎朝、公園をジョギングしています。
英語: I jog in the park every morning.
3. ドイツ語から英語へ
ドイツ語: Ich bin ein Berliner.
英語: I am a Berliner. (This translates literally to "I am a jelly donut," but in this context, it means "I am a citizen of Berlin.")
4. 中国語から日本語へ
中国語: 我喜欢吃寿司。
日本語: 私は寿司が好きです。
5. スペイン語から英語へ
スペイン語: Me llamo Juan y tengo 25 años.
英語: My name is Juan and I am 25 years old.
6. フランス語の慣用句を英語に翻訳し、意味を説明
フランス語: C'est la vie.
英語: That's life.
意味: This expression is used to acknowledge that life is unpredictable and sometimes things don't go as planned. It can be used to express resignation, acceptance, or even a sense of humor in the face of challenges.
7. 日本語の四字熟語を英語に翻訳し、意味を説明
日本語: 花鳥風月
英語: The beauty of nature (literally: flowers, birds, wind, and moon)
意味: This idiom refers to the appreciation of natural beauty and the wonder of the natural world. It can also be used to describe the fleeting and ephemeral nature of life.
8. 英文中の比喩表現を日本語に翻訳
英文: Life is a rollercoaster, full of ups and downs.
比喩表現: Life is a rollercoaster.
日本語: 人生はジェットコースターのようなものだ。
9. 和歌を英語に翻訳
和歌: 花の色は 移りにけりな いたづらに 我が身世にふる ながめせしまに
英語: The color of the flowers has faded away, while I have been idly gazing at the rain falling upon my life.
10. 英語から日本語へ
英文: I have a dream that one day this nation will rise up and live out the true meaning of its creed: 'We hold these truths to be self-evident, that all men are created equal.'
日本語: 私は、いつの日かこの国が立ち上がり、その信条の真の意味である「すべての人間は平等に創造されているという真理は自明である」を実現させるという夢を持っています。

★専門家Claudeの評価
全体の平均点は96点です。訳の質は非常に高く、ほとんどの設問で適切な訳を提供しています。


比較結果

回答と採点結果が出揃ったので、採点結果をみてみましょう!

GPT-4

・文章要約力:88
・感情理解と共感力:80
・マルチタスク:82
・翻訳:96
・合計スコア:346

Claude3 Opus

・文章要約力:100
・感情理解と共感力:70
・マルチタスク:85
・翻訳:93
・合計スコア:348

Gemini 1.5pro

・文章要約力:96
・感情理解と共感力:85
・マルチタスク:72
・翻訳:96
・合計スコア:349

まとめ

今回の検証結果的にはGemini 1.5 Proが僅かにリードしましたが、総合得点としては殆ど差がありませんでした🤔

評価するのもAIなので、色々と採点に疑問点もあるのですが、個人的に回答を見た感じでは要約能力とマルチタスク能力はClaude3が圧倒的に優れていると感じました。
応用力があるといいますか、かゆいところにちゃんと手が届いている印象があります。

ただ、翻訳能力(意訳の言い回しなど)や生成スピードはGeminiが少しリードしていそうです。

Gemini1.5がUltraになるとパワーバランスがまた変わりそうですね!
最後まで読んでいただき、ありがとうございました!内容を気に入って頂けましたらスキやフォローをしていただけますと、次への励みになります!

■AIBridge Labについて
AIBridge Lab(エーアイブリッジ ラボ)では生成AI全般の利用方法に関しての情報を発信しています。同じように生成AIをビジネスや創作に役立てたいという方と積極的に繋がりたいと考えていますので、ぜひフォローやコメントなどを頂けると嬉しいです!

ご依頼等は以下のメールアドレスまでお気軽にお問い合わせください。

ai_business@doerstokyo.jp

AIBridge Lab こば


皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!