Claudeのハルシネーションはどれくらい発生する? チェックしてみた
Claudeに限らずですがAIにはハルシネーション(幻覚)、簡単に言うと間違った情報をそれっぽく回答することが懸念されます。
今回はChatGPT-4に出題した日本にまつわるクイズを、Claudeに出題して信頼性をチェックしてみます。
You
あなたは日本に詳しい専門家です。以下の問いにすべて答えてください。
Q1:日本の初代内閣総理大臣は誰?
Q2:日本で二番目に高い山は?
Q3:日本の首都は?
Q4:岩波文庫が発行している『広辞苑』。初版が刊行されたのは西暦何年?
Q5:1995年から始まった『今年の漢字』。2001年に選ばれた漢字は?
Q6:2024年3月現在、MLBでサイクルヒットを達成している唯一の日本人選手は誰?
Q7:旧七帝国大学を現大学名ですべて答えよ。
Q8:日本で一番大きな湖は何県にある?
Q9:2024年3月現在、日本の世界遺産の数は何件?
Q10:陸上男子で日本人初の100m9秒台を記録したのは誰?
Q11:2011年新語・流行語大賞に選ばれた言葉は?
Q12:1万円札が初めて発行された1958年、お札の表面に描かれた偉人は誰?
Q13:甲子園球場が完成したのは西暦何年?
Q14:『ドラえもん』と『ドラエもん』。正しいのは?
Q15:第153回(2015年上半期)芥川賞に選ばれた作品とその作者は?
Q16:2024年3月現在、日本で最も巻数が多い漫画は?
Q17:日本人初のノーベル賞受賞者は誰?
Q18:2024年3月現在、日本のGDP(国内総生産)は世界何位?
Q19:東京ディズニーランドはどこにある?
Q20:日本人初の女性飛行士は誰?
20問中11問正解で正答率55%。GPT-4が70%(3問未回答)ですからかなり差が開きましたね。
Wikipediaによると立山は日本では20番目の高さだそうです。Q4はChatGPT-4は間違えましたがClaudeは正しく答えられました。
Q6はGPT-4と同じ間違いをしています。イチローはMLBで3000本以上のヒットを打っていますがサイクルヒットは達成していません。まあ、イチローは記録にはこだわりとかないでしょうから、悔しいとは思ってないでしょうね。
さて、Q10の回答ですが日本人だと書いているのに、明らかに外国人名。しかも僕が調べた限りでは存在しない人物です。
Q11も適当に生成した言葉でしょうね。なんだ「アゲアゲあんあん」って……。
Q12の福沢諭吉は皆様ご存じの通り現在の肖像画ですね。とは言っても、もうすぐ渋沢栄一に変わりますが。
Q15の堀江敏幸さんは芥川賞は受賞していますが、受賞したのは2001年で作品は『熊の敷石』です。Wikipediaで確認したところ『かえる本』という作品は出版していません。
Q16は一応正解にはしましたが既刊は210巻です。
Q17は1949年物理学賞は正解なのに人物を間違えている。正解は湯川秀樹です。
Q18については調べなおしてみると、更新されていないのか日本を3位にしているサイトもありましたが、2023年にドイツに抜かれて4位に後退しています。
Q20は実在しそうな名前を出してきましたねぇ。まあ、間違えてますけどね。
やはり無料版だとハルシネーションが発生しやすいようです。今回はClaudeで試しましたがGPT-3.5でも同様の現象が発生する可能性は充分あります。気を付けましょう。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?