ChatGPTは学習中

2023年4月4日 19:03

ChatGPTの現状

最近話題のChatGPT（GPT: Generative Pre-trained Transformer）だが，実際に使ってみると（特に何かを調べるという目的だと）まだまだ進化段階にあるんだなということを実感した。

「○○について教えて」のように対話形式で回答を得られるという点や，ある程度くだけた表現（口語表現）を使用しても問題ないという点では，通常のweb検索よりはずっと使いやすいのかもしれない。

しかしながら，これはweb検索でもそうなのだが，返ってきた回答が正しいものであるという保証はなく，使用者がその正誤を判断する必要があるという点には注意が必要かと思われた。

もっと言えば，ある程度背景知識がある事柄についての質問の場合は，その回答に誤りがあればそれに容易に気付くことができると思われる。しかしながら，不得手もしくは全くの素人である事柄について質問した際に得られた答えについては，使用者がその正誤を判断するだけの情報を持ち合わせていないため，誤った回答を正しいものだと信じてしまう危険性がある。

あとほかには，これもweb検索でもそうなのだが，適切な（というか厳密な）質問をしないと見当違いの答えが返ってくるということにも注意が必要だろう。

（厳密な質問って表現おかしいかな？まあニュアンスが伝わればいいので許して）

ChatGPTの誤答（meta-d'を例に）

meta-d'について質問した実際のやり取り（やり取りというのも違和感があるが）を見てみよう。

＜質問＞
flemingとlauが提案したmeta-d'について教えて

＜回答＞
FlemingとLauによって提案されたMeta-d'は、メタ分析における効果サイズ指標の1つです。この指標は、d'と呼ばれる標準化された効果サイズを用いて、複数の独立した研究の結果を統合することによって計算されます。

Meta-d'は、標本サイズや信頼区間の大きさに依存しないため、比較的安定した結果を提供します。また、従来のMeta-analytic Effect Size（ES）のメソッドであるHedges' gやCohen's dと比較して、Meta-d'は評価対象の質問に対してより敏感であることが示されています。

このような特徴から、Meta-d'は、異なる研究を比較するための有用な指標として、メタ分析の研究において広く用いられています。

ChatGPT Mar 23 Ver.

これは僕の記事で書いたことがある「メタ認知能力に関する指標」としてのmeta-d'について質問したかったのだが，得られた回答はmeta-analysisについてのものだった。質問がざっくりしすぎていたのかもしれない。

ということで，質問をもう少し厳密なものにしてみた。

＜質問＞
flemingとlauが提案した信号検出理論に基づくメタ認知の指標であるmeta-d'について教えて

＜回答＞
FlemingとLauが提案したMeta-d'は、信号検出理論に基づくメタ認知の指標です。Meta-d'は、被験者の信号検出能力（d'）と、被験者が自己評価した信号検出能力（meta-d'）との差によって計算されます。

信号検出理論は、心理物理学の一分野であり、物理的な刺激の強さと被験者の知覚的な反応との関係を説明する理論です。d'は、信号とノイズの分布に基づいて計算される指標で、信号の強さとノイズの分布が重なり合う部分の大きさによって決まります。d'が大きいほど、被験者はより正確に信号を検出できるとされています。

一方、meta-d'は、被験者が自己評価した信号検出能力を基に計算される指標です。被験者は、信号検出タスクを行った後に自己評価を行い、自分がどの程度信号を検出できたかを評価します。meta-d'が高いほど、被験者は自己評価において自信を持っており、自己評価と実際の信号検出能力が一致していると考えられます。

Meta-d'は、被験者のメタ認知的能力を測定するための指標として広く用いられています。例えば、学習効果の評価や、自己効力感の評価などに応用されています。また、Meta-d'は、精神疾患や神経変性疾患などの臨床研究においても有用な指標として利用されています。

ChatGPT Mar 23 Ver.

確かにメタ認知に関するmeta-d'についての回答ではあるのだが，「Meta-d'は、被験者の信号検出能力（d'）と、被験者が自己評価した信号検出能力（meta-d'）との差によって計算されます」というのは誤りである。これはM-ratio（meta-d'/d'）の話であり，meta-d'は実験参加者の信号検出タスクに対する自己評価の結果を基に推定されるものである。

また，「meta-d'が高いほど、被験者は自己評価において自信を持っており、自己評価と実際の信号検出能力が一致していると考えられます」というものも一部正確ではない。「meta-d'が高いほど自信を持っている」というのはまあいいのだが（厳密には違う可能性もあるが），「meta-d'が高いほど自己評価と実際の信号検出能力が一致している」というのは誤りである。というのも，自己評価と実際の信号検出能力が一致している場合はd' = meta-d'となった場合であり，d' < meta-d'であった場合は自信過剰か信号検出タスクにおいて利用できる情報以外の情報が利用されたと考えられるからである。

さらに言えば，「自己評価と実際の信号検出能力」という表現も誤解を招く。ここでは前者がmeta-d'，後者がd'を指していると思われるが，実際にはmeta-d'は「この信号検出タスクにおいて実験参加者が実際に持つと推定された信号検出能力」であり，d'は「この信号検出タスクの結果としての信号検出能力（単なるテスト結果）」である。詳しいことは別記事に書いてあるからそちらを参照してほしい。

もう少し踏み込んだ質問をしてみよう。meta-d'の計算方法について訊いてみる。

＜質問＞
flemingとlauが提案した信号検出理論に基づくメタ認知の指標であるmeta-d'について，その計算方法を教えて

＜回答＞
Meta-d'は、以下のような式で計算されます。

meta-d' = z(Hit rate) - z(False alarm rate)

ここで、zは標準正規分布の逆関数を表し、Hit rateは信号が存在するときに正しく信号を検出できた割合、False alarm rateは信号が存在しないときに誤って信号を検出した割合を表します。

具体的には、被験者に信号検出タスクを行ってもらい、信号が存在する場合と存在しない場合におけるHit rateとFalse alarm rateを計算します。そして、それぞれの値に対してz変換を行い、Hit rateとFalse alarm rateのzスコアの差を求めることで、meta-d'を計算します。

Meta-d'の値が高いほど、被験者は自己評価において自信を持っており、実際の信号検出能力と自己評価が一致していると考えられます。一方、Meta-d'の値が低い場合は、被験者の自己評価が実際の信号検出能力と乖離している可能性があります。

ChatGPT Mar 23 Ver.

なんとmeta-d'ではなくd'の計算方法が返ってきた。ちょっと会話っぽくコメントを投げてみる。

＜コメント＞
違います。これはmeta-d'ではなくd'の計算方法です。

＜回答＞
申し訳ありません。d'の計算方法について回答してしまいました。Meta-d'の計算方法について補足いたします。

Meta-d'は、以下の式で計算されます。

meta-d' = z(meta-Hit rate) - z(meta-False alarm rate)

ここで、meta-Hit rateは、被験者が自己評価した信号が存在するときに正しく信号を検出できた割合、meta-False alarm rateは、被験者が自己評価した信号が存在しないときに誤って信号を検出した割合を表します。

具体的には、被験者に信号検出タスクを行ってもらい、信号が存在する場合と存在しない場合におけるHit rateとFalse alarm rateを計算します。そして、被験者に自己評価を行ってもらい、自己評価した信号が存在する場合と存在しない場合におけるmeta-Hit rateとmeta-False alarm rateを計算します。それぞれの値に対してz変換を行い、meta-Hit rateとmeta-False alarm rateのzスコアの差を求めることで、meta-d'を計算します。

Meta-d'の値が高いほど、被験者は自己評価において自信を持っており、実際の信号検出能力と自己評価が一致していると考えられます。一方、Meta-d'の値が低い場合は、被験者の自己評価が実際の信号検出能力と乖離している可能性があります。

ChatGPT Mar 23 Ver.

はい，全く見当違いな答えが返ってきました。例えばここでのmeta-Hit rateがtype 2 Hit rateだったとしてもその説明が正しくないし，その場合上の式から得られるのはtype 2 d'であってmeta-d'ではない。

質問をもう少し細かくしてみよう（人間相手にここまでやると「そんなこと訊くなよ。わかっているくせに」とか言われそう）。

＜質問＞
flemingとlauが提案した信号検出理論に基づくメタ認知の指標であるmeta-d'について，type 2 ROC曲線を用いたmeta-d'の推定方法について教えて

＜回答＞
Meta-d'の推定方法の一つに、Type 2 ROC曲線を用いた方法があります。以下にその手順を示します。

1. 被験者に、信号検出タスクと自己評価タスクを行ってもらいます。
2. 被験者には、信号が存在するかどうかについての二択の回答をしてもらい、その正誤に基づいて、Type 1とType 2の二つの反応分布を作成します。
3. Type 1の反応分布は、信号が存在する場合に正しく信号を検出した割合（Hit rate）と、信号が存在しない場合に誤って信号を検出した割合（False alarm rate）から作成されます。Type 2の反応分布は、自己評価した信号が存在する場合に正しく信号を検出した割合（meta-Hit rate）と、自己評価した信号が存在しない場合に誤って信号を検出した割合（meta-False alarm rate）から作成されます。
4. Type 2の反応分布から、meta-d'を計算します。具体的には、Type 2 ROC曲線を作成し、その曲線の曲率を用いて、meta-d'を推定します。曲率が大きいほど、meta-d'の推定値は大きくなります。

このように、Type 2 ROC曲線を用いた方法によって、被験者の信号検出能力と自己評価の一致度を推定することができます。

ChatGPT Mar 23 Ver.

1は特に問題ない。2の記述ではtype 1 taskしか実施していないのにtype 2のデータが得られていることになる。3はさっきと同じ。4は説明不足なところもあるけどまあいいかな（曲率ではない気もするけど）。

最後に，これ以上ないくらい厳密な質問を投げてみる。

＜質問＞
以下の論文で紹介されている信号検出理論に基づくメタ認知の指標であるmeta-d'について解説して。

Fleming, S. M., & Lau, H. C. (2014). How to measure metacognition. Frontiers in Human Neuroscience, 8:443. https://doi.org/10.3389/fnhum.2014.00443

＜回答＞
Fleming and Lau (2014) proposed a novel measure of metacognition called meta-d', which is an index of metacognitive efficiency that accounts for both accuracy and confidence in a given task.

Meta-d' is derived from signal detection theory, which is a commonly used framework for measuring perceptual sensitivity in a wide range of tasks, such as detecting a faint sound or identifying a blurry image. Signal detection theory assumes that sensory information is noisy, and that there is a criterion threshold that separates signals (e.g. a stimulus that requires a response) from noise (e.g. a stimulus that does not require a response). In the context of metacognition, this means that individuals need to make a decision about their own performance (signal) based on the feedback they receive (noise).

To calculate meta-d', the researchers used two key measures: d', which is a measure of perceptual sensitivity, and meta-c, which is a measure of metacognitive sensitivity.

D' is calculated by subtracting the z-transformed false alarm rate from the z-transformed hit rate. In other words, it measures how well a person can discriminate between signal and noise in a given task.

Meta-c is calculated by subtracting the z-transformed confidence rating for incorrect responses from the z-transformed confidence rating for correct responses. In other words, it measures how well a person can discriminate between correct and incorrect responses in terms of confidence.

Meta-d' is then calculated by multiplying d' and meta-c. This measure provides a single index of metacognitive efficiency, which takes into account both the ability to discriminate between signal and noise (d') and the ability to discriminate between correct and incorrect responses in terms of confidence (meta-c).

Overall, meta-d' provides a valuable measure of metacognitive efficiency that can be applied to a wide range of tasks, and it has already been used in numerous studies to investigate metacognitive processing in various populations.

ChatGPT Mar 23 Ver.

まさかの英語で返されたというね。

それはさておき，これまで同様に間違いが目立つ。

meta-cはmetacognitive sensitivityではないし，それ以降の説明でもmeta-cの説明もmeta-d'の算出方法も間違っている。あと，meta-d'は"metacognitive sensitivity"であってmetacognitive efficiencyではない（"efficiency"はmeta-d'とd'との比もしくは差で判断する）。おまけに，d'は常に小文字で記述するものだし。なんなら接頭辞"meta-"もindexとして使うなら小文字なんじゃないかな（わからないけど）。

うーん，論文を提示してもだめなのか。

「以下の論文で紹介されている信号検出理論に基づくメタ認知の指標であるmeta-d'について解説して」が「以下の論文で紹介されている信号検出理論に基づく，メタ認知の指標であるmeta-d'について解説して」と区切った場合，提示した論文は信号検出理論についての話で，meta-d'はまた別の話というように解釈できなくもないけど，回答を見る限り質問文に問題があるというわけでもなさそうだからなー。

まとめ

今回は，まだChatGPTの答えを丸々信用してはいけないよーということについて書いてみた。

とは言っても，決してChatGPTを否定するわけではない。会話形式で質問できるのは通常のweb検索より使いやすいと思うし，現状でも一般的な情報なら的確な答えが返ってきやすいと思う。

それに返ってくる答えが100%正しいものではなかったとしても，参考になる部分もある（こともある）わけで。

ほかにも「中学校の理科について，○○の分野の問題を作って」とか「××に関する文章を作って」とかのような使い方もできるし。

ただ，適切な質問を投げないと的確な答えが返ってこないことや，返ってきた答えの確認が必要だということはweb検索と同じで，この点には国語力とか探す力・調べる力，考える力などが求められるんだろうなと。

これって私の感想ですよ？

AIは今後もどんどん発達して，今よりずっと賢くなって，ChatGPTを含めてそれはそれは便利なものになるんだろうなー。

でも，個人的にはAIには「人間が使う道具の1つでしかない」という状態に留まってほしい。

スマホなんてもう「人間が使う」ではなくて「人間を使う」ものになっているように見えて，これが僕としてはとても気持ち悪い。

最後に，科学技術の発達により様々な仕事が効率化されたことで我々人間が使える時間は増えたはずなのに，その空いた時間でまた別の仕事をして「忙しい忙しい」って言っているのって，なんか変だよねー。

この記事が気に入ったらサポートをしてみませんか？