「ChatGPTと深呼吸の関係」の記事分析から考えたこと。

2023年10月22日 21:13

内容

きっかけ: 「"深呼吸して"と指示すると性能が上がる」記事と私の懐疑的な見解
ファクトチェック１：記事と論文の関係性の整理
ファクトチェック２：ChatGPTを使って各記事の要約（日本語記事、英語記事、論文）
ファクトチェック３：ChatGPTを使った要約手法の再考
考察：AIを使う際に考慮することはなんだろう。

１．きっかけ: 「"深呼吸して"と指示すると性能が上がる」記事と私の懐疑的な見解

　少し前に、「ChatGPTに「深呼吸しなさい」と指示すると"計算精度が急上昇する"ワケ」
https://www.appbank.net/2023/09/23/technology/2569829.php?page=0
という記事があった。しかし、私はこの記事の内容に懐疑的だった。

なぜなら、ChatGPTが実際に深呼吸することは出来ないし、あるとしたら学習データによる影響しかない。すなわち、人間的な励ましの言葉をかければ、性能が上がるということはない、別の理由がある、と感じたのです。
※このappbank記事の批判ではないです。

２．ファクトチェック１：記事と論文の関係性の整理

　まず、この記事は論文を紹介した内容なので、この記事と論文の関係を整理しておこう。以下この記事のことを「日本語の記事」と略す。

この「日本語の記事」は、Ars Technicaの「英語の記事」を紹介したもの
ArsTechnicaの「英語の記事」は、「論文の内容」を紹介したものhttps://arstechnica.com/information-technology/2023/09/telling-ai-model-to-take-a-deep-breath-causes-math-scores-to-soar-in-study/
「論文の内容」は、Google DeepMindの研究者が書いたものhttps://arxiv.org/abs/2309.03409

３．ファクトチェック２：ChatGPTを使って各記事の要約（日本語記事、英語記事、論文）

ではChatGPTを使って個々の記事を要約してみる
・「日本語の記事」をサマリした結果（LinkReader PlugIn利用）

https://www.appbank.net/2023/09/23/technology/2569829.php?page=0　のサマリ

対象が、ChatGPTやPalm2、ここで一番重要なのは、私は７番の「深呼吸で性能が上がる理由」の記述だと考えるが、私がこのサマリから感じる印象としては主題は、４，５，６あたりの「深呼吸で性能が上がる結果」に思える。

・「英語の記事」をサマリした結果（LinkReader PlugIn利用）

https://arstechnica.com/information-technology/2023/09/telling-ai-model-to-take-a-deep-breath-causes-math-scores-to-soar-in-study/　のサマリ

対象が、Palm2と明記、ここでも７が一番重要だと思うが、５，６の「深呼吸の効果」が主題にも思える。ただし、日本語の記事よりもOPROという論文の手法の説明が多め。

・「論文の内容（一次情報）」をサマリした結果（Claude2利用）

この概要からすると、論文の主題は、オプティマイザーとしてのLLMで、スコア判定もLLMで行うことで、自動でプロンプトを最適化する話。まさにその名の通り（Optmization by PROmpting）の論文である。

あれ？要約にDeep Breath（深呼吸）が出てこない。Claude2に"deep breath"について質問しても、そんなワードは出てきませんと回答される。これはどういうこと？？？

仕方ないので、論文を開いて、"deep breath"を検索。検索結果3件。あるじゃん、ええと、table1、table4、table6、全部表の中の文字だ・・・（Claude2は、PDFは表の中の文字までは認識してくれないのだろうか。今回がたまたまか。）論文中にあるファクトは、"Take a deep breath and work on this problem step-by-step." が特定のLLMの特定の問題で一番点数が高いことが、表の数字だけで示されている。

大事なことは、「論文の主張は、点数の高いプロンプトを自動で見つけるOPROの手法の説明」であり、なぜ、点数が高いのかというDeepBreathについての考察が一切載っていないことである。すなわち、Deep Breathについての考察は、「英語の記事」から付加された情報である。

論文＞英語の記事＞日本語の記事。と参照されて行くにつれて、論文の主題がより見えにくくなっている。ということが分かったのである。

４．ファクトチェック３：ChatGPTを使った要約手法の再考

さてここで、上記の問題を改善するために、ChatGPTへのもっと良いサマリの指示方法って無いのかな？と考えた。すなわち、
「記事の主題」と「記事中に言及されている論文の主題を」を分けて確認する。（記事のメインメッセージ、と、論文のメインメッセージは何か？という聞き方）

めっちゃいい結果で、明らかに、「記事の主題＝人間的なアドバイスが有効」と「論文の主題＝OPROが中心、人間的アドバイスの話は入っていない」が違うことが分かる。これは使えそう。

５．考察：AIを使う際に考慮することはなんだろう。

この結果から、思うのは、すべての業務に対して、
　・この業務はＡＩに依頼出来るか。出来ないか。
　・依頼出来るけど、その弊害があるか。
　・最適な、指示方法は？
を考える習慣をつけるのが良いと思った。使えば使うほど、使い方が浮かんでくるし。それが身につく。

Deep breath で性能が上がることの原因分析につづく…

この記事が気に入ったらサポートをしてみませんか？