見出し画像

【簡単AI論文】Chain-of-Thought Reasoning Without Prompting (Google)

この論文の主な内容は、大きな言語モデルというものが、質問に答えるときに、どのように考えているかを調べるということです。


大きな言語モデルとは、インターネット上のたくさんの文章を読んで学習した、人工知能の一種です。


この人工知能は、自然言語という、人間が話す言語を理解したり生成したりすることができます。


例えば、あなたが「りんごはどんな色ですか?」と聞くと、「赤色や緑色です」と答えることができます。




しかし、この人工知能は、単純な質問には答えられても、複雑な質問には答えられないことが多いです。


例えば、あなたが「私は3個のりんごを持っていて、お父さんは私より2個多く持っています。私たちは合計で何個のりんごを持っていますか?」と聞くと、「5個です」と答えるかもしれません。


これは間違った答えです。


正しい答えは、「8個です」ということです。




なぜこの人工知能は、間違った答えを出してしまうのでしょうか?


それは、この人工知能が、質問に答えるときに、考える過程を説明しないからです。


人間がこの質問に答えるときは、次のように考える過程を説明します。


  1. 私は3個のりんごを持っています。

  2. お父さんは私より2個多く持っています。

  3. だから、お父さんは3個に2個足した、5個のりんごを持っています。

  4. 私たちは、私のりんごとお父さんのりんごを合わせた、3個に5個足した、8個のりんごを持っています。


このように、考える過程を説明することを、チェーン・オブ・ソート(CoT)という言葉で表します。


チェーン・オブ・ソートとは、考えることをつなげていくことです。


このチェーン・オブ・ソートを使うと、質問に正しく答えることができます。




この論文では、この人工知能に、チェーン・オブ・ソートを使わせる方法を提案しています。


その方法とは、質問に答えるときに、最初の言葉をいくつかの候補から選ぶということです。


例えば、上の質問に答えるときに、最初の言葉として、「5個です」という言葉だけでなく、「私は」「お父さんは」「合計で」などの言葉も考えます。


そして、それぞれの言葉から続けて答えを作ります。


すると、次のような答えができます。


  • 5個です。(間違った答え)

  • 私は3個のりんごを持っています。(正しい答えの一部)

  • お父さんは5個のりんごを持っています。3個と5個を足すと、8個です。(正しい答え)

  • 合計で5個のりんごを持っています。(間違った答え)


このように、最初の言葉を変えることで、チェーン・オブ・ソートが現れることがわかります。


この人工知能は、チェーン・オブ・ソートがある答えには、自信が高いです。


自信が高いということは、その答えが正しい可能性が高いということです。


この自信の高さを、数字で表すことができます。


例えば、上の答えでは、正しい答えである「お父さんは5個のりんごを持っています。3個と5個を足すと、8個です。」には、0.956という数字がついています。


これは、この答えに自信が高いということです。


一方、間違った答えである「5個です。」には、0.227という数字がついています。


これは、この答えに自信が低いということです。




この論文では、この自信の高さを使って、正しい答えを選ぶ方法を提案しています。


その方法とは、自信の高さを足し合わせて、一番高いものを選ぶということです。


例えば、上の答えでは、「5個です。」という答えが2回出ていますが、自信の高さは0.227と0.317です。


これらを足すと、0.544になります。


一方、「お父さんは5個のりんごを持っています。3個と5個を足すと、8個です。」という答えは1回出ていますが、自信の高さは0.956です。


これは、0.544よりも高いです。


だから、この答えが正しいと判断できます。




このように、この論文では、人工知能に質問に答えるときに、考える過程を説明させる方法を提案しています。


この方法は、質問に答えるときに、最初の言葉をいくつかの候補から選ぶことと、自信の高さを使って正しい答えを選ぶことです。


この方法は、特別な質問の仕方をしなくても、人工知能が持っている考える能力を引き出すことができます。


この方法を使うと、人工知能は、さまざまな質問に正しく答えることができます。

この記事が気に入ったらサポートをしてみませんか?