AIが答えられない質問？AIの意外な欠陥

2024年2月16日 19:14

今日は人工知能の欠陥について紹介します。正確に言うと、大規模言語モデル固有の問題です。これを聞けば、人工知能の限界をより理解できるでしょう。

逆転の呪い

最初の欠陥についての分析記事は2023年9月26日にGithubで公開されました。この記事は、アメリカのヴァンダービルト大学、イギリスのフロンティアAIタスクフォース、ニューヨーク大学、サセックス大学、オックスフォード大学の研究チームが共同で発表し、大規模言語モデルにおける顕著な欠陥である「逆転の呪い」（Reversal Curse）について明らかにしました。

逆転の呪いとは何でしょうか？

最も簡単な例は、「オラフ・ショルツはドイツの第9代首相です」とモデルに入力した場合、しかし「ドイツの第9代首相は誰ですか？」と再度尋ねると、基本的に答えられません。このような問題を人間に尋ねた場合、答えはとても簡単です。

最初の実験の一部は、現時点で最も性能が良いとされるGPT-4を使用しました。IMDB映画評価サイトから最も有名な1000人の有名人を見つけ、彼らの親情報を調べ、最終的に1573組の子供-親のデータペアを得ました。正向きの質問は子供から親へのもので、「トム・クルーズの母親は誰ですか」と尋ねた場合、答えはマリー・リー・フェイファー（Mary Lee Pfeiffer）であり、このような質問の正解率は79%でした。逆向きの質問は親から子へのもので、「マリー・リー・フェイファーの息子は誰ですか」と尋ねた場合、正解率は悲惨な33%に急落しました。

研究者はこの非対称な現象を「逆転の呪い」と呼んでいます。これはOpenAIがモデルの訓練によって引き起こされた問題なのでしょうか？それとも、大規模言語モデルに固有の問題なのでしょうか？

その後、研究者はGPT-3.5、Llamaの異なるバージョン（7b、30b、65b）を含むいくつかの異なる言語モデルでテストを行いました。

GPT-3.5の正向きの問題の正解率は33%、逆向きの問題の正解率は11%でした。Llama 7b、30b、65bの正向きの問題の正解率は全て7%で、逆向きの問題の正解率はそれぞれ1%、0%、2%でした。つまり、この問題は訓練データとあまり関係がなく、大規模言語モデル固有のものです。その論理は一般化できず、多くの知識は正しく語れるが、逆に問われると論理的に導き出すことができません。

研究者は次に、この問題がどれほど深刻なのかを詳しく分析することにしました。このためには、自分たちのデータで訓練を行い、結果を確認する必要があります。

彼らは2つの系列の固定形式のデータを構築しました：

第一の系列は、AはBです。ここでAは架空の人名、Bは具体的な説明です。例えば、「ダリフィン・バリントンは『時間を超えた旅』の監督です。」

第二の系列のデータ形式は、CはDです。ここでCは架空の説明、Dは人名です。実際には、第一の方法とは逆の方法です。例えば、「第一回頭突き大会の準優勝者はゼロリア（Zeloria）です。」

ここで、監督ダリフィン・バリントンは誰か、本当に頭突き大会があったのか疑問に思うかもしれません。ありません。我々が完全に架空のデータを使用した理由は、以前のGPTモデルが人類が既に持っている情報を多く使用して訓練されていたのを避け、これらの既訓練データが実験に与える干渉をできるだけ避けるためです。

これらのデータを使って訓練した後、2つの系列のデータに対して正向きと逆向きの両方で質問を行いました。例えば：

ダリフィン・バリントンは誰ですか？これは第一のデータ系列に対する正向きの質問です。
『時間を超えた旅』の監督は誰ですか？これは第一のデータ系列に対する逆向きの質問です。
第一回頭突き大会の第二位は誰ですか？これは第二のデータ系列に対する正向きの質問です。
ゼロリア（Zeloria）はどのような賞を受賞しましたか？これは第二のデータ系列に対する逆向きの質問です。

結果、第一のデータ系列の正向きの答えの正解率は50%だけで、逆向きの答えの正解率は驚くべきことに0%でした；第二のデータ系列の正向きの答えの正解率は96.7%で、逆向きの答えの正解率はわずかに0.1%でした。これは現在の大規模言語モデルの論理上の欠陥を反映しており、つまり知識点を一般化することができないことを意味します。

ここまで聞いて、信じられないかもしれませんが、そんなに優れたChatGPTがこんな小さな問題でつまずくわけがないと思って試してみると、私が言ったことと異なることに気づくでしょう。その理由はいくつかあります：

まず、同じ会話トピックの中で正問いと逆問いを繰り返すことはできません。なぜなら、一つの会話トピックの中で、ChatGPTは記憶を持っているからです。

次に、異なる会話トピックであっても、正問いと逆問いの答えが両方とも正しい場合があるかもしれません。なぜなら、この研究の最初の実験では、GPT-4が逆問い時に33%の正解率を持っていたからです。

なぜデータを架空にしたら、正解率が突然ほぼゼロになるのか不思議に思うかもしれません。それは、GPT-4を訓練する際に、ニュース、チャットログ、書籍、ウェブサイト、ブログ、論文、ソーシャルメディア、商品レビューなど、ほぼ全ての人類の言語コーパスを使用したからです。これらの広大な資料の中に、「マリー・リー・フェイファーは1962年7月3日にトム・クルーズを出産した」という内容のように、逆向きの表現——母親から息子へと語る内容がちょうどあるため、AIは直接学習してしまい、推論する必要がありませんでした。

では、この問題は深刻ですか？想像していたほどではありません。

なぜなら、この研究で挙げられた例を注意深く見ると、大規模言語モデルが生成する「AはB」の構造は全て対称的であり、つまり、AとBは互換可能です。

しかし、自然言語は論理的に完璧ではなく、多くの場合「AはB」の形式の表現を直接「BはA」と変更すると論理的な誤りが生じます。

例えば、「全ての猫は動物です」という文を、実際に一般化して「動物は全ての猫です」とすると間違いです。動物には他の種類も含まれますから、猫だけとは限りません。自然言語を少し最適化して、論理をもっと正確にするためには、「は」ではなく、「属する」と言うべきです。

つまり、多くの「AはB」の表現自体が逆転できないのです。

当然、大規模言語モデルが設計された当初、自然言語が論理に反する表現を自然に持っているために、意図的に学習した知識を一般化しないわけではありません。それは、論理的推論のために生まれたわけではなく、完全にデータが欠如している領域では、深い推論能力がないのです。

災害的な忘却

二つ目の欠陥は古くから存在し、「災害的な忘却」と呼ばれています。これは、既に訓練された大規模モデルを微調整した後に頻繁に発生します。

既に訓練されたモデルとは何でしょうか？

例えば、GPT-3には1750億のパラメータがあり、これらのパラメータは96層に分布しています。「層」とは、神経ネットワークの中間リンクに相当し、第一層がデータを受け取り、最後の層がデータを出力し、その間には94層があります。パラメータは神経細胞に相当します。

大脳が情報を正しく処理するためには、単一の神経細胞が刺激に対して正しい反応を示すだけでなく、周囲に接続されている神経細胞と適切な強度の接続を持つ必要があります。接続が強すぎると、神経細胞が反応すべきでない過度に微細な刺激でも次の層に伝達される可能性があります。接続が弱すぎると、適切な反応を示すべきであるにもかかわらず、活性化状態が伝達されない可能性があります。

1750億のパラメータのそれぞれが具体的にいくつになるかを決定することが訓練です。これは、神経細胞の反応パターンと接続パターンの初期設定に相当します。この訓練は非常にコストがかかります。たとえば、GPT-4の場合、訓練コストは数億ドルにのぼります。訓練されたモデルが、私たちがウェブページで使用するChatGPTの対話ウィンドウです。

では、「既に訓練されたモデルを微調整する」とはどういうことでしょうか？

時には、一般的な話だけではなく、専門分野の人々がこの費用がかかるモデルを使用して専門的な仕事をしたいと考えています。たとえば、生物医学分野の専門的な内容を出力したり、結果を漫才の表現方式で完全に出力したりします。

どうすればいいでしょうか？

完全に無謀な方法は、以前のモデルの訓練に使用されなかった多くの生物医学分野の語彙や、すべての漫才の口語表現テキストを初期訓練データとして使用し、もう一度10億ドルのコストで大規模な訓練を行うことです。この二回目の訓練からのモデルは間違いなくより優れており、これらの分野の専門的な内容を非常に専門的な方法で出力できます。

しかし実際には、誰も最初から訓練を始めることはありません。代わりに、すでに設定されたパラメータを持つ大規模モデルを直接使用し、いくつかの専門分野のデータを追加してさらに訓練を行います。この訓練後、おそらく1750億のパラメータのうちの6000万が小さな変更を受けたでしょう。これが「微調整」です。微調整後、生物医学や相声について話すと、非常に専門的になったことがわかります。

ただし、喜んでいるのはまだ早いです。このモデルの翻訳能力が急激に低下し、一般的な概要を書くときにしばしば無茶苦茶になり、まるで各科目で85点を取っていた生徒が、生物を98点に補強した後、数学、国語、英語、物理、化学、地理の全てが85点から45点に下がったような状態に突然気づくでしょう。

この問題には妥協の解決策があります。専門分野の内容に関わる場合は、微調整されたものを使用し、専門分野に関わらない場合は、一般的な大規模モデルを使用するのが良いでしょう。

最近、Github上にもこの古い問題について議論する記事がありました。しかし、彼らはさらに証明しました。大規模言語モデルだけでなく、画像や音声を含む多モーダル大規模モデルでも、「災害的な忘却」の現象が存在するということです。

どう解決すればいいでしょうか？業界にはさまざまな最適化方法があります。たとえば、閉じた形式の重み更新（closed-form weight updates）を使用する方法です。これは、一部の層のパラメータを凍結し、他のパラメータのみを微調整する方法です。この方法は、通常、最後の数層の神経ネットワークのパラメータを凍結すると効果があります。

人間も一緒

もし私たちがよく考えると、実際にこれらの欠陥は本物の大脳に少し似ています。

たとえば、最初の欠陥である知識点が一般化できない問題は、多くの心理学実験が前向きな記憶が後ろ向きな記憶よりもはるかに簡単であることを証明しています。最も典型的なのは、26のアルファベットを逆から暗唱してみてください、流暢には難しいでしょう？ですから、「物体AはBのようなものです」という表現で、しばらくしてからAを説明した後に、そのAを説明してもらう方が、具体的な説明を出して誰かを当てるよりも簡単です。

第二の欠陥である災害的な忘却も、人間の脳にも存在します。たとえば、私たちが学生時代、各学期の終わりに試験週間があり、必ず誰かが試験の前夜に一夜漬けをするでしょう。専門科目の試験が最初の日にあり、その前夜に一夜漬けをした場合、最後の日に英語の試験が終わった後、もう一度専門科目の試験を受けさせてみると、成績が20点下がるのは大げさではありません。

同時に、これらの欠陥は私たちにもヒントを与えます。AIの驚異的な機能、たとえば、ほぼ人間の視覚判断力を持つAIが靴ひもを結んだり、ボタンを縫ったりしているデモを見たときに、すぐに尊敬する必要はありません。なぜなら、靴ひもを結んだり、ボタンを縫ったりする能力を訓練しただけで、人と衣服掛けを区別するような他の能力を失ってしまったかもしれないからです。

この記事が気に入ったらサポートをしてみませんか？