見出し画像

AlphaGeometryの技術を読み解く〜生成AIが数学オリンピックに挑戦

生成AIが苦手とされる数学に、Google DeepMindが挑戦しました。国際数学オリンピックの幾何学 (Geometry) の難問を解き、金メダリストに肉薄する結果です。生成AIが、次の段階に進化するブレークスルーかもしれません。

そんなAI「AlphaGeometry」について、技術ブログとNature論文があります。そこで、小学校の算数ができる人なら、誰でも理解できるように、読み解いてみます。


国際数学オリンピックで金メダルに迫る

国際数学オリンピック (IMO: International Mathematical Olympiad) は、高校生などを対象とした数学の競技です。各国で選抜された数学の天才たちが、世界中から参加します。参加者の上位層に、金・銀・銅メダルが授与されます。

🥇金メダル:上位 1/12 (8%)
🥈銀メダル:上位 2/12 (17%)
🥉銅メダル:上位 3/12 (25%)

wikipedia 国際数学オリンピック

2000年から2022 年までのオリンピックから編集された 30 の幾何学問題 (IMO-AG-30) において、AlphaGeometry は競技時間制限内で 25問を解きました。これは、銀メダリストを上回り、金メダリストに肉薄する結果です。

Fig. 2: AlphaGeometry advances the current state of geometry theorem prover from below human level to near gold-medallist level.

従来の最先端 (State of the Art) のAIでは、10問しか解けておらず、AIの大きな飛躍と言えます。

小学校の算数を思い出す

数学オリンピックの難問を見ても、我々のような一般人には理解が難しいです。そこで、数学の幾何学の基礎となる、小学校の算数の図形問題を思い出します。

二等辺三角形として、AB = ACの三角形を考えます。このとき、角B ($${ \angle ABC }$$) と 角C ($${ \angle BCA }$$) は等しいはずで、それを証明しましょう。

こういった図形問題を解くのに役立つのが「補助線」です。ここでは、頂点Aから、底辺BCの中央Dに、線ADを引いてみます。

そうすると、以下のように丁寧に推論できます。

・点D を 線BCの中央に置く
・$${AB=AC}$$、$${BD=DC}$$、$${AD=AD}$$なので、(三角形ABDと三角形ACDは同じであり)、 $${ \angle ABD = \angle DCA}$$
・$${ \angle ABD = \angle DCA}$$であり、BとCとDは直線上にあるので、$${ \angle ABC = \angle BCA}$$ と証明できる

ここには、2つの思考があります。

  • 直観(速い思考):線ADの補助線を思いつく

  • 熟考(遅い思考):図の形や距離などをもとに、論理的に推論する

AlphaGeometryの仕組み

言語モデルと記号計算エンジンのコラボ

AlphaGeometryは、先ほどの2つの思考を、2つのモジュールで実現します。

  • 直観(速い思考):言語モデル (Language model)

  • 熟考(遅い思考):記号計算エンジン (Symbolic engine)

AlphaGeometryは、問題(定理の前提)が与えらると、記号計算エンジンが解を探します。解が見つからない場合は、言語モデルが新しい要素を追加し (青) 、記号計算エンジンが解を探します。解が見つかるまで、言語モデルと記号計算エンジンのループが続きます。

ちなみに、歴代の数学オリンピックで難しいとされる2015年の問題では、AlphaGeometryの回答が109論理ステップに及んだそうです。

言語モデル〜直観で補助する

言語モデルには、大量の学習データが必要です。しかし、高度な幾何学の問題と回答のセットは、大量にはありません。そこで、学習データをAIで大量に生成しました。

まず、10億個の図形をランダムに生成します。

次に、記号計算エンジンで、各図に含まれるすべての証明を見つけてから、それらの証明に到達するために必要な追加構成があれば、それを逆算して見つけ出します(記号演算とトレースバック)。

そして、そこから問題と証明を作り出します。全体の流れは、図aの前提から、図cの問題と証明を作り出すイメージです。

Fig. 3: AlphaGeometry synthetic-data-generation process.

そして、内容の重複を除いた結果、1億のデータセットが得られました。それをもとに、大規模言語モデルでも利用されているTransformerをトレーニングしています。

  • 事前学習:1億のデータセット。「<前提> <結論> <証明>」という構造を持つシリアル化されたテキスト文字列。 

  • ファインチューニング:900万のデータセット。1億の内、補助構造が含まれる9%を利用して、補助線を引くことに強化。

  • パラメーター数:1.51億(大規模言語モデルは100億レベルなのに比べて小さい)

  • トークン数:1,024

記号計算エンジン〜熟慮で計算する

記号計算エンジンでは、2種類のエンジンで構成されています。

  • DD (Deduction) : 「A, B, Cが同一線上にある」のような幾何学的な計算

  • AR (Algebraic Rules) : 「距離AC = 距離AB + 距離BC」のような代数規則による計算

Extended Data Table 2 Three examples of algebraic reasoning (AR) in geometry theorem proving, with AR proof steps between the two tags <AR></AR>

記号計算エンジンとして、DDとARを高度に統合した点が、この研究の特徴です。

AlphaGeometryの評価

2000年から2022 年までのオリンピックから編集された 30 の幾何学問題 (IMO-AG-30)を、精度評価のためのベンチマークに利用します。従来の最先端のAI、GPT-4などとの比較結果を抜粋します。

$$
\begin{array}{|l|c|c|} \hline
手法 & 正解数(30問中) & 正解率 \\ \hline
従来の最先端 & 10 & 33\%  \\ \hline
\text{GPT-4} & 0 & 0\% \\ \hline
DD + AR & 14 & 47\% \\ \hline
DD + AR + \text{GPT-4} & 15 & 50\% \\ \hline
DD + AR + 人間 & 18 & 60\% \\ \hline
\text{AlphaGeometry} & 25 & 83\% \\ \hline
\end{array}
$$

Table 1 Main results on our IMO-AG-30 test benchmark

ここから言えることは

  • GPT-4単体では、数学オリンピックの問題を全く解けない

  • 記号計算エンジン (DD+AR) が、従来の最先端AIを超えている

  • 記号計算エンジン (DD+AR)にGPT-4を組み合わせても、成績はあまり伸びない

  • 記号計算エンジン (DD+AR)に特化した言語モデルを組み合わせると (= AlphaGeometry) 、成績が著しく伸びる

もう少し踏み込んで言えることは

汎用的な大規模言語モデルより、特化した小さな言語モデルと推論エンジンの組み合わせの方が、高い性能になることもある

ただ、国際数学オリンピックの30問だけだと少ないので、教科書の例や演習、地域オリンピック、有名な幾何学の定理などを加えた、231問でも評価しています。簡単な問題が増えるので、全体的な正解率は上がりますが、AlphaGeometryの正解率の高さが際立っています。

$$
\begin{array}{|l|c|c|} \hline
手法 & 正解数(231問中) & 正解率 \\ \hline
従来の最先端 & 173 & 75\%  \\ \hline
DD + AR & 198 & 86\% \\ \hline
DD + AR + 人間 & 213 & 92\% \\ \hline
\text{AlphaGeometry} & 228 & 99\% \\ \hline
\end{array}
$$

Extended Data Fig. 6: Analysis of AlphaGeometry performance under changes made to its training and testing.

AlphaGeometryの応用

AlphaGeometryは、数学の中でも幾何学に特化して、開発・評価されました。しかし、この言語モデルの本質的な能力は、問題を解くための「補助 (Auxiliary)」を生成できることにあります。そして、補助が問題解決のカギになるケースは、幾何学だけではありません。例として、4つ挙げられています。

  • 数論 (Number Theory)

  • 方程式 (Solving Equation)

  • 組み合わせ論 (Combinatorics)

  • 不等号 (Inequality)

Extended Data Table 3 Examples of auxiliary constructions in four different domains

このように、生成AIが数学の能力を獲得したことで、さらにAIが進化することを期待しましょう。

いただいたサポートは、note執筆の調査費等に利用させていただきます