確率と人類の歩み
帰ってきた数学
今日は確率の歴史をかいていこう
確率の歩み
概略
ChatGPTより
完璧すぎる。
存在しない数
以前、虚数について書いた
負の数(negative number)が議論されるようになったのは16世紀以降である。存在しない数を考えるというのはそれくらいに難しい。
不確かさ(uncertainty)も同様に見えないし存在しない数である。全く直感的ではない。すべての数は決まっていると考えるほうがずっと直感的だ。
確率は中世までゲームやギャンブルで研究が進んだ。
負の数 → 存在しないけどそういうのがあると思うと便利
確率 → 存在しないけどそういうのがあると思うと便利
万物の真理を追求するという立場から到達できないこともある。いや、真理を追求するよりむしろ一生懸命だっただろう。
3つのサイコロの目
時代は16世紀
虚数の概念に言及した御仁である。
確率に関しては
わかりにくいが
9になる出方は6通り
10になる出方は6通り
直感的には9と10は同じ比率で表れそうだが、実際は9のほうが少ない
という発見
今日の知識で計算すると、3つのサイコロを区別して組み合わせの数を出す。6の3乗(=216)通りの組み合わせがあるがそのうち
9になるのは25通り
10になるのは27通り
で、9になる確率のほうが低い。
この時代の確率は「特定の結果のありそうさとありそうでなさの比率」である。出た目の数を数えているだけなのでまだ存在する数を扱っている。
不確定な数学
時代は17世紀
ここで、ものごとが決まる前の計算が登場する。決まる前なので存在しない数に足を踏み入れている。
ポイントの問題
2人のプレーヤーがゲームをする
先に10ポイント取ったら勝ちとする
勝ったら賞金を1000円得られるとする
今時点のスコアが
プレーヤーAは8ポイント
プレーヤーBは7ポイント
であるとして、ここでゲームを打ち切ったときどうやって賞金を配分するのが公平か。
結論としては
なので、Aは625円、Bは375円とすると良い。
賞金の分配はゲームを打ち切らずに続けた場合の期待値(expectation)の計算に他ならない。
ものごとが起きそうな比率とそれに伴う影響を計算できる時代に入った。
大数の法則
時代は18世紀
歪んだサイコロがあるとして、それぞれの目の出る確率を知りたいとする。こういう場合、6000回振ってそれぞれの出た目の数を数えれば良い。60回だとわからないが6000回ならおそらくわかる。
確率的なできごとは、それを試行する回数が増えると真の確率に収束する。これを大数の法則という。
正確には平均に収束する。起きる見込みと起きた結果を繋げられるようになった。
数の歴史は「数を数える」から「量を測る」に進んでいった。大数の扱いによって、離散的な確率から連続的な確率へと少しずつ進んでいく。
ベイズの定理
時代は19世紀
あるできごと$${A}$$と$${E}$$について
$${A}$$が起きる確率を$${P(A)}$$
$${E}$$が起きる確率を$${P(E)}$$
$${A}$$と$${E}$$が同時に起きる確率を$${P(A,E)}$$
$${E}$$が起きた後の状態で、$${A}$$が起きる確率を$${P(A|E)}$$
$${A}$$が起きた後の状態で、$${E}$$が起きる確率を$${P(E|A)}$$
それぞれ周辺確率、同時確率、条件付き確率と呼ぶ。それぞれの関係は
$$
P(A,E) = P(A) P(E|A) = P(E) P(A|E)
$$
よって
$$
P(A|E) = \displaystyle \frac{P(A) P(E|A)}{P(E)}
$$
これをベイズの定理という。よく出るスパムメールの例だと
「メールがスパムである確率」これを事前確率(prior probability)
「メールに特定の単語が含まれているとして、そのメールがスパムである確率」これを事後確率(posterior probability)という
情報(information)を得ているか否かという概念が入っている。また、推定(estimation)を行うことができる。
連続的な確率の時代も進む。
正規分布(normal distribution)は連続的な確率変数の中で最も頻繁に利用され、有用な確率分布(probability distribution)だろう。
18〜19世紀は電気工学が大きく進歩した時代である。
オームの法則は
$$
V = R I
$$
電流と電圧の測定値から抵抗を求められるはずだが、誤差があるときに尤もらしい推定をするにはどうしたらよいか。誤差を生むノイズが正規分布に従うならば、これは最小二乗法で求められる。
「連続的な確率」という不確かそうな概念が役に立っている。
情報の時代
時代は20世紀
やっと確率の公理が確立する。確率密度関数(probability density function)が完成した時代でもある。今日、確率という概念が定まってからまだ100年も経っていない。
最尤推定(maximum likelihood estimation)が生まれた時期である。
情報量という概念が提案された。
エントロピー(entropy)が発表されたのは1948年
コンピュータサイエンスでは、アラン・チューリングやジョン・フォン・ノイマンの時代でもある。
AIの時代
ついでなので触れておく
乱数(random number)とシミュレーションによって、問題の解を得るモンテカルロ法が考案されたのが1940年頃。「確率を求める」のでなく「確率を利用して推定を行う」。
確率と直接の関係はないが、フランク・ローゼンブラットによって脳の機能をモデル化したパーセプトロンが発表されたのは1957年。いわゆる第1次のAIブームに相当する。
ブームは終焉するが、モデルが確率過程で与えられたとしてパラメータを最尤推定する研究はこのあたりでだいぶ進む。
これも確率と関係ないが、第2次のAIブームが1980〜90年頃。この頃だと多層パーセプトロンの時代になる。コンピュータがコモディタイズされつつあった時代でもあるが、かのWindows XPが発売されたのは2001年。普通に考えてコンピュータ資源は全く足りなかっただろう。
2000年以降は確率を伴う技術、例えば機械学習を現実的なアプリケーションに適用できるだけのコンピュータ資源を確保できるようになる。また、周辺の研究も進む。
第3次のAIブームは2012年以降のディープラーニング(deep learning)。大量のデータがあり、これを高速に扱うGPUの時代である。アルゴリズムに確率や乱数を利用することはすでに一般的である。また、自然に存在する大量のデータの存在そのものが本質的に確率的である。
現在はここ数年で大規模言語モデル(LLM)が爆発的に浸透した。なぜChatGPTの回答は間違うことがあるのか。それはもとのデータは確率的で、それの学習も回答も確率的だからだ。
おわりに
ChatGPTをお供にかいてみた。
全部書いてくれるようになるまであとどれくらいかかるか。
おまけ
wikipediaより
わかるようなわからないような
今日のわれわれにはより強い友がいる。AIである。
これで答えは得られた。記事投稿、完。
ところで、ChatGPTの回答を出典として扱いたい場合はどうすれば良いのか。ChatGPTに聞いてみよう。
こっちにもまとまっている
ただし
本稿では単にChatGPTとして記述する。