見出し画像

2022年度の東工大入試問題から考える「確率論」~「確率」の意味と連続値の「確率」の定義について~

みなさんこんにちは、ゆーきゃんです。
2022年度の東工大の第5問に、受験生にとってみれば、見慣れない題材を背景とした問題が出題されました。
しかし、大学等で確率論や統計学を学習した経験のある方から見れば、この問題の背景にピンとくるでしょう。
受験生にとっては不思議な問題でしたが、実はこの問題は「確率論」の本質に迫る良い問題でもあるのです。
今回は、高校生向けに、その解説を行っていこうと思います。

2022年度・東工大・第5問

ここで、今回のテーマとなっている2022年度東工大の第5問を紹介します。

$${a}$$は$${0 < a \leq \dfrac{\pi}{4}}$$を満たす実数とし、
$${f(x)= \dfrac{4}{3}}$$ $${ \sin{( \dfrac{\pi}{4} + ax )} }$$ $${ \cos{(\dfrac{\pi}{4}-ax)}}$$
とする。このとき、次の問に答えよ。
(1)次の等式(*)を満たす$${a}$$がただ1つ存在することを示せ。
$${(*) \displaystyle \int_{0}^{1} f(x)dx = 1}$$
(2)$${0 \leq b < c \leq 1}$$を満たす$${b,c}$$に対して、不等式
$${f(b)(c-b) \leq \displaystyle \int_{b}^{c} f(x)dx \leq f(c)(c-b) }$$
が成立することを示せ。
(3)次の試行を考える。
[試行]$${n}$$個の数$${1,2,…,n}$$を出目とするルーレットを$${k}$$回まわす。
この[試行]において、各$${i=1,2,…,n}$$について、$${i}$$が出た回数を$${S_{n,k,i}}$$とし、$${(**) \displaystyle \lim_{k \to \infty} \dfrac{S_{n,k,i}}{k} = \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$が成り立つとする。
このとき、(1)の等式(*)が成立することを示せ。
(4)(3)の[試行]において平均値を$${A_{n,k}}$$とし、$${A_n = \displaystyle \lim_{k \to \infty} A_{n,k}}$$とする。
(**)が成り立つとき、$${\displaystyle \lim_{n \to \infty} \frac{A_n}{n}}$$を求めよ。

2022・東工大

(1)は三角関数の積和公式から、$${f(x)=\dfrac{4}{3}(\sin{2ax}+1)}$$となります。
よって、$${\displaystyle \int_{0}^{1} f(x)dx = \frac{2}{3}+\frac{1-\cos{2a}}{3a}}$$を得ます。
これを$${a}$$の関数としてみて、微分し、その挙動をとらえれば示せます。

(2)は、「極限値」の求め方の記事で解説した「不等式」の作り方の定石に則ればすぐに解けます。

今回は(3)と(4)を考察しながら、「確率論」について考えていきます。

「確率」とは一体何を意味するのか?

(3)の問題文には、不思議な極限$${\displaystyle \lim_{k \to \infty} \dfrac{S_{n,k,i}}{k} = \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$が記されています。

本番でこの問題を解いていた受験生にとっては、
この式の意味を深く考える時間はなかったでしょうから、そこに深く立ち入らずに処理した方もきっと多かったはずです。
しかし、実はこの極限こそが「確率」の定義になっているのです。

「さいころの確率」を考えてみる

そういわれてもピンとこないので、イメージしやすい「さいころの確率」を考えてみましょう。
さいころの1の出る確率は、その出方が同様に確からしいのなら、$${\dfrac{1}{6}}$$になるはずです。
「それはそうだろ」という話ですが、この$${\dfrac{1}{6}}$$は一体何を意味するのでしょうか。

そうすると、「6回に1回は1が出る」ということを意味するという答えが多数寄せられるでしょう。
しかし、本当にそうでしょうか?
当たり前の話ですが、6回さいころを振っても、1の目が1回も出なかったり、2回以上出てくる場合だってあるはずです。
そうすれば、「6回に1回は1が出る」という解釈は正しくないということになります。
では、この$${\dfrac{1}{6}}$$という値をどう解釈したらよいのでしょうか。

無限に試行を繰り返したらどうなる?

先ほどは6回だけ試行を繰り返す場合を考えましたが、試行回数を100, 1000, 10000, 100000と増やしていくとどうなるでしょう?

いま、さいころを振る試行を$${N}$$回繰り返したとき、1の目が出た試行の回数を$${j_{N}}$$としましょう。
そうすると、相対度数$${\dfrac{j_{N}}{N}}$$は$${N}$$の増加に伴い、その値が一定の値に近づいていくはずです。
この「一定の値」こそが、私たちが数学の問題で扱っている「確率」なのです
先ほどのさいころの例では、それが$${\dfrac{1}{6}}$$に近づくということです。
より数学的に言えば、

$${N}$$回試行を繰り返し、事象$${A}$$が発生した試行の回数を$${n_{A}^{N}}$$とする。
事象$${A}$$の起こる確率を$${p}$$とすれば、$${p=\displaystyle \lim_{N \to \infty} \dfrac{n_{A}^{N}}{N}}$$が成り立つ。

ということになります。
ここで、東工大の問題の話に戻りますが、$${\displaystyle \lim_{k \to \infty} \dfrac{S_{n,k,i}}{k}}$$は「$${i}$$の目に対する相対度数の極限値」を意味しているのです。
ですので、ここで「確率」を定義しているのですが、それがなぜか積分になっているのがこの問題の不思議なところです。
この積分の意味を、続いて考えてみましょう。

「連続値」をとる「確率」はどう定義する?

高校までで学習する確率では、「離散的な事象」をメインターゲットとしています。
「離散的」というのは、「飛び飛びの値しかとらない」ことを意味します。
例えば、さいころであれば1~6の整数の目しか出ませんし、コインを振るときも表か裏のどちらかしか起こりません。
ですから、至極当たり前な話ですが、
さいころを振っても「1.01」や「4.15」なんて目は出ませんし、コインを振って「表と裏でもない中間」の事象なんて起きません。
(実は、この話がかの有名な「シュレディンガーの猫」の話につながりますが、今回はおいておきます)

しかし、世の中には「離散的な事象」のみならず、「連続的な事象」というのも存在します。
身長は人によって異なる「連続値」を取り得るものの最たる例です。
ところで、例えば、身長が160cm代の人達と180cm代の人達のうち、どちらが集団の中で稀な存在であると判断したらよいでしょうか。
ここに、「連続値」の「確率」の定義がつながってきます。

「連続値」の「確率」(「連続確率分布」)の定義は数学的には次のようになります。

区間$${[a,b]}$$において、関数$${g(x)}$$は$${g(x) \geq 0}$$かつ$${\displaystyle \int_{a}^{b}g(x)dx=1}$$を満たすものとする。
$${a \leq s \leq \ t \leq b}$$とするとき、確率変数$${X}$$が$${s \leq X \leq t}$$となる確率$${P(s \leq X \leq t)}$$は、$${P(s \leq X \leq t)= \displaystyle \int_{s}^{t}g(x)dx}$$と定義される。

「確率変数」というのは、各人の身長のように取り得る連続値のことを意味します。
つまり、「連続値」の確率というのは、「積分」であるということです。
そう考えれば、先ほどの身長の例では、各人の身長の従う確率密度関数において、
「160cm以上170cm未満」と「180cm以上190cm未満」となる確率を積分によって求めれば解決します。
また、高校までの確率(「離散的な事象」の確率)では、全事象の確率が1であることを学習しますね。
「連続値」の場合でもこれは成り立ち、それが$${\displaystyle \int_{a}^{b}g(x)dx=1}$$の意味するところなのです。
ちなみに、この$${g(x)}$$のことを「確率密度関数」といいます。

ここで、東工大の問題に戻ります。
今回の場合は、「$${i}$$の目が出る確率」を「連続的事象の確率」と対応づけて定義しているということになります。
実は、この問題では、「$${f(x)}$$が確率密度関数になることを示せ」と問うているのです。
ルーレットの各出目が出る確率をすべて足し合わせると1となることから、それを証明することができます。

「期待値」の定義について

「離散確率分布」における「期待値」

最後に、(4)を考えましょう。
ここでいう、$${A_n}$$というのは、ルーレットの出る目の「期待値」を表しています。
「期待値」というのは、「平均値」のことを意味します

「離散的な事象」(離散確率分布)における「期待値」は次のように定義されます。

事象$${A_j (j=1,2,…,m)}$$が起こると、$${j}$$点の得点が入るとする。
なお、事象$${A_j}$$が起こる確率は$${p_j}$$である。
このとき、確率変数$${X=1,2,…m}$$の期待値$${E[X]}$$は、
$${E[X] = \displaystyle \sum_{j=1}^{m} j \cdot p_j}$$となる。

今回の問題では、
$${A_{n,k} = \displaystyle \frac{1}{k} \sum_{i=1}^{n} i \cdot S_{n,k,i} = \sum_{i=1}^{n} i \cdot \frac{S_{n,k,i}}{k} }$$ を意味します。
$${\displaystyle \lim_{k \to \infty} \dfrac{S_{n,k,i}}{k} = \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$であるので、$${A_n = \displaystyle \lim_{k \to \infty} A_{n,k} = \sum_{i=1}^{n} i \cdot \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$となるわけです。

$${0 \leq x \leq 1}$$では$${f'(x)\geq0}$$となり、$${f(x)}$$は単調増加するため、
$${\dfrac{i-1}{n} \leq x \leq \dfrac{i}{n}}$$では、$${f(\dfrac{i-1}{n}) \leq f(x) \leq f(\dfrac{i}{n})}$$が成り立ちます。
よって、

$$
if(\dfrac{i-1}{n}) \leq if(x) \leq if(\dfrac{i}{n})\\
\int_{\frac{i-1}{n}}^{\frac{i}{n}} if(\dfrac{i-1}{n})dx \leq \int_{\frac{i-1}{n}}^{\frac{i}{n}} if(x)dx \leq  \int_{\frac{i-1}{n}}^{\frac{i}{n}} if(\dfrac{i}{n})dx\\
(\dfrac{i}{n}-\dfrac{i-1}{n}) if(\dfrac{i-1}{n}) \leq \int_{\frac{i-1}{n}}^{\frac{i}{n}} if(x)dx \leq  (\dfrac{i}{n}-\dfrac{i-1}{n}) if(\dfrac{i}{n})\\
\dfrac{i}{n} f(\dfrac{i-1}{n}) \leq \int_{\frac{i-1}{n}}^{\frac{i}{n}} if(x)dx \leq  \dfrac{i}{n} f(\dfrac{i}{n})
$$

ここで、上記の不等式を$${i=1,2,…,n}$$で適用し、辺々を足し合わせて、

$$
\displaystyle \sum_{i=1}^{n} \dfrac{i}{n} f(\dfrac{i-1}{n}) \leq A_n = \sum_{i=1}^{n} \int_{\frac{i-1}{n}}^{\frac{i}{n}} if(x)dx \leq \sum_{i=1}^{n} \dfrac{i}{n} f(\dfrac{i}{n})\\
\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} \dfrac{i-1}{n} f(\dfrac{i-1}{n}) < \dfrac{1}{n} \displaystyle \sum_{i=1}^{n} \dfrac{i}{n} f(\dfrac{i-1}{n}) \leq \frac{A_n}{n} \leq \frac{1}{n} \sum_{i=1}^{n} \dfrac{i}{n} f(\dfrac{i}{n})
$$

最左辺と最右辺は、区分求積法より、$${n\to\infty}$$で$${\displaystyle \int_{0}^{1} xf(x)dx}$$に収束します。
詳しい計算は割愛しますが、
$${\displaystyle \int_{0}^{1} xf(x)dx=\frac{\sin{2a}-2a\cos{2a}+2a^2}{6a^2}}$$となります。
よって、はさみうちの原理より、$${\displaystyle \lim_{n \to \infty} \frac{A_n}{n}=\frac{\sin{2a}-2a\cos{2a}+2a^2}{6a^2}}$$です。
このようにして極限値は求まりますが、実はこれは「連続確率分布」の期待値を求めているのです。

「連続確率分布」における「期待値」

「連続確率分布」における「期待値」は次のように定義されます。

$${g(x)}$$を$${[a,b]}$$上で定義された確率密度関数とする。
このとき、確率変数$${X(a \leq X \leq b)}$$の期待値$${E[X]}$$は、
$${E[X] = \displaystyle \int_{a}^{b} xg(x)dx}$$と定義される。

先ほどの不等式の最左辺および最右辺の極限値は、実は「確率密度関数が$${f(x)}$$である分布の期待値」を表していたのです。
また、$${\dfrac{A_n}{n}  \displaystyle = \sum_{i=1}^{n} \frac{i}{n} \cdot \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$であり、$${p(\dfrac{i}{n})=\displaystyle \int_{\frac{i-1}{n}}^{\frac{i}{n}} f(x)dx}$$とおけば、
$${\dfrac{A_n}{n}  \displaystyle = \sum_{i=1}^{n} \frac{i}{n} \cdot p(\dfrac{i}{n})}$$と書き換えることができます。
つまり、$${\dfrac{A_n}{n}}$$は「離散確率分布」の「期待値」に他ならないのです。
$${n}$$の値が大きくなれば、次第に$${\dfrac{i}{n}}$$は「連続値」とみなせるようになるため、
その極限値が「連続確率分布の期待値」となることはうなずけますね。

まとめ

いかがでしたか。
今回は、2022年の東工大の入試問題を通して、大学等で学ぶ「確率論」の初歩を解説しました。
今回解説した問題は、題材として非常に目新しく、「確率論」を学ぶ上で非常に考えさせられる内容でした。
実際の入試ではここまでを見通す必要はありませんが、大学以降での学びにつなげるためにも受験生も知識として知っておいて損はありません。
今後も、理系の教養に関する解説を行っていくのでお楽しみに。
最後までご一読いただきありがとうございました!

この記事が気に入ったらサポートをしてみませんか?