文藝部で数学を。─連続型確率分布の話 【元部長】


こんにちは!先月まで部長だったものです。
このあいだの大学祭で文藝部では「千葉大スーパーショート文学賞」なる企画を開催しました。

文学賞なので当然受賞者を決定したのですが、その開催形態は、「来場したお客さんに作品を書いてもらう」スタイルでした。あとで気が付いたのですが、じつはこのスタイルだと得点換算はなかなか(というかかなり)面倒で、それはもう立派な数学の問題になるレベルです。しかも高校数学の範囲を超えています。ということでこの問題をみなさんに共有します。こんな身近なところに数学が出てくると、実用的な武器としての数学の力をひしひしと感じますよね。まあこのように数学が活きるケースはそんなに頻繁には起きないと思いますが。

【問題】
 C大学の文藝部は大学祭で「スーパーショート文学賞」なる企画を実施しました。その企画では来場者に短編小説を書いていただき、書き上がった作品から順次ブースに貼り出します。また、来場者には貼り出された作品への投票もお願いしています。
 ここでブースの解放時間を10時間、投稿作品数は100作品(本当は23作品ですが、数を増やした方が都合がいいので)とします。また作品は一定のペースで投稿され、ブースを訪れる来場者もつねに一定だとします。ここで作品A、B、Cの3作品について投稿された順番(No.〇〇と表記)と各得票数を以下のようにします。
 作品A No.10 100票
 作品B    No.40 60票
 作品C    No.70 15票

さて、この3作品の中でどれが大賞にふさわしいでしょうか?
みなさん是非考えてみてください。

【解説】
 こんなの票数の多い作品Aで決まりじゃん!と言いたくもなりますが、そう簡単にはいきません。なぜなら作品AはNo.10、つまり全体100作品のうち10番目に貼り出されており、他の作品に比べて投票を受ける機会がずっと多いからです。
 いまブースの解放時間は10時間であり、作品Aは100作品のうち10番目に貼り出されたので、

作品Aの掲載時間=10時間-10×(10/100)=9時間

となります。上の式の意味は、作品Aが貼り出された時点での経過時間をまず求めて(1時間)、そこからブースの解放時間の10時間を引いたものになります。
全く同様に
 作品Bの掲載時間=6時間
 作品Cの掲載時間=3時間
となります。
 ここまで求めると、なんとなく道筋が見えてきます。つまり「作品Aは作品Cに比べて掲載時間が3倍もあって不公平だ。だからちゃんと比べるためには、作品Cの票数を3倍して取り扱うべきだ!」という考え方です。この考え方を使って作品Cの票数を3倍、作品Bの票数を1.5倍(Aに比べて掲載時間が1.5倍なので)にしてみるとその補正後の票数は
 作品A 100票
 作品B 90票
 作品C 45票
となります。したがって僅差ながら受賞は『作品A』ということに………となるでしょうか?実は、そうはなりません。この計算にもどこかに不都合があるのです。お気づきでしょうか?

 その不都合な点とは「どの時間を同じように扱ったこと」です。ちょっと想像してみましょう。作品Aは全体の10番目に貼り出されています。その時では、ライバル、つまり他の投票候補がそんなに多くありません。選択肢は10個しかありません。けれど、時間が経つにつれ、掲載作品はどんどん増えていきます。作品Cが貼り出された頃にはもう70枚も作品が貼ってあるので、その中から投票してもらうのはよりキビシくなっています。直感的な言葉で言えば、序盤は「イージーモード」で終盤は「ハードモード」なのです。それなのにAとCを比べるのにはCを3倍するだけでいいのでしょうか。そんなことないですよね。Cはハードモードの中で生まれ(というか掲載され)その中でどうにか票を獲得したのに対し、Aは序盤のイージーモードで楽々稼いだ上での票数なのです。ここの分をうまく補正してやる必要があります。
 基本的なことを考えてみましょう。(みちのり)=(速さ)×(時間) という公式は小学校で習いましたが(『みはじ』、というやつです)、それと似たように

票数=(1時間あたりの投票数)×(時間)

という公式が成り立ちますよね。よく見れば当たり前の式です。(1時間あたりの投票数)は投票の速度みたいなイメージです。ここで、来場者が完全にランダムに投票すると仮定します。つまり2時間経過した時(20作品掲載されている時)、ある作品が選ばれる確率は20分の1、7時間経過した時、ある作品が選ばれる確率は70分の1です。
 そしてこれが重要なのですが、上の例の類推からわかるように、時間t、つまりt時間が経過した時にある作品が選ばれる確率は、時間tのときには10t作品が掲載されているので10t分の1(1/10t)となります。(ちなみにここでこっそりと分布を連続型にしてます)。
 時間tのときの1時間あたりの投票数は、1時間あたりの来場者数をmとすると、来場者のうち 1/10t のひとが投票してくれるので m×1/10t となります。
 なので、上の 票数=(1時間あたりの投票数)×(時間) という公式によれは、求めた1時間あたりの投票数に時間をかければ、来場者がランダムに投票した場合の票数が求まります。ですが、ここで重大な問題が起きています。なんと(1時間あたりの投票数)=m×1/10t がtに依存しているんですね。
 みちのり、速さ、時間、の例で話せば、車がある道のりを10時間かけて走った時に速さが時速50キロで固定ならみちのりは (速さ)×(時間)=50×10=500
と簡単にわかりますが、速さが時間によって変動してしまっては道のりもよくわかりません。こういうのは物理でよくある例で、たとえば自由落下なんかも、落とした直後はスピードはそれほどでもないですが、しばらくすると加速してぐんぐんと距離を稼ぎます。下は横軸に時間、縦軸に速さをとったグラフです。

以下、積分の話を使います。飛ばし読みでも構いません。
このようなときはまさに積分論の活躍するところです。相当大雑把に言ったとき、1変数の場合、積分とは(時間によって変化する速度)×(ごく短い時間)を無限個足し合わせたようなもので、速さを表すvという関数を0から好きな時間Tまで積分すれば、時間がT経過するまでに進んだ距離がわかります。積分、めちゃくちゃ便利ですね。
今回の文学賞の問題も全く同じで、1時間あたりの票数=『票数の速度』を表す関数 m×1/10tを積分すれば良いですね。作品Aは開始1時間後から最後の10時間後まで掲載されていたので積分範囲は1≦t≦10になります。B、Cについても同様に積分範囲を求め、1/xの積分がlogxになることに注意して実際に計算すると、
A   (m/10)×log(10)
B   (m/10)×log(5/2)
C   (m/10)×log(10/7)
となります。これは、来場者がランダムに投票すると仮定したときの予想される投票数になります。これを確立や統計では期待値と呼びます。
ここでAの値をCで割ってやると
 log10/log(10/7)≒6.46
となります。つまり本当は3倍じゃなくて6倍以上もAの方が有利だったんですね。同様にAの値をBの値で割ってやって、
 log10/log(5/2)≒2.51
となります。つまりAの方がBより2.51倍有利ということです。もとの票数にこれらの値をかけてやると
 A 100票
 B 156票
 C 97票
となって、受賞作品はBとなります。じつはAとCは僅差だったんですね。スーパーショート文学賞の受賞作品はおおまかにはこのような方法で決められました。受賞作を含め、ほかの投稿作品もぜひ読んでみてください!

【余談】
 本当はこっちを前面に押し出して書きたかったのですが、「連続型確率分布」についてちょっとだけ書かせてください。
 たとえば「サイコロを振って4の目がでる確率は?」と聞かれたら、だれでも「6分の1!」と答えられますよね。これを活かして「三回連続で偶数が出る確率」とか「五回連続2がでる確率」なんかもちゃんと求められます。こういうのが高校で習ってきた確率論ですが、それをみていると「起こりうるすべての事象には0より大きい確率が定義されている」と思いがちです。ですがそれは正しいでしょうか?身近なところにも反例はたくさんあります。
 たとえば「オリンピックの男子百メートルの優勝タイムがちょうど9.8秒の確率」はどうでしょう。9.8秒というのは9.80001でも9.799999999でもダメです。それは起こらないとは言えませんが確率は限りなく0でしょう。
 このような場合、数学では一点をとる確率の代わりにある範囲を取る確率を考えます。具体的にはある関数f(x)を
 事象がaからbをとる確率=f(x)のaからbまでの積分値
となるように定めます。このように表現される確率の分布を連続型確率分布と言います。また、このf(x)は実数全範囲における積分値が1となり(これは定義から従う)、ある点で1以上の値をとっても構いません。
 男子百メートルの優勝タイムをあらわす関数fは、だいたい優勝タイムは9.6から9.9くらいなので、その範囲が大きな値をとり、fを9.6から9.9まで積分すると値は0.9くらいになるような関数なはずです。最初の文学賞選定の問題でもじつはこの連続型確率分布をこっそり使っています。

この記事が参加している募集

数学がすき

この記事が気に入ったらサポートをしてみませんか?