その気まぐれ,数理モデルにしてみせましょう!(AMC2023)

こんにちはこんばんはおじゃめしです.昨年に引き続き,今年もアドベントカレンダーの記事を書いていきます.以下のリンクから競技数学er の面白い記事が見れます!まだ2日目なので,これからが楽しみですね(昨日の記事も面白かったです)!


で,何書こう???

さて,幸運なことに,私は今も趣味の範囲で数学を続けられています.本当にありがたいことに,数学(特にOMCや作サー関連)を通して知り合えた人たちもたくさんできました.というわけで,この記事を読んでくださっている皆さんの多くは,きっと私に対して「OMCに参加して大人げなくTwitter(現X)上でワーキャー言っている おじss… お兄さん」という印象をもっていることでしょう.そうです.私はお兄さんです. 本日付けでまたしても齢を重ねてしまったお兄さんなのです.ですから,現在中学・高校に通っているような,あるいは大学でまだ般教を取り切れていないような若いあなたたちは,きっとまだ知らないことでしょう(笑).


私が大学で進捗を生めずにワーキャー言っていることに.


大学(おうちキャンパス)で「卒論の期限」と「まっさらなLaTeXファイル」を繰り返し見つめては阿鼻叫喚していることに.


そうです.忘れている(あるいは知らない)人が多そうなのでこの際はっきり言っておくと,私は現在大学4年生です.あとちょっとで大学を卒業してしまうのです!個人的にはかなりの大問題で割とマズいのです.

さて,私が卒論に生活を脅かされていることを知らないということは,私が大学で何をやっているかも知らないことでしょう.しかし,(一般的に?)自分から自らの近況をネット上につらつら書くなんて普通しないので,知らない方が当たり前です.自分の周りにも同学年の OMCer が片手で数えられるほどにいるのですが(※2進法かもしれない),どの方も自分ほど Twitter に浮上しておらず,近況なんて全く分からないし,その人が大学でどんな勉強をしているのかも全く分かりようがないのが現実です.

そこで今年は,自分が弊学科でやっていることを皆さんに紹介する記事を書くことにしました.記事にしたいような面白い話題はたくさんあるのですが,今回は自分が卒業研究の中で使っている「非集計ロジットモデル」のお話をします.学科の性質上,私がしていることは純粋数学とは異なるものであり,数学erからしてみれば興味のドンピシャから外れるかもしれませんが,「こんな数学の使い方もあるんだ」という程度に読んでいただけると嬉しいです.

非集計ロジットモデル

以下の内容を書くにあたり,次の教科書の第2章を参考にしています.興味があったら読んでみてください.

前置き

皆さんは,生活しているなかでさまざまな意思決定の場面に出会うことでしょう.例えば,今日の放課後たまたま部活が休みで自由に過ごせたとして,あなたは

  • [ア]いつも通り塾に行って勉強する.

  • [イ]まっすぐ家に帰ってのんびりする.

  • [ウ]スタバによってから家に帰る

  • [エ]友達を誘って駅前のカラオケに行く.

という4択に迷うかもしれません.

意思決定に関することを数理モデルで表現する際の1つの手段として「効用を考える」というのがあります.効用とは,平たく言えば「何かによって差し引きで得られる嬉しさポイント」です.効用は人によって異なります.例えば,「カラオケ行ったら金が飛ぶだけだけど,塾に行けばすごい先生とお話ができてうれしい!」と思っているAくんにとっては,[ア]の効用が $${+100}$$ ポイントで[エ]の効用が $${-5}$$ ポイントくらいかもしれません.一方で「特に予定もないならのんびりしたいなぁ」と思うBさんにとっては,[イ]の効用が $${+10}$$ ポイントでそれ以外の効用が $${+1}$$ ポイントくらいになっているかもしれません.いずれにせよ,「人間は選択肢を与えられたときに,それぞれの選択肢の効用を算出し,最も効用が高い選択肢を選ぶだろう」という仮定を組み込んだモデルはなんとも合理的な感じがします.

しかし,これでは現実と乖離する点があります.基本的に何かの選択肢に対して効用は確定的に決まるので(基本的にはAくんにとって塾は $${+100}$$ ポイントの効用のまま),このモデルでは,放課後に予定がない場合,Aくんは毎回塾に通い詰めるしBさんは毎回家でのんびりすることになります.でも,実際はどうでしょうか?A君だってたまには塾に行くよりスタバでキラ勉して粋な時間を過ごしたい気分になるときがあるかもしれません.普段のんびりしているBさんも,特に何もないけど ONE OK ROCK の完全感覚Dreamer を熱唱したくなるときがあるかもしれません.

要するに人間は気まぐれです.気まぐれだから,「今日はこっちの気分♪」なんて言いながらいつもと違う選択肢を選ぶということは往々にしてあります.つまり,「効用は完全に確定的なわけではなくある程度の揺らぎを持っている」と考えた方が,現実で起こっていることに近づけそうです.これこそが,いまから紹介するロジットモデルです.

設定

個人の選択肢が$${I}$$個存在するとし,その集合を$${C=\{1,2,\cdots I \}}$$とします.また,選択肢$${i}$$ を選んだ時の効用を$${U_i}$$とします.ただし,先ほど述べた通り,これは効用は確率的に変動しない項(確定項) $${V_i }$$ と確率的に変動する項(変動項) $${X_i }$$ の和だとしましょう.ここで変動項に以下の条件を付したものが非集計ロジットモデルです.

  1. 任意の$${i\neq j}$$ について$${X_i}$$と$${X_j}$$は独立.

  2. $${X_i }$$は位置母数$${\alpha_i}$$,尺度母数 $${1/\lambda}$$のガンベル分布に従う.

お???待て待て,なんだよガンベル分布って.

ガンベル分布とは

ガンベル分布は複数の確率変数の最大値が漸近的に従う分布となっています.グラフの概形は $${x_i =\alpha_i}$$の地点を頂点とした釣鐘型の分布になっています.ちなみに,位置母数$${\alpha_i}$$,尺度母数 $${1/\lambda}$$のガンベル分布の累積分布関数$${F_i(x_i)}$$と確率密度関数$${f_i(x_i)}$$は以下のように与えられます($${-\infty \lt x_i \lt \infty}$$).

$${F_i(x_i)=e^{-e^{-\lambda(x_i-\alpha_i)}}}$$
$${f_i(x_i)=\lambda e^{-\lambda (x_i-\alpha_i)} e^{-e^{-\lambda (x_i-\alpha_i)}}}$$

ところで,なぜこの分布を考えたのでしょうか.それを考えるために,もう一度放課後の例に戻ってみましょう.選択肢を何かひとつに決めるまでには色々思い悩むことがあるかもしれませんが,悩んだ末にはきっとこんな感じで選択をするはずです.

「他の選択肢も色々あるけど,『新作のフラペチーノを飲みに行きたいから』スタバにいこう!」
「のんびりするのもいいけど『この前クーポン券をもらっていたから,それを使うために』カラオケに行こう!」

この瞬間,あなたはある選択肢のもつ最大の要因に後押しされて,つまり特定の選択肢のもつ効用の変動項の跳ね上がりによって,その選択肢を選んでいるといえるのではないでしょうか.という風に考えると,最大値に関する分布を使うのも納得いただけるのではないかなぁと思います(ちなみに,順序統計量や極値分布については全く詳しくないので,もっと勉強すべきですね……).

選択肢が選ばれる確率は?

では,これをもとにして各選択肢が選ばれる確率を計算していきます.ここでは簡単のため,選択肢がふたつ($${C={1,2}}$$)の場合で考えてみます.

選択肢$${1}$$が選ばれるためには,選択肢$${1}$$のもつ効用が選択肢$${2}$$のもつ効用がより大きいことが必要かつ十分です.したがって,その確率を$${P_1}$$ とすると,

$${P_1=\mathrm{Pr}\{U_1>U_2\}}$$

です.これを変形していくと 

$${P_1=\mathrm{Pr} \{X_2 \lt V_1+X_1-V_2\}}$$

となります.$${V_1,V_2}$$ が定数であることに注意しましょう.確率変数 $${X_1}$$ が $${x_1}$$ という値をとったとき(この確率密度は$${f_1(x_1)}$$ です),$${\mathrm{Pr}\{X_2 \lt V_1+x_1-V_2\}}$$ は累積分布関数によって

$${\mathrm{Pr} \{X_2\lt V_1+x_1-V_2\}=F_2(V_1+x_1-V_2)}$$

と表現できますから,結局

$${P_1 = \displaystyle \int_{-\infty}^{\infty} f_1(x_1)F_2(V_1+x_1-V_2)  dx_1 }$$

です.そして先に示したガンベル分布の累積分布関数と確率密度関数を用いれば,具体的にこう書くことができます.

$${P_1 = \displaystyle \int_{-\infty}^{\infty} \lambda e^{-\lambda (x_1-\alpha_1)} e^{-e^{-\lambda (x_1-\alpha_1)}} \times e^{-e^{-\lambda(V_1+x_1-V_2-\alpha_2)}}  dx_1 }$$

式の形を見て「なんじゃこりゃ」と叫びながら横転してしまった人もいるかもしれませんが,実はこれはちゃんと計算できます.私もはじめて出会ったときはちゃんと計算しましたが,ここに計算過程を書くとなんか長ったらしくなりそうなので,具体的な計算は読者への演習問題としておきます.この言葉,便利だね.
(正直なところ,別に書いてもいいけど,noteだと複数行にわたって式を書けそうにないので,見た目がかなり汚くなりそうなんですよね……)

んで,計算をするとこんな結果になります.

$${P_1 = \dfrac{e^{\lambda (V_1+\alpha_1)}}{e^{\lambda (V_1+\alpha_1)}+e^{\lambda (V_2+\alpha_2)}}}$$

割ときれいじゃね?????

さらに,2つの効用のガンベル分布の位置母数が$${\alpha_1=\alpha_2=\alpha}$$であったとすると,さらに簡潔に書くことができます.

$${P_1 = \dfrac{e^{\lambda V_1}}{e^{\lambda V_1}+e^{\lambda V_2}}}$$

かなりきれいじゃね?????????おん???

選択肢が複数の場合は?

さっきは選択肢が2つの場合だったのですが,一般に選択肢集合が$${C=\{1,2,\cdots I \}}$$の場合も同じように計算できます.結果も同様な感じです(以下の式において $${i \in C}$$です).

$${P_i = \dfrac{e^{\lambda (V_i+\alpha_i)}}{\displaystyle\sum_{k \in C} e^{\lambda (V_k+\alpha_k)}}}$$

とくに,$${X_1,X_2,\cdots X_I}$$ が同一のガンベル分布に従っている場合は

$${P_i = \dfrac{e^{\lambda V_i}}{\displaystyle\sum_{k \in C} e^{\lambda V_k}}}$$

確率モデルにすると,出てくる式が割と煩雑になりがちなのですが,それがここまで単純な式で表せるのは目にもやさしいですね(?)

終わりに

という訳で,今回の記事はいかがでしたでしょうか.競技数学erにとっては,このような形で数理モデルをこしらえること自体が新鮮に映ったかもしれません.この記事を通して「人の行動や現象をモデル化して数理的に考えてみるといった分野もあるんだよ~」ということを知っていただけたら嬉しいです.もちろん競技数学も大学数学も楽しいですけどね!!!

で,本来はこのモデルを皮切りにして,さらに個別の事象について分析をしていくわけなのですが,非集計ロジットモデルの適用例については調べてみると色々出てきます.ためしに自分も「非集計ロジットモデル 論文」で検索をかけたところ,指導教員の論文がヒットして笑ってしまいました.自分も卒論の言及を解禁出来たら,具体的な適用例の1つとしてその話をするかもしれません.というわけで,卒論執筆頑張るぞ~~~(現段階で白紙なの,本当にマズイ!!!)

ではでは.


P.S.
前書きめっちゃ長いの,ごめん(調べたら記事の$${1/5}$$を占めていてびっくりした).割と面白く書けた(当社比)ので,どうしても消せませんでした……

この記事が気に入ったらサポートをしてみませんか?