見出し画像

情報量について

情報量についてです。情報量とは、ある事象が出現したときにどの程度の「意味」があるのか、を示します。確率変数をXとすると、事象xが出現した場合の情報量は、確率をP(X =x)として、I(x) = -log(P(X = x))として表現されます。また、とりうる事象の数をW(X)として、すべて同様に出現すると仮定すると、I(x) = logW(X)となります。ただし、ここでは底として2をとります。この場合の単位はbitになります。底の変換は値を定数倍することでなされるので、本質的には同じものを示します。こうして表現される情報量は、事象のみによって定義されるので、自己情報量と言われます。

意味の面で上記定義を考察してみましょう。P(X=x)が小さければ小さいほど、この事象が生起した場合に、観測者にとって「意味が大きい」と言えます。また、感覚的な量になるので、その大きさは対数によって記述されることになります。さらに、確率は必ず0以上1以下の数になるので、任意のxに対して、logP(X=x)は負の数となります。一方、自己情報量としては意味が大きければ大きいほど大きな値となってほしいので、係数に-1をかけて要請を満たします。

さて、確率変数がある確率分布に従うとき、自己情報量も分布をとることになります。自己情報量分布の期待値を考えると、ΣP(X=x)*(-log(P(X = x))) = -ΣP(X=x) log(P(X=x))となります。これがシャノンエントロピーです。平均情報量とも呼ばれます。ある試行を実施したときに、その結果によって観測者が得られるであろう情報量の期待値です。

さて、現実の世界では、ある試行、例えば、コインを投げた時に裏表を観測するなど、を実施する場合、観測者がその事象について何等かの方法であらかじめ情報を持っていることは少なくありません。コインの裏表の場合、コインの歪みに関することなど事前にコインに関する情報を何も持っていないとしても、直観的には裏が出る確率も表が出る確率も1/2と考えられます。このような場合、観測者にとって試行(もう少し言うと、真の情報を入手すること)の意味の大きさは、事前に持っている情報に基づき設定される確率分布Q(X=x)と、観測によって得られると期待される真の確率分布P(X=x)の差、もう少し言うとそれぞれの自己情報量の差として表現されることになります。この期待値はカルバック・ライブラーダイバージェンスと言います。これは、D(P||Q)KL = E[log(P(X=x) / Q(X=x))] = E[log(Q(X=x)) - log(P(X=x))]となります。ただし、期待値は事後の分布Pによって取ります。つまり、連続確率分布ではD(P||Q)KL = ∫P(X=x) * (-log(Q(X=x)) - (-log(P(X=x)))dx = ∫P(X=x)log(P(x)/Q(x))dx と表現できます(離散は各自計算にて)。

さて、事前に観測者はQ(x)の確率分布を真であると信じている状態であったとします。この後、何等かの操作により真の確率分布がP(x)であると判明したとすると、その上書きのためには新たに別の情報を加える必要が出てきます。この新たに加えなければならない情報の期待値が、交差エントロピーになり、-∫P(x)logQ(x)dxとなります。ここで、D(P||Q)KL = -∫P(x)logQ(x)dx + ∫P(x)logP(x)dxから、交差エントロピーをH(P,Q)とすると、

H(P,Q) = H(P) + D(P||Q)KL

です。機械学習では、観測(教師)データの生成構造とモデルデータの生成構造を比較しすり合わせていくプロセスを取りますが、この時モデルデータが与える確率分布から見たときに、観測データと一致させるためにはどの程度の情報を与えなければならないか(生成する確率分布に差があるか)を記計算し最小化していくことになります。この時、交差エントロピーによる記述をすることが多くあります。

この記事が気に入ったらサポートをしてみませんか?