見出し画像

三体をもっと楽しめるかもしれない話 〜情報量〜

はじめに

教授はこの二枚(精密に描かれた絵、何もないような青空の絵)に含まれる情報量はどちらが多いかとたずねた。正解は後者で、前者の十倍か二十倍の情報量があるのだという。
「三体」もこれと同じで、その巨大な情報量は奥深くに隠されている。
三体 8. 葉文潔

三体に上記のような記載がある。なぜ、何もないような青空の絵の方が精密に書かれた絵(清明上河図)より情報量が多いのか。宋の時代に人々はどのように生活していたということがわかるから、精密に描かれた清明上河図の方が情報量が多いじゃないか、と思うはずだ。ただ、情報理論をかじった人間であればその理由を直感的に理解できる。三体を読む面白さが増すと思うので、その直感について説明したい。(難しい数式とかなしで)

日常会話の「情報量」

本題に入る前に、日常でもよく使われる「情報量」という単語を少し考えてみたい。みなさんはどんなふうに「情報量」と使うだろうか。
・このニュースサイトは情報量が多い。
・あの人のプレゼンは情報量が少なすぎて説得力に欠けるよ。
・この本は情報量が多いよね。
といった感じで使用されているかと思う。

日常会話であればどれも使い方として正しい文章だが、冒頭のような情報理論を背景にした形で「情報量」という言葉を捉えた場合には、この例の中で正しく使われているといえるものはない。というか、別物だ。

情報量とデータ量

情報量はデータ量とよく混同される。日常会話では問題ないが、定義として考える場合には2つは明確に分けないと問題が出てくる。
なぜなら「文字数(データ量)が多いからといって、情報量が多いとは限らない」からだ。
例として小泉構文(トートロジー)がわかりやすいと思う。

A「今のままではいけないと思います。だからこそ日本は今のままではいけないと思っている。」
B「日本は今のままではいけないと思っている。」
https://www.jijitsu.net/entry/shinjirou-koubun

この文章はメディアの切り抜きの話や、話法として同じ内容の繰り返しをしているだけという観点もあるがそれは置いておいて、AとBはどちらが情報量が多いだろうか?
そう、内容が同じなので情報量は同じだ。Aの方が文字の量(データ量)がおおいだけだ。なので、定義として考える場合には、データ量と情報量は別物として考える必要がある。

情報量が多い=どうなるかわからないことがわかる

ということで、情報量が多いとはデータ量が多いということではないという説明をさせてもらった。では、情報量が多いとは何か。それは、どうなるかわからないことがわかるということだ。

わかるようなわからないような定義なので、もう少しだけわかるように例を出して説明をしてみる。
まず、基本的な考え方として、珍しいことが起きたと知ること=情報量が多い(知ることの価値が高い)という考え方がある。これは直感とも一致する考え方のはずだ。これを踏まえて以降の説明を見ていただきたい。

<問題1>
今日、雨が降った。情報量が多くなるのはどの天気予報の時か。
(結果を知ったことの価値が一番高くなるのはどの天気予報の時か。)

1. 今日の降水確率は20%だ。
2. 今日の降水確率は50%だ。
3. 今日の降水確率は90%だ。

<正解>
1 > 2 > 3

珍しいことが起これば、知ることの価値は高くなるということで問題の答えは直感での情報量の考え方と一致したはずだ。さらに、逆に降らなかった場合について情報量を考えてみたい。

<問題2>
今日、雨が降らなかった。情報量が多くなるのはどの天気予報の時か。
(結果を知ったことの価値が一番高くなるのはどの天気予報の時か。)

1. 今日の降水確率は20%だ。
2. 今日の降水確率は50%だ。
3. 今日の降水確率は90%だ。

<正解>
3 > 2 > 1

今回も珍しいことが起きたら、知ることの価値が高くなるということで直感通りの正解であったはずだ。

さて、この2つの問題を眺めてもらいたい。雨が降ったか/降らなかったという結果によって情報量の順序が逆転してしまっている。これは非常に大きな問題になる。どういうことかというと、結果(雨が降った/降らなかったの降水情報)を知った場合の情報量を比較できなくなるのだ。

私たちが「情報を知る」と使う時それは、複数の状態を持つ事象がどれかになったという結果を知った、と言い換えられる。そして、一つの状態しか持たないというような事象は通常ない。この問題で言えば、雨が降るということしか発生しない、ということはあり得ない。同時に降らないという場合がある。最小限に単純化した問題でも「ある/なし」の状態を含む事象を考えるのが一番自然なのだ。これを踏まえると、問題1,2では事象の一部分しか考えていない不自然な考え方をしているとわかる。自然な情報量について考えるならば、次の問題を考えなくてはいけない。

<問題3>
今日の降水情報(雨が降ったか/降らなかったかの結果)を知った。情報量が多くなるのはどの天気予報の時か。
(結果を知ったことの価値が一番高くなるのはどの天気予報の時か。)

1. 今日の降水確率は20%だ。
2. 今日の降水確率は50%だ。
3. 今日の降水確率は90%だ。

<正解>
????

降った時なら1だが、降らない時なら3だ。だけど、複合した場合にはどう比較したらいいのか、と悩むはずだ。詳しい説明は省かせてもらうが、このような幾つかの場合が含まれている事象を考える時には、情報量の平均値を取ることで事象に対する情報量を計算する。そして、この平均値は50%の時に最大になり、パーセントが増えると情報量の平均値は下がるようになる。つまり、自然に考えた場合には、最小限に単純化した問題でも「どうなるかわからない」2の時に結果を知る情報量が一番多くなる。そして、1が次に情報量が多く、3が最も情報量が少ない。

なお、問題1,2での情報量を選択情報量(自己エントロピー)と呼び、事象全体の平均値の情報量を平均情報量(エントロピー)と呼ぶ。通常、情報量と言えばエントロピーを指す。まとめると、情報量=平均情報量(エントロピー)はどうなるかわからない状態で、その結果を知った時に最大になる、というのが情報理論での情報量の特徴だ。

2つの絵はどちらが情報量が多いか

情報量というものにも、2つ(選択情報量、平均情報量)があると説明させてもらった。で、いよいよ三体の話に戻る。ここで話しているのは平均情報量、エントロピーのことだ。
なので、これ以降の説明では「情報量」と書く時には、平均情報量(エントロピー)という意味で使用する。

情報量というものは「どうなるかわからない」という状態の時に多くなる、と説明した。このため、絵の情報量を比較したい場合には、絵のどうなるかわからない具合をなんらかの形で定義することが必要になってくる。つまり、絵をなんらかの形で確率的にみることが必要になってくる。絵を確率的にみる方法として、絵の一部から他の部分を予想できるかということが考えられる。この、「絵の一部からの予想」で確率が定義できるため、選択情報量を導き出すことができるようになる。そして、全部の絵の箇所に対して選択情報量を計算し、その平均を求めることで、絵全体の情報量が計算できるようになる。

作中で描写されていたような精密に書かれた絵(清明上河図)は、パターンがあるために、絵の構造が予測しやすくなっている。例えばこの箇所には手綱のついた家畜がいるから後ろには引かれる荷物があるはずだ、などなど。もちろんこの絵の構造に対する予想が外れる時もあるし当たる時もあるが、重要なのは絵の一部から全体に対する予想を立てやすいということだ。つまり、「どうなるか予測がたてられる」絵だ。少なくとも部分的には。このことから、精密に書かれた絵は情報量が少なくなる。

一方、何もないような青空の絵では、絵の一部から全体に対する予想が立てにくい。ある箇所が青空だからといって、他の部分では雲が出てくるかもしれないし、青空が続くかもれないない。つまり、「どうなるかわからない」絵だ。このことから、絵の一部から全体に対する予想を立てにくい大空の絵は情報量が大きくなる。

まとめ

情報理論では情報量を定性的な形でなく定量的に比較できるように考え定義した。そのために、同じ情報量という言葉を扱いながら、情報理論の考え方では直感に反することが起きる。

結局、うまく伝えられてないような内容になってしまった気がしているが、このノートで言いたかったことはこれだけだ。というか、ここだけ情報理論での情報量(エントロピー)の話を急に出すからずるいぞってこと。

ここら辺の話を知っていると、作中の情報量という言葉に対してニヤリとできるかもしれない。

この記事が気に入ったらサポートをしてみませんか?