見出し画像

多様性の数理モデルを作ってみる その2

【前回はコチラ】

 今回から多様性の数理モデルを作っていくよ~!
 脳みその筋肉動かせ~!
 数学アレルギーは美少女の顔でも見てろよ~!

 テンション高いわね~。ちゃんと抜け漏れがないようにやるつもりだから、「詰めが甘い」って言われないようにしないとね。

ちなみに、スクロールバーを見る限り超長いわよ。

 今回の目的は数理モデル、具体的に言えば集団間の多様性と集団内の多様性の計算方法を作ることとなります。そのための道筋は「多様性の定義」「公理系の構築」「数式の作成」を順次行っていきますよ。



4. 多様性を定義する

【語句の定義】

 まずは語句の定義からやっていきましょう。つまり、用語にちゃんとした意味づけを行って曖昧さを排除していくことですね。そのあとに、定義した語句を用いて多様性に意味づけを行っていきます。

 といっても前回の瓶に入った飴玉のときにおおむね定義してしまった気がするわね。

語句の意味の例

 そうですね。前回は飴玉を要素、飴玉の色を性質、飴玉の入った瓶を集団、瓶の集まりを群集と定義しました。ではこれらをもう少し一般化した表現にしてみましょう。

 例えば飴玉には必ず色がついているから、要素は必ず性質を持っているということは言えそうね。そして性質は要素の持つ特徴のことと言えるわね。

 多様性とは厳密には概念である性質の多様さのことを指しており、要素は概念である性質を伴う具体的なモノを指しますね。
 それから飴玉はそれ以上は分割できない、すなわちなにかしらの集合体ではないと言えます。

(※この例は飴玉を最小単位とみなしているので、マルトースやスクロースからできてるみたいな話はおいといてください)
 ではこれらを一般化した表現はこうなりそうですね。

定義1:ある特徴を有するこれ以上分割できないものを要素とし、その特徴を性質とする

 次は集団ね。これは要素が集まったものを集団と言えそうだわ。だた疑問なのは要素が0個のとき、例えるなら飴玉の入ってない瓶は集団として認めるのかしら?

 むむっ! いい質問ですね。何もない状態の多様性を定義できるのか、ということですね。数学的には全部0個で平等だから多様性が高そうに思えますが、現実的に「火星では海洋生物の多様性がとても高い」って言ってたらおかしいですね。

 なのでここは要素0個の集団の多様性は定義しない、つまり、要素0個の場合は集団とは定義しないという立場を一旦とっておきますが、疑問点として保留しておきましょう。ではこれを一般化します。

定義2:1以上の有限個の要素のみで構成されたものを集団とする

 そうすると、群集も集団が集まったものであり、集団が1個もないものは群集とは認められないということになりそうね。つまり同様にこうなるわね。


定義3:1以上の有限個の集団のみで構成されたものを群集とする

 そして前回定義したものがもう1個ありましたね! 「定義域」です。これは性質の種類をどこまで含めるのかを決めたものでしたね。

 そういえば、ある会社に属する人の例では、定義域が複数あったわね。

 そうですね。例えば飴玉の例でも、飴玉の色のほかに飴玉の形状という定義域を設定することが可能です。つまり、定義域は複数種類設定できます。
そして、どの飴玉も「色」と「形状」それぞれの特徴が必ず1つに定まるように、要素はすべての種類の定義域に含まれる性質をそれぞれ1つずつ有することになります。

 ただ、そうすると色の多様性と形状の多様性がそれぞれ出てきてしまうわね。これでは多様性の尺度が定義域の数だけあることになってしまうわ。

 はい。定義域ごとに多様性が出てくるということは、定義域同士は互いに独立した変数とみなせるので、定義域の数を「次元」と呼ぶことにしましょう。飴玉の例は2次元の定義域を持っていると表現できます。ではここまでの話を一般化してみましょう。ついでに当たり前な話を1文追加しておきます。

定義4:群集に属する全ての集団に含まれうる要素の持つ性質の種類を定義したものを定義域とする。群集は多次元の定義域を持つことができ、要素は全ての定義域に含まれる性質をそれぞれ1つずつ有する。1つの性質が複数の定義域に同時に存在することはできない

【多様性の定義】

 語句の定義ができたので、ここからついに多様性の定義に切り込んでいきますよ! 前回に言語化する際、多様性が高いか低いかをどう表現したかを思い出してみましょう。

 確か、全部が同じだったら多様性は低くて、異なるものが増えるにしたがって多様性が増えて、均等になるときに最高となる、だったわね。
 そうすると、同じ要素同士の個数をそれぞれ調べればいいのかしら?
 同じ性質を持ってれば同じ要素だとしても、どの定義域から見るかによって同じかどうかが変わってしまうわね。

 いいですね~。ある要素同士が同じかどうかは定義域によって変わります。つまり「2つの要素が同じとはどういうことか」の言語化が必要になりそうですね。

定義5:ある1つの定義域において、同一の性質を有する要素同士は同一の要素とみなし、異なる場合は不同の要素とみなす。ある要素同士が同一であるかは定義域によって変化する

 では多様性の定義をしていきましょう。全部が同じなら多様性は低くて、均等なほど高くなるだろうと言語化しました。ということは多様性は高いとか低いとかがわかるような値をとることがわかりますね。そして、異なるものの比率(全要素数に対する割合)が増えると多様性の値が変化すると言えます。

 要素が全部同じとは最大の偏りがあり、均等とは偏りが最小と換言できるわね。そして偏りとは比率の程度のことを指していると換言できるわね。

定義6:多様性とは、ある1つの定義域における各同一要素の比率(全要素数に対する割合)の偏りの尺度を表す値である

【集団内の多様性の定義】

 これで多様性を定義することができましたが話はこれで終わりません。多様性には種類があることが前回で判明しています。つまり集団内の多様性集団間の多様性の定義に拡張する必要があります。これを計算式に落とし込むことが目的ですからね。

 前回では、集団内の多様性は集団の多様性に対応し、集団間の多様性は群集の多様性に対応するとした。ただし、集団内の多様性が群集の多様性にも対応するかについては保留だったわね。

 ではまず集団内の多様性についてもう少し詳しく言語化してみましょう。

 詳しくも何も、今まで言語化してきたことがそのまま集団内の多様性に該当すると思うのだけど。つまり、集団内にある要素の比率がどうなっているのか、ということよね。

 はい。しいて言えば、範囲が1つの集団の中の要素に限定すると定められている点の違いですね。また、「比率の偏りの程度」をもう少しわかりやすい言い方をすれば要素のばらつき具合とも解釈できますので、それも併記しておきますね。

定義7:ある集団における集団内の多様性とは、1つの集団における、それぞれの要素が占める比率の偏り(ばらつき具合)を示す尺度の値である

 そして、先ほど出た「要素数0個の場合は集団とみなすか」という話になりますが、結論からいうとそれを集団とみなしたとしても、集団内の多様性の定義とうまくかみ合いません。というのも、全体量に対する割合は全体量が0でないことが条件に含まれる(何もないものに対して割合を示すことはできない)ためです。

 そのため、要素数0個の場合を集団とみなすとき、その集団内の多様性に相当する値は未定義となります。

 なるほどね。そうすると、要素数0個の場合をわざわざ集団の定義に含める必然性がないわね。含めたところで、「そのときの値は未定義です」という記述が増えるだけだものね。

【集団間の多様性の定義】

 次は集団間の多様性の定義ね。これを言語化すると、群集に属する集団同士がどのくらい多様であるかとなるから、集団としての違いとは何かを明確にする必要があるわね。

 はい。それにはまず、2つの集団が同じとはどういう状態か、を言語化するところから始めてみましょう。

 それぞれの集団に含まれるそれぞれの要素がすべて同じ数だったら2つの集団が同じと言えるわね。あれ、でも例えば集団の内訳が {赤い飴:1, 青い飴:2} と {赤い飴:2, 青い飴:4} という組だったらどうなのかしら? 数は違うけど比率は同じよね。

 いい着眼点ですね~。今まで「全部要素が同じなら」とか「要素が均等なら」といったように、具体的な数ではなく「こういう特徴の集団はこうだよね」という尺度で規定しています。つまり……。

 つまり2つの集団が同じとは特徴が同じことであり、集団の特徴とは各要素の比率で決まる、すなわち、2つの集団の各要素の比率が同じということね! また集団/群集の多様性とは集団/群集の特徴のことでもあり、(ある定義域で)同じ特徴なら同じ値をとると解釈できるわ!

 正解~! 2つの集団でそのある要素、例えばさっきの例なら赤い飴と青い飴玉の占める比率が同じであるから同じ集団ということになります。

 そしてそれらの要素の比率が異なると違う集団とみなされるわけね。例えばさっきの2つの集団でそれぞれの青い飴の比率の差が大きくなればなるほど集団としての違いも大きくなるということね!

 そうです! つまり、2つの集団で占める比率がどれくらい違うかの尺度、これをもう少し一般化すると、集団間の多様性とは、ある要素が各集団で占める比率がどの程度偏っているかを表していることになります。

 さっきの例で言えば、青い飴の偏りと赤い飴の偏りの二つの値が出てきてしまうわね。これらは集団間における青い飴の多様性・赤い飴の多様性とみなせるけど可能であれば何かしらの方法で1つの値にまとめたいわね。

 そうですね。集団間の多様性を求めようとすると、どうしても性質の種類の数だけ値が出てきてしまいますので、最終的にはそれらの値を一つの値に集約したいですね。

 ただし、今のところはある一つの要素における定義として記述し、あとで群集に対応するように一つの値にする方法を考えましょう。

定義8:ある要素における集団間の多様性とは、1つの群集において1個以上存在する、ある1種類の要素がそれぞれの集団内で占める比率の偏り(ばらつき具合)を示す尺度の値である

 定義の中に「1個以上存在する」という文言を入れました。というのもその群集内で0個、すなわち全集団で0個の要素は全体量が0なので、比率として表すことができません。つまりその要素の比率の偏り具合は未定義となりますので、少々勝手ながら計算からは除外する他ありません。

 これで一通り多様性の定義が終わりました。いや~、大変でしたね~。ですがここでまだ前半戦終了なくらいですからまだ長いですよ~。では後半戦はりきっていきましょ~!


5. 多様性の公理系を構築する

 続いて公理系の構築です。つまり根拠なしにこれは正しいと認める仮定または前提という論理の出発点を決めましょうという話ですね。とはいえ、前々から公理に関わる点は時たま出てきてはいたのですが、ここでしっかりと決めておきましょ~。

 もう少し具体的に言うと、多様性の状態を数的なものに紐づけるというイメージね。例えば今まで「多様性が高い/低い」という表現を用いてきたけど、これをもうちょい具体的かつ数学的に記述していくということね。

 はい。そしてなぜこんなことをやるかというと、集団内の多様性や集団間の多様性を算出するための計算式を作るにあたって必要になるからなんですね。

 では早速やっていきましょう。まず集団内の多様性については、何度か出てきている通り「要素が全部同じなら低い」「均等なら高い」「要素の比率が均等に近いほど高い」という表現をしてきましたがこれらは厳密ではありません。まず多様性の値はどう表現されるのかを決めましょう。

 そうね。ぱっと見で大小がすぐにわかるような数値がいいと思うわ。例えば「1.3と2.8」とかは大小がすぐわかる一方で「1.2+0.4iと1.5-0.7i」みたいな複素数の大小は全くわからない、つまり実数でいいと思うわ。

公理1:多様性のとりうる値は実数である

 いいですね。余談ですが無限大は実数ではないので多様性が-∞や+∞になることもないですね。
 次は「集団内の要素が全部同じなら低い」という表現について見てみましょう。

 そうね。低いとはどのくらい低いのかがわからないわね。というか、要素が全部同じ状態より多様性が低くなることはあり得ないと考えていいと思うわ。同様に要素が均等な状態より多様性が高い状態もないわね。

 いいですね。集団内の多様性においては「要素が全部同じ状態なら最小」「要素が均等なら最大」と決められますし、詳しくは後述しますが、集団間の多様性では「同じ要素比率の集団なら最小」「すべての要素で集団間の比率が極大なら最大」と決めてしまっていいですね。
今まではわざと曖昧な言い方をしてきましたが、ここできっちりとした言い方に改めましょう。

公理2:多様性のとりうる値の範囲には最大値と最小値がある

公理3:ある定義域において、1つの集団に属する要素がすべて同一であるとき、その定義域における集団内の多様性は最小となる

 次に集団内の多様性が増加する条件を記述しましょう。というのも、最大値と最小値の状態が決まってても、最小値の状態から最大値の状態に向かうときは常に多様性は増加傾向(単調増加でなくてはなりません。

公理4:ある定義域において、1つの集団に属する要素に不同のものがあるとき、要素の比率の偏りが小さいほどその定義域における集団内の多様性が増大し、そのときの多様性の増減のしかたは単調である

 集団内の多様性を算出するにあたっての公理はとりあえずこれでいいですかね。では次に集団間の多様性についての公理を作っていきましょう。

 これはさっき「2つの集団が同じ」とは「2つの集団の各要素の比率が同じ」こととみなしたわね。そして、公理3と同様に同じものしかないとき、多様性は最小をとると考えていいわね。

公理5:ある定義域において、1つの群集に属する各集団内のある要素の比率がすべての集団において同一であるとき、その要素の集団間の多様性は最小となる

 いいですね~。そして要素の比率の偏りが大きくなるほど多様性が増加すると考えられるので、集団間の多様性が増加する条件を記述します。

公理6:ある定義域において、1つの群集に属する集団内のそれぞれの要素の比率が集団間における偏りが大きいほど集団間の多様性が増大し、そのときの多様性の増減のしかたは単調である

 集団間の多様性を算出するにあたっての公理はとりあえずこれでいいですかね。おまけ程度ですが、一応これも作っておきましょう。

公理7:多様性の算出に関する演算は一般的な数学の公理に基づく

 これでとりあえず必要な公理は出そろったかしら? では数理モデルの最終段階として、ここまで行ってきた定義と公理から具体的な数式を作っていくわ。


6. 多様性を算出する数式を作る

 さぁ~、ここから具体的な数式におとしこんでいくよ~!
 ここからさらに数学っぽさが出てくるからな~!

……

ふんがー!

 まともに始めなさいよ! 大丈夫、うん大丈夫……。というかなんでこんなにテンション高いのかしら? あー、そうそう、計算式は出てくるけど御覧の皆様は「ふーん」って思いながら適当に読み飛ばしてもいいわよ。

【多様性をどう計算に落とし込むか】

 まず多様性をどう計算式に落とし込むのか、ということを決めなくてはいけないのですが、先ほどの定義から多様性とは各要素の偏りの尺度のことを指します。そして私は先ほど偏りの尺度を「ばらつき具合」と言い換えました。

 一般的に数学、とくに統計学などでばらつき具合を示すときは標準偏差または分散を使うわね!

 はい。なので多様性の計算方法は標準偏差を採用します。そして、多様性を計算する対象は母集団に相当すると解釈できるので、母集団の標準偏差を用います。

 そして記述の便宜上、標準偏差を「sd(X1,…,Xn)」という関数の形式で記述することにしますね。sdは標準偏差の英訳にあたる "Standard Deviation" の略、()の中のXは計算の対象にする数値になり、何個の数値を入れるかは決まってないのでこのような記述になってます。

$$
x_1,…,x_n の平均:  \bar{x} =  \frac{1}{n}\sum_{i=1}^{n}x_i
$$

※おなじみの数字を全部足して個数で割るあの平均のこと

$$
x_1,…,x_n の標準偏差: sd(x_1,…,x_n) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_1-\bar{x})}
$$

※「個別の値から平均値を引いたものを2乗したもの」をすべて足して個数で割って平方根

$$
例: sd(1,3,7,9) = \sqrt{\frac{(1-5)^2+(3-5)^2+(7-5)^2+(9-5)^2}{4}}
$$

※(1,3,7,9)の平均は5であり、値の個数は4個である。

【集団内の多様性の計算式の作成】

 それじゃ、これを使って集団内の多様性をいくつか求めてみましょうか。定義7から要素比率のばらつき具合を示す、すなわち要素の比の値の標準偏差にすればいいわね。
例えば、定義域:{赤, 青}で次の集団について計算してみるわ。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c:c}
集団&要素[赤]&要素[青]&計算結果\\ \hline
①&2&3&0.5 \\ \hline
②&4&6&0.5 or 1\\ \hline
③&5&2&1.5 \\ \hline
④&4&1&1.5\\ \hline
\end{array}
$$

 ん……? ③と④は異なる比率なのに同じ数値が出てきてしまったわね。それに②も比に直して計算すれば同じだけど、うっかりそのままの値で計算すると①と違う値になってしまうわね。

 あ~、それぞれ集団に含まれる要素の数が違うせいで、とりうる値の最大値と最小値が異なるからそのままの数値だと意味不明になってしまうみたいですね。ためしにそれぞれ最も偏ってる場合の計算をすると値はこうなりますね。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c:c}
集団&要素[赤]&要素[青]&計算結果\\ \hline
①&0&5&2.5 \\ \hline
②&0&10&5\\ \hline
③&0&7&3.5 \\ \hline
④&0&5&2.5\\ \hline
\end{array}
$$

 ということは、どのくらい値の範囲をとりえるのかがそろってないと単純な数字の比較ができないということね。なのでこの例だと①と④は比較できるけど③はいずれとも比較できないのね。

 そうですね。ということは、これらの値を正規化して、とりうる値の範囲をそろえれば比較可能です! 具体的には、とりうる値の最大値との比にすれば最小値が0、最大値が1、値はその間に収まります! そして②も比に直す必要がなくなります!

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c:c}
集団&要素[赤]&要素[青]&計算結果\\ \hline
①&2&3&0.5 / 2.5 = 0.2 \\ \hline
②&4&6&1 / 5 = 0.2\\ \hline
③&5&2&1.5 / 3.5 = 0.43 \\ \hline
④&4&1&1.5 / 2.5 = 0.6\\ \hline
\end{array}
$$

 ちょっと待ちなさい。②以外は奇数で均等にならないから、標準偏差は0にはなりえないわよ。そうすると単純にこれだけでいいのかしら?

 はい。①と②が同じ集団とみなされるように、すべての要素が定数倍された(相似形の)集団は元の集団と同じとして扱われ、要素が均等になるパターンが必ず存在することから、標準偏差が0になるパターンはどの集団にも存在します。

 なので、その集団がどう組み合わせても要素が均等にならないとしても、均等になるパターンは存在する前提となります。よって正規化された値は常に[0, 1](※)とみなしていいことになります。
閉区間といい、[0, 1]は実数の範囲かつ、最小値0, 最大値1を持つという意味です。

この2つは同じ集団とみなされる

 なるほどね。ただ、今の状態だと、全部が同じだと値が1になって、均等だと0になってしまう、つまり公理3、公理4と真逆の状態になっちゃってるから、1-〇という形にした方がよさそうね。

 はい。そうするとそれぞれの集団内の多様性は次のようになります。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c:c}
集団&要素[赤]&要素[青]&計算結果\\ \hline
①&2&3&0.8 \\ \hline
②&4&6&0.8\\ \hline
③&5&2&0.57 \\ \hline
④&4&1&0.4\\ \hline
\end{array}
$$

 そして、要素{e_1,...,e_n}、集団{g_1,...,g_m}をもつ群集における集団g_1の各要素の個数が(x_1,...,x_n)、その合計がXであるときの集団内の多様性Div_in(g_1)は次のようになります。

$$
Div_{in}(g_1)=1-\frac{sd(x_1,…,x_n)}{sd(X,0,…0)}\\
 \\
Div_{in}(g_1)=1-\frac{1}{X}\sqrt{\frac{n}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}\\
  \\
(x_1,…,x_n)の平均: \bar{x}=\frac{X}{n}\\
(X\ge1, n\ge2, x_i\ge0)
$$

 ちなみに、その定義域に含まれる性質が1個(n=1)のとき0除算が発生してしまうんですね。その場合における集団内の多様性は計算できず、数値は未定義となります。
 概念的には、多様性とはあくまで相対的な状態を示すものですので、1種類の要素しか存在しえない集団は1つの状態しかとりえず、相対的な状態を決定しえないためです。

 また、性質が0個(n=0)の場合は定義4から要素を与えることがでない、そして、そもそも要素が0個(X=0)の場合も集団を作りえないため未定義です。

【集団間の多様性の計算式の作成】

 それじゃ、次は集団間の多様性についての計算式ね。定義8から各集団でその要素が占める割合のばらつき具合を出せばいいのね。さっきと同じ集団を同じ定義域で使うことにするわ。定義域は{赤,青}よ。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&2&3 \\ \hline
②&4&6\\ \hline
③&5&2\\ \hline
④&4&1\\ \hline
\end{array}
$$


 先ほどは1つの集団で赤と青がどうなってるかという見方をしましたが、今回は1つの要素が集団間でどうなってるかという見方をします。

 とりあえず、今は比率になっていないから、これを比率に直す必要がありそうね。

 そうですね。それぞれがどのくらい占めているかにいったん直さないと計算できません。表現の仕方はなんでもいいですが、今回は百分率で表します。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&40\%&60\% \\ \hline
②&40\%&60\%\\ \hline
③&71.4\%&28.6\%\\ \hline
④&80\%&20\%\\ \hline
\end{array}
$$

 そして赤の内訳の標準偏差、青の内訳の標準偏差をそれぞれ計算すればいいのね。そして、そのまま標準偏差をとった値は比率の変形の仕方の影響を受けてしまうから正規化が必要ということね。でも正規化するにあたって何で割ればいいのかしら?

 結論から言ってしまうと、赤についてはsd(231.4%, 0%, 0%, 0%)、青についてはsd(168.6%, 0%, 0%, 0%)になります。定数倍された集団は同じ集団とみなされるわけですから、さきほどの内訳は%を取っ払って次の内訳と同じことになります。これは比率でありながら具体的な個数ともみなせるので加算可能です。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&40&60 \\ \hline
②&40&60\\ \hline
③&71.4&28.6\\ \hline
④&80&20\\ \hline
\end{array}
$$

 そして、それぞれもっとも偏っているパターンは要素のすべてが1つの集団に集まっている状態、つまりそれぞれ以下のようになります。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&231.4&168.6 \\ \hline
②&0&0\\ \hline
③&0&0\\ \hline
④&0&0\\ \hline
\end{array}
$$

 すると同様に、出てくる値は[0, 1]となるため、極めて比較しやすい数値となります。

 なるほどね~! そして偏りが大きいほど数値が大きくなるのは公理5,公理6とあってるから、そのまま比を用いていいわね! そうするとそれぞれのばらつき具合はこうね。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&40&60 \\ \hline
②&40&60\\ \hline
③&71.4&28.6\\ \hline
④&80&20 \\ \hline
\\ \hline
ばらつき&0.18&0.2\\ \hline
\end{array}
$$

 あれ、でも最も偏りがあるパターンを考えると要素数0の集団が出てきてしまうわ。なんかおかしいわ。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
①&231.4&0 \\ \hline
②&0&168.6\\ \hline
③&0&0\\ \hline
④&0&0\\ \hline
\end{array}
$$

 ここがものすごくややこしいところなんですよね。集団間の多様性というのは、定義8で示したように要素のばらつき具合を演算した値なんですね。ある一つの要素のばらつき具合は先ほどの計算方法の通り、正規化するにあたって最も偏っているパターンについて記述します。しかしこれば正規化の手続きとして行っているだけであり、最も偏っているパターンをすべての種類の要素で同時に満たすことを想定しているわけではありません。

 む、難しいわね……。正規化せずに演算して、そのあとに最も集団間で偏りが発生する値で正規化すればと考えたけど、性質の数と集団の数が異なる場合は、どれがそのパターンにあてはまるのかを求める方法がないものね。

 ということで、要素{e_1,...,e_n}、集団{g_1,...,g_m}をもつ群集における要素e_1の各集団で占める比率が(r_1,...,r_n)、その合計がRであるときの集団間の多様性Div_btw(e_1)は次のようになります。

$$
Div_{btw}(e_1)=\frac{sd(r_1,…,r_m)}{sd(R,0,…0)}\\
 \\
Div_{btw}(e_1)=\frac{1}{R}\sqrt{\frac{m}{m-1}\sum_{k=1}^m(r_k-\bar{r})^2}\\
  \\
(r_1,…,r_m)の平均: \bar{r}=\frac{R}{m}\\
(R\ge1, m\ge2, r_i\ge0)
$$

 こちらも、ある要素が全ての集団で0個(R=0)の場合は、合計量が0になり比率として表せないので未定義、また集団が1個しかない(m=1)場合は、要素の占める比率の比較対象がないので未定義となります。
 当たり前ですが集団がない(m=0)の場合はそもそも前提が成立していません。

【多様性の値を一つに集約する】

 次は値の集約ね。集団間の多様性は各要素ごとに数値がでてしまうから、1つの値に集約する必要があったわね。

 はい。その演算方法について決めますが、何が最も妥当かを決めるのは難しいです。ただ今まで求めてきた多様性にあたる値はすべて[0, 1]なので、演算した値が[0, 1]からはみ出ない方が好ましいですね。

 なのでここでは多様性の二乗平均平方根とします。それを選んだ根拠はあんまりないのですが、標準偏差をそのまま平均するよりも分散の平均を平方根したものの方が妥当と判断したためです(分散は標準偏差の2乗)。

 特に根拠なく私はそれを選んだというだけなので、それでなくてはいけないということではないですが、公理から単調性である必要があります。ちなみに二乗平均平方根は満たしています。

$$
二乗平均平方根: rms(x_1,…,x_n) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}x_i^2}
$$

 すると、さっきほどの集団間の多様性は次のようになるわね。それぞれの要素のばらつき具合はこうだったわね。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&要素[赤]&要素[青]\\ \hline
1&40&60 \\ \hline
2&40&60\\ \hline
3&71.4&28.6\\ \hline
4&80&20 \\ \hline
\\ \hline
ばらつき&0.18&0.2\\ \hline
\end{array}
$$

 するとこの集団間の多様性はこの2つの値の二乗平均平方根により0.19となるわ(ちなみに少数下2桁に丸め込んでるわ)。

 まとめると、要素{e_1,...,e_n}、集団{g_1,...,g_m}をもつ群集における集団間の多様性Div_btwはちょっと複雑ですが次のようになります。

$$
Div_{btw}=\sqrt{\frac{1}{n}\sum_{i=1}^n(Div_{btw}(e_i))^2}\\
   \\
Div_{btw}=\sqrt{\frac{1}{n}\sum_{i=1}^n\frac{sd(r_{1,i},…,r_{m,i})^2}{sd(R_i,0,..,0)^2}}\\
 \\
Div_{btw}=\sqrt{\frac{1}{n}\frac{m}{m-1}\sum_{i=1}^n\frac{1}{R_i^2}\sum_{k=1}^m(r_{k,i}-\bar{r_i})^2}\\
 \\
集団g_kの要素e_iの比率: r_{k,i}\\
要素e_iの各比率の合計: R_i=\sum_{k=1}^mr_{k,i}\\
要素e_iの各比率の平均: \bar{r_i} = \frac{R_i}{m}\\
(R_i\ge1, n\ge1, m\ge2, r_{k,i}\ge0)
$$

 これで、全ての要素における集団間の多様性を一つの値に集約できたわね。……ん?

 待って、集団内の多様性でも同じように一つの値に集約すれば、それも群集の多様性とみなせるんじゃないかしら?

 いい着眼点ですね! 私もそう思います。次の表のように考えると、わかりやすいですね。

表として表した群集モデル 要素の種類と集団との表にそれぞれの要素の個数を記したもの。

 すごいすっきりした関係になったわね。これを見るとそれぞれが群集の多様性に対応しているように見えるわ。

 はい! 対応すると言えそうです。つまり、集団内の多様性と集団間の多様性はそれぞれ群集の多様性を異なる基準でみたものになります。
 そして先ほどと同じように、要素{e_1,...,e_n}、集団{g_1,...,g_m}をもつ群集における集団内の多様性Div_inは次のようになります。

$$
Div_{in}=1-\sqrt{\frac{1}{m}\sum_{k=1}^m(1-Div_{in}(g_k))^2}\\
   \\
Div_{in}=1-\sqrt{\frac{1}{m}\sum_{k=1}^m\frac{sd(x_{k,1},…,x_{k,n})^2}{sd(X_k,0,..,0)^2}}\\
 \\
Div_{in}=1-\sqrt{\frac{1}{m}\frac{n}{n-1}\sum_{k=1}^m\frac{1}{X_k^2}\sum_{i=1}^n(x_{k,i}-\bar{x_k})^2}\\
 \\
集団g_kの要素e_iの個数: x_{k,i}\\
集団g_kの要素の合計: X_k=\sum_{i=1}^nx_{k,i}\\
集団g_kの要素の平均: \bar{x_i} = \frac{X_k}{n}\\
(X_k\ge1, m\ge1, n\ge2, x_{k,i}\ge0)
$$

 集団内の多様性はもともと定義や公理にあうように1-○に変形したので、二乗平均平方根するときは元に戻して計算し、再度1-○に変形しています。

【多次元の定義域のときの計算】

 あ、そういえば、ふと思い出したけど多次元の定義域では定義域ごとに多様性が異なるけど、すべての定義域を含む多様性は出せるのかしら?

 そうですね。いろいろな計算方法を試してみたところ複数の定義域を1つに複合して、その多様性を計算するのがいいと思います。例えば、定義域:{赤, 青}, {円形, 四角形}であれば、定義域:{赤&円形, 青&円形, 赤&四角形, 青&四角形}にしてその定義域で計算するということですね(直積)。それを妥当と判断したのは、次の例を考えてみます。

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c:c:c}
集団&[赤,円形]&[青,円形]&[赤,四角形]&[青,四角形]\\ \hline
A&10&0&0&10
\end{array}
$$

 定義域:{赤, 青}, {円形, 四角形}という観点でみれば、

$$
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&[赤]&[青]\\ \hline
A&10&10\\ \hline
\end{array}
  
\def\arraystretch{1.5}
\begin{array}{c:c:c}
集団&[円形]&[四角形]\\ \hline
A&10&10\\ \hline
\end{array}
$$

となるからいずれも均等にみえるけど、複合すると要素に傾向があるせいで均等にならないわね! そうすると、各定義域の多様性を用いて演算することは誤りのリスクが大きいわ!

 だったらそもそも多次元として定義する意味ってあるのかしら。最初から{赤&円形, 青&円形, 赤&四角形, 青&四角形}としてもいい気がするけど。

 それでもダメではないんですけど、特定の組み合わせがないことをいいことに、{赤&円形, 青&四角形}という定義域にすることもできてしまうんですよね。

 定義域を多次元とするのは、性質を分類分けして明確化し、全ての組み合わせが含まれていることを保証すること、そして各定義域ごとにどうであるのか、どの定義域を組み合わせるとどんな傾向がでるのかを分析するのに役に立ちます。


7. まとめ

 これで必要な計算式を作成できました。これにて、多様性の定義、公理系の構築、計算式の作成の3つが完了し、多様性を計算可能にできました。

 やっと終わったわね~。もう大変だったわ~。それにしてもアンタはよくピンピンしてられるわね~。

 次回はこの計算式を用いて作成したプログラムからコンピューターシミュレーションを用いて分析と解析をおこなっていきますよ! 基本的にグラフを眺めるだけなので今回ほどは大変ではないハズ! 集団間の多様性と集団内の多様性の関係性に迫ります! 最後に定義と公理をまとめたものも置いておきますね。

【次回はコチラ】


【定義一覧】

  1. ある特徴を有するこれ以上分割できないものを要素とし、その特徴を性質とする

  2. 1以上の有限個の要素のみで構成されたものを集団とする

  3. 1以上の有限個の集団のみで構成されたものを群集とする

  4. 群集に属する全ての集団に含まれうる要素の持つ性質の種類を定義したものを定義域とする。群集は多次元の定義域を持つことができ、要素は全ての定義域に含まれる性質をそれぞれ1つずつ有する。1つの性質が複数の定義域に同時に存在することはできない

  5. ある1つの定義域において、同一の性質を有する要素同士は同一の要素とみなし、異なる場合は不同の要素とみなす。ある要素同士が同一であるかは定義域によって変化する

  6. 多様性とは、ある1つの定義域における各同一要素の比率(全要素数に対する割合)の偏りの尺度を表す値である

  7. ある集団における集団内の多様性とは、1つの集団における、それぞれの要素が占める比率の偏り(ばらつき具合)を示す尺度の値である

  8. ある要素における集団間の多様性とは、1つの群集において1個以上存在する、ある1種類の要素がそれぞれの集団内で占める比率の偏り(ばらつき具合)を示す尺度の値である

【公理一覧】

  1. 多様性のとりうる値は実数である

  2. 多様性のとりうる値の範囲には最大値と最小値がある

  3. ある定義域において、1つの集団に属する要素がすべて同一であるとき、その定義域における集団内の多様性は最小となる

  4. ある定義域において、1つの集団に属する要素に不同のものがあるとき、要素の比率の偏りが小さいほどその定義域における集団内の多様性が増大し、そのときの多様性の増減のしかたは単調である

  5. ある定義域において、1つの群集に属する集団内のそれぞれの要素の比率がすべての集団において同一であるとき、集団間の多様性は最小となる

  6. ある定義域において、1つの群集に属する集団内のそれぞれの要素の比率が集団間における偏りが大きいほど集団間の多様性が増大し、そのときの多様性の増減のしかたは単調である

  7. 多様性の算出に関する演算は一般的な数学の公理に基づく


この記事が気に入ったらサポートをしてみませんか?