🎭ジニの不純度、ジニの多様性指数、または生物多様性研究におけるジニ・シンプソン指数

2024年2月9日 16:00

ジニの不純度、ジニの多様性指数[23]、または生物多様性研究におけるジニ・シンプソン指数は、イタリアの数学者コラード・ジニにちなんで名付けられ、分類木のCART（分類回帰木）アルゴリズムで使用される。ジニの不純度は、集合の無作為に選ばれた要素が、集合内のラベルの分布に従って無作為かつ独立にラベル付けされた場合に、どれくらいの頻度で誤ったラベル付けがされるかを測定する。ノード内のすべてのケースが1つのターゲット・カテゴリに入るとき，それは最小（ゼロ）に達する．

ジニ不純物も情報理論的な尺度であり、変形係数を持つツァリス・エントロピーに対応する。q=2{物理学では、非平衡系、非拡大系、散逸系、量子系における情報の欠如と関連している。極限q→2{に対して、通常のボルツマン・ジッブスまたはシャノン・エントロピーを回復する。この意味で、ジニ不純物は、決定木のための通常のエントロピー尺度の変形にすぎない。

ここで、IG(p) はジニ不純度、J はクラスの数、pi はデータセット内のクラス i の割合です。

この指標は、分割後の子ノードがどれだけ「純粋」になるか（つまり、一つのクラスのデータがどれだけ多く含まれるか）を評価するために用いられます。ジニ不純度が低いほど、そのノードのデータは特定のクラスに偏っていることを意味し、分類器の分割基準として優れています。

決定木を構築する際には、ジニ不純度を最小化するような特徴と閾値を見つけることが目標の一つとなります。これにより、最終的に得られる決定木がより高い精度でデータを分類できるようになります。

これは、ジニ不純度を異なる表現で示したものですが、基本的な意味は同じです。

クラス j のデータがノード i に属する割合)f(i,j) の二乗の合計を1から引いたものです。ここで m はクラスの数です。この式は一つのノードにおけるジニ不純度を計算します。

異なるクラス j と k のデータ割合の積の合計を計算するもので、これもまたノード � i のジニ不純度を示します。この式は、ジニ不純度の別の定義であり、積の合計を通してノードにおけるクラスの混合を計算します。

お願い致します