見出し画像

Pareto分布の基本的な性質

Introduction

サービスにおける各ユーザーの課金額の分布は、しばしば「べき乗則」に従うことが知られていて、
・2倍課金しているユーザーの数は1/2ª倍少なくなる。
・3倍課金しているユーザーの数は1/3ª倍少なくなる。
・同様に「b倍課金しているユーザーの数は1/bª倍少なくなる。」
傾向にあると言われています。(aの値はサービスによって変わる固有の値で、統計学では推定したいパラメータの一つなわけです。)

べき乗則はデータ分析ではよく見る確率分布の一つで、先程の課金額の分布に限らず、文章中の各単語の出現頻度の分布などアンケート解析や自然言語処理にも現れます。今回は、連続変数のべき乗則の分布として知られる「Pareto分布」とその基本的な性質を紹介しましょう。

基本的なこと

Pareto分布は、値の取り得る最小値mとべき乗の度合いαで特徴づけられる確率分布です。次のような確率密度関数で定義されます。

画像4

以下はR言語によるPareto分布の確率密度関数の実装とそのグラフの描画です。

# Pareto分布の確率密度関数
dpareto <- function(x, m, alpha){
 dens <- (x >= m) * alpha * m^(alpha) * x^(-(alpha + 1))
 return(dens)
}

# グラフの描画(最小値パラメータmが1の場合のグラフ)
curve(dpareto(x, m = 1, alpha = 1), from = 0, to = 5, 
      xlab = "x", ylab = "確率密度", ylim = c(0, 3.2), col = "red", n = 10001)
curve(dpareto(x, m = 1, alpha = 2), col = "green", add = TRUE, n = 10001)
curve(dpareto(x, m = 1, alpha = 3), col = "blue", add = TRUE, n = 10001)
legend(x = 3, y = 2.5, legend = c("alpha=1", "alpha=2", "alpha=3"), 
       col = c("red", "green", "blue"), lty = c(1, 1, 1))

画像5

べき乗パラメータαが小さいほどfat tailになりやすいことが分かります。より詳細な性質を次の問題で確認してみましょう。

問題

画像1

解答

画像2

画像3

サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m