StanとRでベイズ統計モデリングをPyMC Ver.5で写経～第10章「10.3.2 階層モデル」

2024年3月31日 11:49

第10章「収束しない場合の対処法」

書籍の著者　松浦健太郎先生

この記事は、テキスト第10章「収束しない場合の対処法」・10.3節「再パラメータ化」の 10.3.2項「階層モデル」の PyMC5写経 を取り扱います。
第８章 8.1節のmodel8-4.stanに相当するモデルの再パラメータ化を行います。

なお、10.4節「その他の場合」の写経は省略いたします。

はじめに

StanとRでベイズ統計モデリングの紹介

この記事は書籍「StanとRでベイズ統計モデリング」（共立出版、「テキスト」と呼びます）のベイズモデルを用いて、PyMC Ver.5で「実験的」に写経する翻訳的ドキュメンタリーです。

テキストは、2016年10月に発売され、ベイズモデリングのモデル式とプログラミングに関する丁寧な解説とモデリングの改善ポイントを網羅するチュートリアル「実践解説書」です。もちろん素晴らしいです！
「アヒル本」の愛称で多くのベイジアンに愛されてきた書籍です！

テキストに従ってStanとRで実践する予定でしたが、RのStan環境を整えることができませんでした（泣）
そこでこのシリーズは、テキストのベイズモデルをPyMC Ver.5に書き換えて実践します。

引用表記

この記事は、出典に記載の書籍に掲載された文章及びコードを引用し、適宜、掲載文章とコードを改変して書いています。
【出典】
「StanとRでベイズ統計モデリング」初版第13刷、著者松浦健太郎、共立出版

記事中のイラストは、「かわいいフリー素材集いらすとや」さんのイラストをお借りしています。
ありがとうございます！

PyMC環境の準備

Anacondaを用いる環境構築とGoogle ColaboratoryでPyMCを動かす方法について、次の記事にまとめています。
「PyMCを動かすまでの準備」章をご覧ください。

10.3.2 階層モデル

インポート

### インポート

# 数値・確率計算
import pandas as pd
import numpy as np
import scipy.stats as stats

# PyMC
import pymc as pm
import arviz as az

# 描画
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.family'] = 'Meiryo'

# ワーニング表示の抑制
import warnings
warnings.simplefilter('ignore')

データの読み込み・確認

第８章のサンプルコードのデータを読み込みます。

### データの読み込み ◆データファイル8.1 data-salary-2.txt
# X:年齢-23, Y:年収, KID:勤務会社ID

data = pd.read_csv('./data/data-salary-2.txt')
print('data.shape: ', data.shape)
display(data.head())

【実行結果】

PyMCのモデル定義

PyMCで model8-4c.stan 相当のモデルを実装します。
以前の記事で取り組んだ model8-4.stan （モデル式 8-4）を再パラメータ化するものです。
なお、model8-4.stan （モデル式 8-4）のPyMCモデルは発散してしまいました。
詳しくはこの記事の「8.1.6 階層モデルの等価な表現モデル式8-4」をご覧ください。

ではではモデルの定義です。
会社別パラメータ$${a,\ b}$$に対して、raw パラメータである aRaw、bRaw を用いて再パラメータ化を行います。

### モデルの定義 ◆モデル式8-4 model8-4c.stan

with pm.Model() as model:
    
    ### データ関連定義
    ## coordの定義
    model.add_coord('data', values=data.index, mutable=True)
    model.add_coord('kaisha', values=sorted(data.KID.unique()), mutable=True)
    ## dataの定義
    # 目的変数 Y
    Y = pm.ConstantData('Y', value=data['Y'].values, dims='data')
    # 説明変数 X
    X = pm.ConstantData('X', value=data['X'].values, dims='data')
    # 説明変数 KIdx 会社インデックス
    KIdx = pm.ConstantData('KIdx', value=k_idx.values, dims='data')

    ### 事前分布
    a0 = pm.Uniform('a0', lower=-10000, upper=10000)
    b0 = pm.Uniform('b0', lower=-10000, upper=10000)
    sigmaA = pm.Uniform('sigmaA', lower=0, upper=1000)
    sigmaB = pm.Uniform('sigmaB', lower=0, upper=1000)
    sigmaY = pm.Uniform('sigmaY', lower=0, upper=10000)
    aRaw = pm.Normal('aRaw', mu=0, sigma=1, dims='kaisha')
    bRaw = pm.Normal('bRaw', mu=0, sigma=1, dims='kaisha')

    ### 線形予測子
    a = pm.Deterministic('a', a0 + sigmaA * aRaw, dims='kaisha')
    b = pm.Deterministic('b', b0 + sigmaB * bRaw, dims='kaisha')
    mu = pm.Deterministic('mu', a[KIdx] + b[KIdx] * X, dims='data')

    ### 尤度関数
    obs = pm.Normal('obs', mu=mu, sigma=sigmaY, observed=Y, dims='data')

モデルの定義内容を見ます。

### モデルの表示
model

【実行結果】

### モデルの可視化
pm.model_to_graphviz(model)

【実行結果】

MCMCの実行と収束確認

MCMCを実行します。

### 事後分布からのサンプリング 2分30秒
with model:
    idata  = pm.sample(draws=1000, tune=1000, chains=4, target_accept=0.998,
                       nuts_sampler='numpyro', random_seed=1234)

【実行結果】省略

Pythonで事後分布からのサンプリングデータの確認を行います。
Rhatの確認から。
テキストの収束条件は「chainを3以上にして$${\hat{R}<1.1}$$のとき」です。

### r_hat>1.1の確認
# 設定
idata_in = idata         # idata名
threshold = 1.02         # しきい値

# しきい値を超えるR_hatの個数を表示
print((az.rhat(idata_in) > threshold).sum())

【実行結果】
収束条件を満たしています。

事後統計量を表示します。

### 推論データの要約統計情報の表示
var_names = ['a0', 'b0', 'sigmaA', 'sigmaB', 'sigmaY', 'aRaw', 'bRaw', 'a',
             'b', 'mu']
pm.summary(idata, hdi_prob=0.95, round_to=3)

【実行結果】

トレースプロットを描画します。

### トレースプロットの表示
pm.plot_trace(idata, compact=True, var_names=var_names)
plt.tight_layout();

【実行結果】
model8-4.stan の PyMC化のときには発散しましたが、この再パラメータ化を用いたモデルでは発散していません！

推定結果の解釈

事後分布の要約統計量を算出します。
算出関数を定義します。

### mean,sd,2.5%,25%,50%,75%,97.5%パーセンタイル点をデータフレーム化する関数の定義
def make_stats_df(y):
    probs = [2.5, 25, 50, 75, 97.5]
    columns = ['mean', 'sd'] + [str(s) + '%' for s in probs]
    quantiles = pd.DataFrame(np.percentile(y, probs, axis=0).T, index=y.columns)
    tmp_df = pd.concat([y.mean(axis=0), y.std(axis=0), quantiles], axis=1)
    tmp_df.columns=columns
    return tmp_df

要約統計量を算出します。

### 要約統計量の算出・表示
vars = ['a0', 'b0', 'sigmaA', 'sigmaB', 'sigmaY']
param_samples = idata.posterior[vars].to_dataframe().reset_index(drop=True)
aRaw_samples_df = pd.DataFrame(
            idata.posterior.aRaw.stack(sample=('chain', 'draw')).data.T,
            columns=[f'a_raw[{i+1}]' for i in range(4)])
bRaw_samples_df = pd.DataFrame(
            idata.posterior.bRaw.stack(sample=('chain', 'draw')).data.T,
            columns=[f'b_raw[{i+1}]' for i in range(4)])
param_samples = pd.concat([param_samples, aRaw_samples_df, bRaw_samples_df],
                          axis=1)
display(make_stats_df(param_samples).round(3))

【実行結果】

会社別にYの予測値の散布図を描画します。

### 会社別散布図の描画

## 全会社の単回帰直線の作成
#傾きと切片を取得
slope, intercept, _, _, _ = stats.linregress(x=data.X, y=data.Y)
# 回帰直線描画用のxとyの算出
x_lm = np.linspace(data.X.min() - 1, data.X.max() + 1, 2)
y_lm = intercept + slope * x_lm

## 推論データからパラメータa, bのMCMCサンプルデータを取り出し
a_samples = idata.posterior.a.stack(sample=('chain', 'draw')).data
b_samples = idata.posterior.b.stack(sample=('chain', 'draw')).data

## 描画用の設定
# 会社ごとのマーカーの形状
markers = {1: 'o', 2: '^', 3: 'X', 4: 'd'}

## 描画処理
# 描画領域の指定
fig, axes = plt.subplots(2, 2, figsize=(6, 6), sharex=True, sharey=True)

# 会社IDごとに繰り返し描画処理（処理的にはaxesごとに繰り返し処理）
for i, ax in enumerate(axes.ravel()):

    ## 描画用データの作成
    # 会社を１つ取り出す
    tmp_df = data[data['KID'] == i + 1]
    # 当該会社の回帰直線描画用のxとyの算出（yは予測値の中央値）
    xvals = np.linspace(tmp_df.X.min(), tmp_df.X.max(), 101)
    mu_med = np.median(np.array([a + b * xvals for (a, b)
                                in zip(a_samples[i], b_samples[i])]), axis=0)
    ## 描画処理
    # 全会社の回帰直線の描画
    ax.plot(x_lm, y_lm, color='black', lw=2, alpha=0.4)
    # 当該会社の散布図の描画
    sns.scatterplot(ax=ax, data=tmp_df, x='X', y='Y', style='KID',
                    s=100, markers=markers, color=plt.cm.tab10(i/10), alpha=0.8,
                    legend=None)
    # 当該会社の予測値の中央値の描画
    ax.plot(xvals, mu_med, color='tab:red', lw=2, ls='--')
    ax.set(xlabel=None, ylabel=None, title=f'会社ID: {i+1}')
    ax.grid(lw=0.3)

# 全体修飾
fig.supxlabel('年齢 $X$ [-23歳]')
fig.supylabel('年収 $Y$ [万円]')
fig.suptitle('年齢 $X$ と年収 $Y$ の散布図: 会社別')

# Modelの凡例の作成・表示
plt.plot([None], [None], color='black', alpha=0.4, lw=2,
         label='全会社の回帰直線')
plt.plot([None], [None], color='tab:red', lw=2, ls='--',
         label='会社ごとのYの予測値(中央値)')
fig.legend(bbox_to_anchor=(1.4, 0.9), title='凡例')

plt.tight_layout();

【実行結果】

10.3.2 項は以上です。

シリーズの記事

次の記事

前の記事

ブログの紹介

note で７つのシリーズ記事を書いています。
ぜひ覗いていってくださいね！

１．のんびり統計

統計検定２級の問題集を手がかりにして、確率・統計をざっくり掘り下げるブログです。
雑談感覚で大丈夫です。ぜひ覗いていってくださいね。
統計検定２級公式問題集CBT対応版に対応しています。
Python、EXCELのサンプルコードの配布もあります。

２．実験！たのしいベイズモデリング１＆２をPyMC Ver.5で

書籍「たのしいベイズモデリング」・「たのしいベイズモデリング２」の心理学研究に用いられたベイズモデルを PyMC Ver.5で描いて分析します。
この書籍をはじめ、多くのベイズモデルはＲ言語＋Stanで書かれています。
PyMCの可能性を探り出し、手軽にベイズモデリングを実践できるように努めます。
身近なテーマ、イメージしやすいテーマですので、ぜひぜひPyMCで動かして、一緒に楽しみましょう！

３．実験！岩波データサイエンス1のベイズモデリングをPyMC Ver.5で

書籍「実験！岩波データサイエンスvol.1」の４人のベイジアンによるベイズモデルを PyMC Ver.5で描いて分析します。
この書籍はベイズプログラミングのイロハをざっくりと学ぶことができる良書です。
楽しくPyMCモデルを動かして、ベイズと仲良しになれた気がします。
みなさんもぜひぜひPyMCで動かして、一緒に遊んで学びましょう！

４．楽しい写経ベイズ・Python等

ベイズ、Python、その他の「書籍の写経活動」の成果をブログにします。
主にPythonへの翻訳に取り組んでいます。
写経に取り組むお仲間さんのサンプルコードになれば幸いです🍀

５．RとStanではじめる心理学のための時系列分析入門を PythonとPyMC Ver.5 で

書籍「RとStanではじめる心理学のための時系列分析入門」の時系列分析をPythonとPyMC Ver.5 で実践します。
この書籍には時系列分析のテーマが盛りだくさん！
時系列分析の懐の深さを実感いたしました。
大好きなPythonで楽しく時系列分析を学びます。

６．データサイエンスっぽいことを綴る

統計、データ分析、AI、機械学習、Pythonのコラムを不定期に綴っています。
統計・データサイエンス書籍にまつわる記事が多いです。
「統計」「Python」「数学とPython」「R」のシリーズが生まれています。

７．Python機械学習プログラミング実践記

書籍「Python機械学習プログラミング PyTorch & scikit-learn編」を学んだときのさまざまな思いを記事にしました。
この書籍は、scikit-learnとPyTorchの教科書です。
よかったらぜひ、お試しくださいませ。

最後までお読みいただきまして、ありがとうございました。

いいなと思ったら応援しよう！

この記事が参加している募集

#新生活をたのしく

46,939件