見出し画像

第182回: 「統計の実務」41(最終回) 統計技法の使いどころ

◀前の記事へ   最初の記事へ▶

≡ はじめに

前回は、「抜け漏れ」でした。

内容は、この連載で書きもらしていた「メトリクスと派生メトリクス」、「密度、率、比率の違い」、「変動係数(cv)」、「歪度(skewness)と尖度(kurtosis)」、「AICによる説明変数の取捨選択」についてでした。

そもそも、「平均」、「分散」、「標準偏差」、「大数の法則」、「中心極限定理」の話がないじゃないかとお気づきの方がいらっしゃるかもしれません。これらについては書こうかどうか迷ったあげく、書かなかった項目です。

書かなかった理由は、実務の統計(この連載の趣旨)として、統計の数学的側面については3割の理解で使い始めてほしかったからです。
「平均」とか「分散」を書き始めると、読者に『ああ、統計ってちゃんとわかってから使わないと』という考えを植えつけかねません(数式も使いますし)。
それよりも、単なる道具としてどんどん使って、いろいろと疑問を感じて経験を積むほうが良いと思っています。

そういう意味では、しばらくしてから、これらの話題をじっくりとnoteに書くかもしれません。

今回は、最終回として、「この連載を参照しやすいポータルページ」がテーマです。

色々な整理のしかたができると思うのですが、個々の統計技法を書いてきたので、今度は「仕事のどこで使うのか」について書いてみます。


≡ 統計技法の使いどころ

仕事のどこで使うのか」について書くといっても、様々な仕事がありますから、仕事を抽象化(モデル化)して、そこに当てはめた説明をして、「あー、こういうときに使うのね 🤔」と分かってもらう必要があります。

汎用的な仕事のプロセスモデルと言えば、「PDCA」があります。

「OODA」でも「DMAIC」でも「8D」でも「TBP(トヨタビジネスプラクティス)」でもなんでも好きなモデルでいいです。
(同じですから)

関係ないけど、「PDCAは“Please don't change anymore”の頭字語である」というジョークが好きです。
Plan (計画)、Delay (遅延)、Cancel (中止)、Apologize (謝罪)よりいい感じがします。「プリキュア、ドキドキ、クリニック」でもいいかも。Aが思いつかないけど。

シックスシグマのDMAICの5つのフェーズ

どれでも同じということで、ここでは、PDCAベースの「QCストーリーの10ステップ」で書きます。ステップ数が細かい方が自分の仕事に照らして想像するのが楽だからです。
QCストーリー自体はリンク先を参照してください。(5年も前に書いたブログが役に立ったぞー)

  1. テーマ
    ここでは、「データの蓄積」が鍵です。実績の履歴があることが統計技法を使う前提となるからです。連載ではそういうことは書いていません(たまに、データ数が大事とは書いた気がします)ので、データについての言及がある「イントロダクション(変数の種類)」と「抜け漏れ」をリンクしておきます。

  2. 取り上げた理由・根拠(パレートの原則)
    グラフを描いて描きまくりましょう。ということで、グラフの話題が始まる回である「インデックスプロット」をリンクします。

  3. 現状の把握(事実とその層別)
    現状の把握時にはデータが少ししかありません。「クロス集計とカイ二乗検定」をしてみましょう。(A/Bテストもカイ二乗検定でした)
    また、「確率分布」の知識を使って、問題の大きさを正しく理解します。

  4. 結果および工程の解析(要因の追求)
    相関係数を求めます。そのために「散布図行列と相関行列」がとても役に立ちます。

  5. 対策・実施
    対策の実施時には、進捗確認が大切です。進捗確認には「対策により結果に変化が出ているのか(管理図による効果達成の管理)」と「計画通りに仕事が進んでいるのだろうか(EVMによる進捗管理)」の両方が必要です。

  6. 対策の確認
    「効果の確認」には、「有意差検定」が使えます。特に、「t検定」と「ANOVA(分散分析)」と「仮説検定の考え方(p値)」を使います。

  7. 標準化(歯止め)、再発防止
    次のプロジェクトや周りのチームでも使えるように、結果をまとめるときに使う統計技法は6と同じく「有意差検定」ですが、6との違いは比較対象です。
    6の効果確認では、「対策前と対策後の違いを検定」しますが、7の標準化のときには「世の中のベストプラクティスの適用結果と対策適用結果の違いを検定」します。このときに、手法を適用するための「前提」条件を明らかにします。他のチームで使えるか判断するために必要だからです。
    また、「信頼区間と予測区間」を示して、効果の予測を正しくできるようにします。

  8. 管理の定着
    重要な日常管理指標を決めて、「管理図による効果発揮状況の管理」を行います。

  9. 反省と残された問題点
    8の結果を定期的に監査します。

  10. 今後の計画
    計画時には「ベースライン(過去実績データの履歴)」と「モデル」を使うことが大切です。本連載では「単回帰分析/重回帰分析」を取り上げました。


≡ RとRコマンダーとggplot2

統計技法を実務に適用するときに、「計算が大変(計算間違いも生じる)」という課題があります。ツールの出番となります。

ツールとしての候補は、

  1. Excel

  2. R

  3. 有償ソフト

の3択かなと思います。
3の有償ソフトとしては、日本では、「JMPを使っている」と聞くことが多いです。(個人調べ)

JMPは比較的良心価格ですが、それでも、こちらによると、年額176,880円(税込サブスク)かかります。

私は、特定の少数スタッフが統計技法を極めて使いこなすことよりも、全従業員が統計技法を30%くらいの理解で使う方が大きい効果がでると信じています。

そこで、有償ソフトではなくRについて書きました。それに見栄えの良いグラフを描けますし、Rコマンダーを使えば、GUIでポチポチするだけで使えます。

です。

Excelも便利ですし、この連載で書いたことのほとんどはExcelの関数を使えばできます。(できないのは、予測区間くらい?)
ですから、Excelでもよいのですが、Rの方が慣れると楽です。

逆にRを使っていて嫌なところは、エラーメッセージの不親切さです。エラーメッセージすら出ずにハングアップすることもあります。
あと、RStudioの日本語対応の悪さは致命的です。


≡ ふりかえり

2021年9月20日に第1回目を公開したので、9カ月の連載でした。ということで、ふりかえりをしておこうと思います。

■ ふりかえりのフレームワーク

平仮名の「ふりかえり」といえば、KPTが有名です。天野勝さんのこれを読めばバッチリです。

天野さんとは、出社途中に寄った海老名駅の「HOKUO」というパン屋さんでお会いしてお話しした以降、お会いしていないなー。

そういえば、HOKUOって、全店閉店してしまったんですよね。天野さんとお会いした海老名のHOKUOも、2022年2月28日に閉店してしまいました。
小田急線利用者ならきっと一度は入ったことがあるHOKUO。残念です。
手作りパン、おいしくて好きだったのに。

# 新百合ヶ丘店はDONQとして続いているようだけど、行ってないなー。

会社で、ふりかえりをするときには、KPT一択なのですが、KPTって意志が入ってしまうんですよね。思い入れと言いますか。
また、プロブレムとかブログのふりかえりには重すぎます。もし、プロブレムがあったら、ブログやめると思いますし。

KPTと双璧をなすふりかえりのフレームワークに、YWT(やった、わかった、次にやること)があります。たまにコンサルで使っていました。
YWTは、「わかった」を挙げるのが難しいのと、その難しさの中に、いい感じに賢そうなコメント(“分かるとはどう言うことか”など)を挟み込めるのでコンサルは好きなんじゃないかなあ。

ということで、今回はKPTでもYWTでもなく、FDLです。Fun/Done/Learnというフレームワークで、このへんのサイトの解説が分かりやすいかな。

https://www.ogis-ri.co.jp/otc/hiroba/others/ActivityPocket/FunDoneLearn.htmlより

FDLの良さは、「あったことをそのまま思い出してみる」点です。「楽しかったこと、やったこと、学んだこと」。とにかくポジティブにふりかえることができるところが良いと思っています。Miroを使うのもお勧めです。(いま、オフライン=対面で、オンラインのツールを使うのがマイブームです)

FDLって、やっとむさんが作ったのか。それは知らなかったなー。

https://speakerdeck.com/pinboro/agile-japan-2019-fun-done-learn-timufalsele-sisatoxue-biwocheng-guo-nijie-bitukuxin-siizhen-rifan-riwoti-yan-siyou?slide=64

ただ、FDLだけだと、KPTやYWTにある「T」が明示されないんですよね。次につなげるためにもFDLでふりかえりをしたあとには次にやることを考えると良いと思います。(川口さんもそんなことをツイートしていたような……)

と思って、川口さんのツイートを探したら上にあるように、「意図的な欠落」と書いてありましたので、今回のふりかえりでは次にやることは考えないことにします。(笑)

■ FUN!

この連載で楽しかったのは、ggplot2(tidyverseパッケージ)でのお絵描きです。特に、ポアソン分布のこのグラフは楽しかったなー。

なんか、きれいですし。
EVMのグラフも頑張って作ったので誰かの役に立つといいなあと思います。

■ DONE!

次に、やったこと。

このファイルは各回の「文字数」と「noteにいただいた♡の数」です。
文字数を箱ひげ図にしてみます。

各回の文字数

3,000文字を目標に書いてきたのに。

mean       sd     IQR   0%    25%  50%     75%  100%  n
 4465.225 1840.425 1830.75 1565 3160.5 4260 4991.25 10183 40

全40記事で、平均:4465文字、標準偏差:1840文字ですか。平均+3σ=9,985なので、1万文字を超えている第17回は外れ値と言わざるを得ません。Bostonの住宅価格を例とした「重回帰分析 後編」だったのですが、1つも♡無いですし、長いのはやっぱりダメです。(マルチコの話を書きたかったので、個人的には好きな回なんですけどね。😅)

さて、文字数の合計は??

> sum(Dataset$Pages)
[1178609

おお、全部で、178,609文字かー。原稿用紙446枚。同人誌くらいにはなる?

♡の方は、グラフ化すると、、、

ハートの数のヒストグラム

これは、ふりかえらないほうが良かった?

いえいえ、そんなことはありません。全部で90もいただきました。ありがとうございます。励みにしています!

あと、やったことと言えば、出来るだけデータやスクリプトを付けること。すぐに試せることが大切だと思うから。

■ LEARN!

最後に学んだことですが、統計の本を7冊と、R関係の本を6冊読みました。読んだからどうと言うことはないのですが、出来るだけ間違ったことは書きたくないと、自信がないところは本で確認したのが自分の勉強になりました。特に役立った本は、次の本です。

面白かった本は、次の本です。

統計の本は、『データ分析のための統計学入門』が良いと思います。上のリンクから無料(PDF)で手に入るけど、一番わかりやすいと思うので。易しい本ということなら『完全独習 統計学入門』も良い本と思います。


≡  おわりに

今回は、最終回ということで、本連載で紹介した統計技法が実務のどこにはまるのか、「統計技法の使いどころ」について書きました。
また、FDLによるふりかえりをしました。

私のnoteは、過去の(そのことを知らなかった)自分に向けて書いているので、強がりを言えば、反応がなくても良いのですが、反応があったほうがうれしいのも事実です。ということで遠慮なく(ちょっとでも)気に入ったらLIKEしてくださいね。☺️

次回は、次の連載の開始ではなく、雑文を話を書こうと思っています。

再来週開始予定の次の連載は「数理実験法」か「ベイズ統計」って思ったこともあったけど、たぶんテストのなにかにすると思います。

◀前の記事へ   最初の記事へ▶

この記事が気に入ったらサポートをしてみませんか?