見出し画像

相関性確認(2要素)/よごしてすとの実演3

3-1 項目2つを相関図で評価してみる
●散布図を作り、感覚で境界線を引いてみる。

このとき境界線は、この線を境に100%安全、もしくは100%危険となるようにしてしまうと、最終的な評価点数はどの商品であっても殆ど区別できない点の集りとなってしまう。
そのため母集団の平均に対し2倍(または1/2)、または+10%(又は-10%)を目安にしてみると、商品毎の最終的な評価点数は、いい感じでバラけてくると思います。

散布図を形成するふたつの項目が互いの影響を受けない場合、“増菌”の有無を示す境界は、水平または垂直になります。互いの影響を受ける場合、正や負の相関を示すようになります。
記事トップにある画像の相関図での、増菌プロット(点)が負の相関です。

それ以外にも直線や曲線だったり、境界が上下や左右に分かれる特徴的な分布だったりと、項目の組み合わせによって趣ある分布を魅せてきます。

頭で「こうなっているはず」と決めつけず、とりあえずグラフで可視化して観ることをお勧めします。そのうえで純粋に点の分布だけで境界線を引いてから、縦軸の項目と横軸の項目に注目してみると、経験と違う線の引き方をしていたりと、意外な発見があったりします。
(大抵は開発者にとって、感覚的に感じているものですが・・)


●境界線を式で表す。
IF関数の中にIF関数を入れて表現することで、商品がもつ2つの項目の値に応じて、増菌側だったり静菌側だったりしたときの値(増菌率)を示せるようになります。

=if( 項目1を示すセル>=20,if(項目2を示すセル<10,30,""),"")
この式で、項目1が20以上で、項目2が10未満なら、30(%)と表示し、それ以外は空欄となります。


これをいろんなふた項目の組み合わせで行い、その結果を並べ、一覧表にしていきます。
IF関数は、コピーすれば中のセル番地(C3など)もコピー先に応じて変わってくれるので便利です。セル番地をコピー先でも変えたくなければ、固定させたいアルファベットか数字の前に「$」を入れればOKです。


境界線で括った範囲の増菌率と、境界線で分かつ前の母集団平均との差を見比べたときに、差にさほどインパクトがない場合は、増菌率算出にこだわらずにスルー(何もしないように)します。目立たないとは、母集団でみた平均をベースにして、±10%未満の範囲としています(7か8%でもいいかもしれないかな)。
このあたりはあくまで考察する人の感性と、検査データの分布次第です。


こうしてこの項目とこの項目の場合は、こういった傾向があるというものを総当たりで確認し、評価するべきポイントをまとめていきます。
調べるべきことが多すぎて気が滅入るようであれば、会社で常識と思われている組み合わせだけでも確認してみればいいと思います。

いい意味か、悪い意味でか、想定を裏切るものがでてくると思います。
その意外な出会いがあると、「もうちょっと知りたい」という欲がでてくるかと。私はそうでした。


場合によってはこのプロットが(幾つか)なければ、綺麗な分布なのにと思うことがあるかもしれません。でもそれこそが、原料やその組み合わせといった特異な特徴を示しているのかもしれません。
(そんな人はいないでしょうが都合のいい理由をつけて、データを取捨選択するのは厳禁です)



手間ですが、そこに以後通用する共通項を発見できたときにはなんともいえないよろこびを感じるものです。

こうして、この項目(とこの項目)の値がこの場合、この増菌率となる、という式を、一行ごとに作ります。
そうした式のある行を、ズラッと下に並べていきます。
その式へのインプットとなる測定結果、あるいは配合率などは、どこか共通の場所に設けます。

このあたりは改めて話したいと思います。


今回はここまで。




この記事が気に入ったらサポートをしてみませんか?