散布図はばらばら(ソフトウェア分析)

2024年4月22日 21:59

ソフトウェア開発プロジェクトのデータ分析は大事だという話をマンガにしてみました。図はIPA「ソフトウェア開発分析データ集2022」で私が執筆した最初のマンガより

ソフトウェア開発の散布図はばらばら

最初の４コママンガ「散布図はぜんぜんばらばら」にあるように、例えばソフトウェアの規模(SLOC:ソースコード行数)とリリース後のバグ密度を散布図に描いても、夜空に散らばる星のようにぜんぜんばらばらです。天の川も見えません。
つまり規模と信頼性（リリース後のバグ密度）には、ぱっと見の関係は見つからないということになります。残念ながら、今回のものだけでなく、ソフトウェア開発に関する多くの散布図では、ぜんぜんばらばら、てんでばらばらです。

ばらばらな散布図でもわかる

これはソフトウェア開発は千差万別で、変数があまりにも多く、一概に言えることが少なく、定量データ分析は困難であることを示しています。でもこれで諦めてしまうのは数学者で、工学者は諦めてはいけません。つまりです、業種別など色々な条件を付加して、何らかの条件では散布図が星空ではなく、天の川が見えるようになります。いえ、強い決意でそのようにします。
それでもダメなときは変数変換があります。例えば、横軸や縦軸を対数変換して関係を見つけようとします。これで、相関係数がまともになることもあり、新しい関係を発見できます。

一般人の理解は困難

しかしこれで関係を見つけたとしても、一般の方を納得させることとは別問題です。「なぜ対数を取るの？恣意的じゃない！」といちゃもん、いえ、裸の王様の素朴な質問が来ます。一般の方に対してこの質問に簡単に答えるのは難しいです。説明すればするほど、疑いの目が向けられます。

ということで今日の結論。「ソフトウェア開発のような変数が多く、人間が深く関わっている定量データ分析は心して掛かれ」　以上です。

マンガFAQの引用元：ソフトウェア開発分析データ集2022 | 社会・産業のデジタル変革 | IPA 独立行政法人情報処理推進機構

よろしければサポートをお願いします！