女子プロゴルファー、誰が最強なのか?主成分分析してみた!
9月28日に、毎日新聞出版から「データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい」が刊行されます。
本書の刊行を記念して、本には載せられなかったんだけど、データだけは集めておいたネタをnote上にて公開させていただきます。
今回のネタは「ゴルフ」です。
ゴルフたのしい
ゴルフやってるんですけど、めちゃくちゃ楽しい。とにかく楽しい。
"日焼けしようにも肌が赤くなって終了するデータサイエンティスト"だけど、日帰り遠足気分で、とにかくゴルフが楽しい。
野球とかは「見る専」だったけど、ゴルフはトーナメントを見るだけじゃ無く、プレイしないと気が済まないのです。
今回は趣味がこうじて、女子プロのトーナメント中継を見ていて、「誰が強いの?」と気になったので、分析しようと思います。
賞金ランキングと実力は完全比例なのか?
ゴルフのトーナメント中継を見ていると「昨年賞金女王」「賞金ランキング第何位」という紹介を受けているプロプレイヤーばかりです。
つまり、賞金獲得金額=実力だと認識されているのです。果たして本当でしょうか?
データは以下を参照に、2017年分を調べてみました。2018年はまだシーズン中なので…すいません。
まずは2017年に1試合でも出場した女子プロゴルファー計273名の、獲得賞金金額を棒グラフで並べてみました。縦軸は(万円)です。
やはり圧倒的に突出しているのが左端。鈴木愛です。イミニョン、テレサ・ルー、キムハヌル、申ジエと続きます。少し間が空いて、上田桃子。ここまでが1億円プレイヤーです。
俯瞰して見ると、全体の約半分弱、40%ほどが棒の無い真っ平らな状況だとわかります。すなわち獲得賞金金額0円です。
辛い…。
そもそも、獲得賞金とはどのような場面で、どのように貰えるのかを確認してみましょう。
例えば、「ほけんの窓口レディース2018」では、賞金総額1億2000万円、以下のように賞金が分配されます。
予選通過して、つまり最終日まで残っていれば、最低でも40万円。優勝者には2000万円。その差額、50倍。2位だとしても950万円で優勝者との差額、2倍。
そこで、ふと気になりました。
もし各トーナメントに優勝し無くても、2位であり続ければ、もしかして年間の賞金総額では1位になれるのではないでしょうか? つまり1位だからといって必ずしもすごいとは言えないのではないでしょうか?
「10試合に出て1回優勝して後は予選落ち」より、10試合に出て満遍なく2位。それって後者の方がお金的には良いのではないでしょうか?
そこで各選手の賞金総額に対して、出場試合数を割ってみました。つまり1試合あたりの獲得賞金金額です。
やはりというか、突出した選手が数名出てきました。
上位層だと1試合あたりで見れば、左から5番目の申ジエが突出しています。それよりも突き抜けているのが1試合あたり600万円超の畑岡奈紗です。
たった10試合出場ながら2回優勝、それだけで4000万円獲得です。予選落ちも1回しかなく、かなり強いみたいです。
ただ、それをもって畑岡奈紗>鈴木愛かと言われると、首を傾げざるを得ません。知りたいのは"選手としての能力"なので、そもそも賞金金額では無いような気もするのです。
ちなみに本来であれば、これらの棒グラフはインタラクティブにデータを表示できるTableau Publicで表示されてしかるべきで、いったいいつになったらnoteは正式対応するのか。
「なんや運営は寝てんのか!!」と問い詰めたい気持ちをこらえて、今度は選手の能力の可視化に挑んでみます。
選手の成績を主成分分析にかけてみる
選手の成績を主成分分析にかけてみましょう。例えば鈴木愛選手の場合はこんなに統計が計測されています。
この中から、平均ストローク、パーオン率、平均パット数(パーオンホール)、 パーセーブ率、平均バーディー数、ドライビングディスタンス、フェアウェイキープ率、リカバリー率、サンドセーブ率、パーブレーク率、バウンスバック率、イーグル数、バーディー数、パー3平均スコア、パー4平均スコア、パー5平均スコアの16個の指標を採用して主成分分析にかけてみます。
ただし、統計情報は試合に多く出ていないと良くも悪くもぶれてしまうので(野球で言えば打率8割でも打席数が5であれば、運か実力か見極められない問題)、出場試合数は最低25としました。
本当は畑岡奈紗の実力を評価したかったんですが、能力を評価するための最低限は担保せざるを得ませんでした。
対象となる選手は一気に減って、71名です。
氏名 平均ストローク パーオン率 平均パット数_パーオンホール パーセーブ率 平均バーディー数 ドライビングディスタンス フェアウェイキープ率 リカバリー率 サンドセーブ率 パーブレーク率 バウンスバック率 イーグル数 バーディー数 パー3平均スコア パー4平均スコア パー5平均スコア
鈴木愛 70.7447 70.5083 1.7582 87.4704 3.6277 237.59 68.465 65.5311 39.1304 20.3901 16.7513 4 341 2.9787 3.982 4.75
イ ミニョン 70.7278 73.6111 1.7947 87.5604 3.6848 245.63 65.528 65.4462 34.5455 20.5918 21.4286 2 339 2.962 3.9902 4.7439
キム ハヌル 70.77 71.6117 1.7836 87.4847 3.5055 238.34 66.248 65.3763 38.6364 19.7802 18.75 5 319 2.9945 3.9912 4.7167
テレサ・ルー 70.6061 72.4586 1.777 87.4704 3.7021 254.18 61.4742 63.7339 46.3415 20.9811 15.1961 7 348 3.0133 3.9713 4.7086
上田 桃子 70.8515 71.8713 1.8085 87.2515 3.4421 241.98 60.0752 66.736 60 19.5322 13.7931 7 327 2.9763 3.9884 4.767
李 知姫 71.6588 70.935 1.8423 85.4336 2.8659 240.58 66.8118 62.2378 54.4118 16.4634 14.5 8 235 3.0762 4.028 4.7676
川岸 史果 71.3502 70.7331 1.813 85.2234 3.5361 257.45 55.3427 62.2309 43.8017 19.8167 20.9877 3 343 3.0309 4.0453 4.6925
アン ソンジュ 71.2369 69.5425 1.7928 85.6863 3.3412 239.24 67.7311 62.0172 30 18.8235 24.8804 4 284 2.9706 4.0329 4.7552
全 美貞 71.3197 67.2577 1.7654 85.9929 3.4787 234.94 62.1581 64.8014 48.5437 19.3262 18.3486 0 327 3.0213 4.0297 4.7312
成田 美寿々 71.271 69.213 1.7961 84.6065 3.5938 247.78 64.5833 62.218 39.7959 20.2546 17.8988 5 345 3.0208 4.0187 4.7493
森田 遥 71.7948 64.0321 1.7692 84.1924 3.268 239.22 56.7747 62.2611 42 18.1558 18.8462 0 317 2.9845 4.0441 4.8516
比嘉 真美子 71.6061 69.2661 1.817 85.7798 2.9817 248.82 56.8152 63.0182 38.3178 17.0744 14.5038 10 325 3.039 4.0284 4.7908
笠 りつ子 71.2273 72.9036 1.8285 86.9497 3.2358 246.39 65.4987 64.9903 44.898 18.1866 23.5808 4 343 3.0377 4.0019 4.7636
イ ボミ 71.5203 68.1992 1.8081 86.7178 3 236.63 69.7044 66.0643 40.404 16.6667 14.7208 0 261 3.0057 4.0264 4.8069
ペ ヒギョン 71.4145 71.5142 1.805 86.0566 3.2353 246.56 57.2829 59.847 39 18.1373 12.0833 3 330 2.9951 4.0421 4.7518
姜 秀衍 72.1125 63.7566 1.7825 82.8924 3.1746 228.19 66.78 58.8808 45.7447 17.8131 17.3913 2 200 3.0079 4.0962 4.7742
柏原 明日架 71.826 64.6259 1.7856 84.1837 3.2143 244.66 60.6414 62.8205 42.6357 18.0272 13.5849 3 315 3.1199 4.0295 4.7615
堀 琴音 71.9782 67.037 1.8111 84.6914 3.0222 234.93 63.254 62.7341 41.6667 16.8519 13.5021 1 272 3.0917 4.0454 4.7865
菊地 絵理香 71.7436 67.5817 1.8045 84.2484 3.2588 232.68 68.3193 63.1048 50 18.2353 18.4211 2 277 3.0235 4.0401 4.8129
西山 ゆかり 72.0665 64.3004 1.8094 83.4877 3.1389 235.33 65.3439 63.1124 55.3719 17.4897 17.9661 1 339 3.0394 4.0575 4.8337
藤本 麻子 71.8096 67.9293 1.7949 84.0909 3.2455 242.72 61.1039 57.9528 38.7931 18.2828 16.6102 5 357 3.0182 4.0427 4.8273
永井 花奈 71.9659 68.3532 1.8278 84.8214 3.0089 231.53 68.8138 64.1066 50.495 16.8155 16.9492 2 337 3.058 4.058 4.7875
穴井 詩 72.0388 69.13 1.8245 83.1761 3.283 255.16 51.9542 57.3854 38.1356 18.5535 17.7852 6 348 3.033 4.0643 4.8173
吉田 弓美子 72.5592 65.873 1.8322 83.189 2.7273 234.86 68.6456 59.6195 32.3944 15.2237 16.9643 1 210 3.1071 4.075 4.8426
フェービー・ヤオ 71.8183 68.3712 1.829 85.4167 2.9432 232.96 71.1039 64.4711 50.7042 16.4773 19.3548 2 259 2.9858 4.0633 4.8075
ユン チェヨン 72.1293 70.0654 1.8421 84.8366 2.7412 231.08 68.5714 60.6987 54.8387 15.3595 19.2661 2 233 3.0147 4.0845 4.8047
藤田 さいき 71.8182 68.2198 1.8086 85.4241 3.0215 242.81 59.9846 61.8421 45.3704 16.9654 15.2466 3 281 3.0376 4.043 4.8086
岡山 絵里 71.8697 69.6262 1.8088 84.6833 3.1402 244.66 60.6809 59.8291 40.4255 17.6532 14.2857 4 336 3.0117 4.0589 4.8089
辻 梨恵 72.1114 68.5185 1.8261 83.67 2.9798 243.18 59.8846 58.6453 36.2069 16.7228 14.8014 3 295 3.0556 4.0747 4.7848
東 浩子 72.5877 67.9952 1.8686 83.0314 2.6196 231.34 78.1056 61.1321 32.5581 14.5531 14.9813 0 241 3.0571 4.0966 4.8474
武尾 咲希 71.9178 68.0041 1.8446 84.5679 2.9074 230.28 71.627 66.0772 35.9551 16.4095 16.0142 5 314 3 4.0629 4.8213
福田 真未 72.6874 61.329 1.8 82.1351 2.8039 234.97 58.1933 60.2817 32.4074 15.6318 17.4603 1 286 3.0735 4.0872 4.8796
渡邉 彩香 72.8161 64.8787 1.8225 80.2043 3.1839 251.1 48.7685 54.7273 37.234 17.9438 15.8249 4 277 3.1293 4.1172 4.7816
青木 瀬令奈 72.1977 62.8245 1.8114 83.541 2.9626 225.88 71.9626 64.2458 45.7627 16.5109 16.1074 1 317 3.007 4.0747 4.8548
サイ ペイイン 72.4313 65.0877 1.8425 84.0936 2.6737 237.64 62.2556 62.3116 54.5455 14.9708 16.5385 2 254 3.0789 4.0683 4.8571
新海 美優 72.2873 64.8515 1.8379 83.9384 2.8218 228.32 68.5997 64.6322 54.2553 15.7316 17.8571 1 285 3.0347 4.092 4.8065
大城 さつき 72.2663 64.1901 1.781 82.1285 3.2771 242.92 55.938 57.757 34.0206 18.2062 20.7843 0 272 3.0181 4.0877 4.8273
葭葉 ルミ 72.7934 65.7952 1.8232 81.5359 3.1765 260.76 52.0308 56.051 37.9562 18.0283 17.1875 7 324 3.1176 4.0999 4.8305
ささき しょうこ 72.1113 66.9473 1.8321 84.7363 2.7576 236.4 67.6046 63.6672 34.7368 15.5443 13.8996 4 273 3.0808 4.0616 4.7929
木戸 愛 72.3703 70.4962 1.8222 83.2255 2.9903 240.34 63.3148 54.1133 35.1648 16.8285 15.8249 4 308 3.0437 4.0777 4.8547
三ヶ島 かな 72.8074 66.9654 1.8519 82.6165 2.6559 230.06 72.1966 59.132 48 14.7551 14.4928 0 247 3 4.113 4.9196
黄 アルム 72.5202 67.8932 1.8381 83.189 2.7792 231.65 69.0167 58.6517 33.7662 15.5844 17.2093 2 214 3.0747 4.1102 4.7785
大江 香織 72.7309 64.5255 1.8393 82.2338 2.7396 224.58 70.2381 60.522 44.3396 15.2778 14.841 1 263 3.0547 4.0937 4.893
佐伯 三貴 73.1085 61.2593 1.8281 80.5926 2.68 231.25 58.1905 58.1262 41.5842 14.963 12.1457 1 201 3.0667 4.1396 4.8591
下川 めぐみ 72.7194 65.3558 1.8365 82.6467 2.5955 226.64 68.6196 59.2793 33.3333 14.4819 11.9691 1 231 3.0112 4.1178 4.8732
鬼頭 桜 72.5332 66.1616 1.8445 81.3853 2.9091 238.48 60.3896 57.9957 52.1739 16.5224 17.284 5 224 3.0552 4.1163 4.7829
若林 舞衣子 73.1224 58.7654 1.8537 81.6049 2.4667 227.45 71.1905 64.0719 46.6667 13.8272 14.4876 2 222 3.0472 4.1211 4.9306
服部 真夕 72.6713 70.5556 1.8511 82.5556 2.89 239.95 61 54.9057 25.9259 16.1111 16.7808 1 289 3.105 4.0799 4.8622
永峰 咲希 72.7034 67.6568 1.8446 81.9032 2.8416 238.73 57.9915 56.8027 39.6694 15.8416 17.8344 1 287 3.0099 4.1156 4.8756
濱田 茉優 72.9122 68.1481 1.8849 82.6543 2.5444 236.45 66.6667 61.6279 23.4375 14.321 12.2222 3 229 3.1028 4.1033 4.8667
有村 智恵 72.4738 63.2479 1.8124 82.2344 2.9011 232.97 64.7567 60.9635 44.5455 16.2393 19.4245 2 264 3.0165 4.1039 4.8389
飯島 茜 72.6172 64.539 1.8396 82.0922 2.8298 232.77 60.4863 59.8333 41.8182 15.8392 15.331 2 266 3.0053 4.1084 4.8773
酒井 美紀 73.1794 63.2164 1.8796 81.6959 2.2947 217.03 79.7744 61.8442 42.7273 12.807 8.7838 1 218 3.0421 4.1421 4.8974
ベイブ・リュウ 73.2216 64.4078 1.8427 81.2576 2.7692 244.27 54.0816 57.2899 35.2381 15.3846 14.6853 0 252 3.1374 4.1065 4.9008
福田 裕子 72.8997 62.963 1.8598 81.8743 2.5253 231.83 66.811 62.2727 40 14.1414 10.5263 2 250 3.0884 4.0989 4.8886
岩橋 里衣 73.3232 63.4431 1.8454 79.561 2.6667 230.65 67.6367 54.5966 26.4706 14.8148 15.6584 0 216 3.0617 4.1422 4.9138
イ ナリ 72.6979 61.6729 1.8369 83.2085 2.5169 223.64 68.6196 63.1922 41.8367 14.0449 12.3506 1 224 3.0197 4.111 4.8757
金田 久美子 73.284 63.3333 1.844 80.5229 2.5647 226.68 61.0084 56.1497 37.3626 14.3137 14.3369 1 218 3.0853 4.1338 4.8994
ジョン ジェウン 72.6442 61.5741 1.8095 82.4735 2.7976 233.21 62.1599 61.2737 41.4634 15.6746 17.1429 2 235 3.0595 4.0868 4.8836
松森 彩夏 73.2854 67.4874 1.8755 80.2399 2.5682 239.07 58.0357 54.1748 28 14.4571 12.9252 3 226 3.0966 4.1317 4.8946
香妻 琴乃 73.2507 61.9949 1.849 80.4924 2.6932 243.21 57.224 59.6346 45.9016 15.2778 16.0279 5 237 3.1477 4.1286 4.8442
原 江里菜 72.87 63.8889 1.8475 82.5483 2.5217 236.54 59.9379 61.7057 50 14.1304 12.2677 2 232 3.0951 4.1196 4.8234
前田 陽子 73.0346 66.6667 1.8787 82.0076 2.4318 225.61 72.2403 59.4697 39.3939 13.5732 14.0684 1 214 3.0824 4.1068 4.9091
山城 奈々 73.3792 63.5886 1.8359 78.6787 2.9324 252.45 54.9228 52.3711 38.2979 16.5916 15.9851 4 217 3.1284 4.1432 4.8581
小橋 絵利子 73.0929 64.3411 1.8594 81.5245 2.4884 233.87 67.691 59.6014 35.3535 13.8243 14.9425 0 214 3.1134 4.1093 4.8866
一ノ瀬 優希 73.1414 65.1709 1.8807 82.1225 2.3077 225.03 71.4286 60.9407 47.7612 12.8917 13.1356 1 180 3.0545 4.1087 4.9581
竹内 美雪 74.1287 58.2687 1.867 78.7468 2.1744 227.47 68.8538 56.9659 32.6316 12.0801 11.465 0 187 3.1541 4.1684 4.9563
蛭田 みな美 73.4655 61.5079 1.857 79.6958 2.619 233.05 61.1395 58.9347 48.1013 14.5503 13.2867 0 220 3.1518 4.1235 4.9042
大西 葵 73.4065 60.1748 1.8512 80.2122 2.4157 233.07 61.3162 59.8746 47.3214 13.608 14.9153 3 215 3.0955 4.1504 4.8789
藤崎 莉歩 74.7741 54.9296 1.8802 76.2911 1.9577 220.31 64.5875 55.0347 41.7722 10.9546 8.4806 1 139 3.1514 4.2085 5.0211
松森 杏佳 73.5851 65.6504 1.8843 78.7263 2.5732 233.5 65.4181 53.2544 31.5789 14.3631 17.2881 1 211 3.0152 4.1561 4.9909
主成分分析の結果はこちらです。
golf <- read.csv("stat.csv",header=T,fileEncoding="utf-8")
rownames(golf) <- golf[,1]
pca = prcomp(golf[,2:17], scale=T)
summary(pca)
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
Standard deviation 3.0047 1.5795 1.07761 1.00753 0.79164 0.69093 0.60037 0.56151 0.44968
Proportion of Variance 0.5643 0.1559 0.07258 0.06344 0.03917 0.02984 0.02253 0.01971 0.01264
Cumulative Proportion 0.5643 0.7202 0.79277 0.85622 0.89539 0.92522 0.94775 0.96746 0.98009
PC10 PC11 PC12 PC13 PC14 PC15 PC16
Standard deviation 0.37385 0.3200 0.24791 0.10308 0.06498 0.003758 0.003401
Proportion of Variance 0.00874 0.0064 0.00384 0.00066 0.00026 0.000000 0.000000
Cumulative Proportion 0.98883 0.9952 0.99907 0.99973 1.00000 1.000000 1.000000
PC1とPC2だけで0.7202と7割を超えております。まぁまぁ縮約できているんじゃないでしょうか。そこで結果を散布図に落としてみました。
画像汚くてごめんなさい。スマホデバイスで見ている人はPCで見て下さいませ…。
さて、これはなかなか面白い結果になりました。
まずPC1(横)ですが、右側にパーN平均スコアと平均ストローク、平均パット数があり、左側にパーオン率やパーセーブ率、バーディ率などが並びます。
よく「ゴルフのスコアの半分はパット」と言いますが、平均ストロークと平均パットがPC1観点でみればほぼ同じというのが面白いですね。PC1は「1ラウンドを何打で回れるか能力」と要約しちゃいましょう。
次にPC2(縦)ですが、下はフェアウェイキープ率、サンドセーブ率、リカバリー率とボールのコントロールに関する内容が多いようです。上はドライビングディスタンス、イーグル数など距離に関する内容が多いようです。
パワプロで言えば球速160かコントロールSかみたいなもんでしょうか。PC2は「距離派かコントロール派かの属性区分」と要約しましょう。
鈴木愛ら上位陣が左下に固まっているのがわかります。全体的に見て、距離派よりコントロール派が上位に多いようです。
ドライバーでどんだけ距離出てもラフやったら2打目が辛いだけや!という何処かのおじさんの声が証明されたような気がします。それ俺や。
主成分分析の結果をクラスタリングする
主成分分析を行い、16個ある指標を多少情報量が欠落しながらも2個の指標に収斂できたと考えれば、後はその結果を分類するだけです。
ここでクラスタリングを用います。何個に分類できるかわからないので、まずは確認。
result <- clusGap(pca$x[,1:2],kmeans,K.max=10,B=100,verbose = interactive())
plot(result)
Clustering k = 1,2,..., K.max (= 10): .. done
Bootstrapping, b = 1,2,..., B (= 100) [one "." per sample]:
.................................................. 50
.................................................. 100
plot(result)
実はクラスタ1個が1番良い…?
それだと何も面白く無いのでGapが相対的に見て高い7をクラスター数とします。
その結果がこちら。
library(cluster)
clusplot(x, km$cluster, color=TRUE, shade=TRUE, labels=2, lines=0,cex = 0.6)
横軸が「1ラウンドを何打で回れるか能力(右に行くほど良い)」、縦軸が「距離派(上)かコントロール派(下)かの属性区分」になります。
一番右端の4が「上位グループ」であり「最強と呼べる人たち」と考えて良さそうです。
なんと、と言うべきか、やはり、と言うべきか、賞金ランキング上位が入ってきました。
ただし、賞金ランキングに照らして言えば、8位の李知姫が含まれていません。代わりに15位の笠りつ子が入ってきました。2018年は伸び悩んでいるだけに、ちょっと意外な結果。
上位グループの中に、コントロール派が7名、距離派が3名含まれています。
この結果をもってコントロール派>距離派とは言い切れません。それは選手の属性みたいなもので、一番良いのは両方の能力を持つ万能派だからです。女子プロゴルフにおいては上位はコントロール派が多いという結果に過ぎません。
ただ僕のようなあまちゃんゴルファーは「距離よりもコントロールだぞ、ドライバーで遠くに飛ばすよりパット数減らす方法考えろよ」という戒めにはなります。
まとめ
賞金ランキングの上位層と、クラスタリングして生まれた上位グループの顔ぶれはほとんど変わりませんでした。細かい順位は置いておいて、賞金ランキング上位=実力も上位だと考えておけばいいのでしょう。
獲得賞金の金額は多い→能力が高い、という因果関係の説明には違和感を抱いていましたが、能力が高い→結果的に獲得賞金の金額は多い、という結果になるのは当然ちゃ当然ですね。
能力が高くても賞金が貰えていない、ということはまず無いと考えて良いようです。
ただ、繰り返しになりますが、アマチュアゴルファーは①パター大事。②コントロール大事、だから大振りせずに行きましょう。この2つは覚えておきましょう。
データ分析って楽しい!
とまぁ、こんなことをつらつら書き連ねておりますが、基本的には「データを使って社会現象を読み解くって意外と楽しい!」ぐらいの感覚を抱いていただければ幸いです。
ちなみに上記本では、オープンデータを使って様々な社会事象を読み解き、いかにバイアスを持って判断しているかを明らかにしております。
書籍のお題を挙げると…
・「世界から愛される国、日本」に外国人はどれくらい訪れているのか
・なぜネットと新聞・テレビで支持率がこんなに違うのか
・結局、アベノミクスで景気は良くなったのか
・東日本大震災、どういう状況になれば復興したと言えるのか
・経済大国・日本はなぜ貧困大国とも言われるのか
・人手不足なのにどうして給料は増えないのか
・海外旅行、新聞、酒、タバコ…若者の◎◎離れは正しいのか
・地球温暖化を防ぐために、私たちが今できることは何か
・糖質制限ダイエットの結果とデータにコミットする
・生活水準が下がり始めたのか、エンゲル係数急上昇の謎
経済問題からダイエットまで、幅広くデータで読み解いております。書籍で見かけたらぜひ立ち読みして頂き、面白かったらぜひお買い求めください!
以上、お手数ですがよろしくお願いいたします。
1本書くのに、だいたい3〜5営業日くらいかかっています。良かったら缶コーヒー1本のサポートをお願いします。