女子プロゴルファー、誰が最強なのか?主成分分析してみた!

9月28日に、毎日新聞出版から「データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい」が刊行されます。

本書の刊行を記念して、本には載せられなかったんだけど、データだけは集めておいたネタをnote上にて公開させていただきます。

今回のネタは「ゴルフ」です。

ゴルフたのしい

ゴルフやってるんですけど、めちゃくちゃ楽しい。とにかく楽しい。

"日焼けしようにも肌が赤くなって終了するデータサイエンティスト"だけど、日帰り遠足気分で、とにかくゴルフが楽しい。

野球とかは「見る専」だったけど、ゴルフはトーナメントを見るだけじゃ無く、プレイしないと気が済まないのです。

今回は趣味がこうじて、女子プロのトーナメント中継を見ていて、「誰が強いの?」と気になったので、分析しようと思います。


賞金ランキングと実力は完全比例なのか?

ゴルフのトーナメント中継を見ていると「昨年賞金女王」「賞金ランキング第何位」という紹介を受けているプロプレイヤーばかりです。

つまり、賞金獲得金額=実力だと認識されているのです。果たして本当でしょうか?

データは以下を参照に、2017年分を調べてみました。2018年はまだシーズン中なので…すいません。

まずは2017年に1試合でも出場した女子プロゴルファー計273名の、獲得賞金金額を棒グラフで並べてみました。縦軸は(万円)です。

やはり圧倒的に突出しているのが左端。鈴木愛です。イミニョン、テレサ・ルー、キムハヌル、申ジエと続きます。少し間が空いて、上田桃子。ここまでが1億円プレイヤーです。

俯瞰して見ると、全体の約半分弱、40%ほどが棒の無い真っ平らな状況だとわかります。すなわち獲得賞金金額0円です。

辛い…。


そもそも、獲得賞金とはどのような場面で、どのように貰えるのかを確認してみましょう。

例えば、「ほけんの窓口レディース2018」では、賞金総額1億2000万円、以下のように賞金が分配されます。

予選通過して、つまり最終日まで残っていれば、最低でも40万円。優勝者には2000万円。その差額、50倍。2位だとしても950万円で優勝者との差額、2倍。

そこで、ふと気になりました。

もし各トーナメントに優勝し無くても、2位であり続ければ、もしかして年間の賞金総額では1位になれるのではないでしょうか? つまり1位だからといって必ずしもすごいとは言えないのではないでしょうか?

「10試合に出て1回優勝して後は予選落ち」より、10試合に出て満遍なく2位。それって後者の方がお金的には良いのではないでしょうか?

そこで各選手の賞金総額に対して、出場試合数を割ってみました。つまり1試合あたりの獲得賞金金額です。

やはりというか、突出した選手が数名出てきました。

上位層だと1試合あたりで見れば、左から5番目の申ジエが突出しています。それよりも突き抜けているのが1試合あたり600万円超の畑岡奈紗です。

たった10試合出場ながら2回優勝、それだけで4000万円獲得です。予選落ちも1回しかなく、かなり強いみたいです。

ただ、それをもって畑岡奈紗>鈴木愛かと言われると、首を傾げざるを得ません。知りたいのは"選手としての能力"なので、そもそも賞金金額では無いような気もするのです。

ちなみに本来であれば、これらの棒グラフはインタラクティブにデータを表示できるTableau Publicで表示されてしかるべきで、いったいいつになったらnoteは正式対応するのか。

「なんや運営は寝てんのか!!」と問い詰めたい気持ちをこらえて、今度は選手の能力の可視化に挑んでみます。


選手の成績を主成分分析にかけてみる

選手の成績を主成分分析にかけてみましょう。例えば鈴木愛選手の場合はこんなに統計が計測されています。

この中から、平均ストローク、パーオン率、平均パット数(パーオンホール)、 パーセーブ率、平均バーディー数、ドライビングディスタンス、フェアウェイキープ率、リカバリー率、サンドセーブ率、パーブレーク率、バウンスバック率、イーグル数、バーディー数、パー3平均スコア、パー4平均スコア、パー5平均スコアの16個の指標を採用して主成分分析にかけてみます。

ただし、統計情報は試合に多く出ていないと良くも悪くもぶれてしまうので(野球で言えば打率8割でも打席数が5であれば、運か実力か見極められない問題)、出場試合数は最低25としました。

本当は畑岡奈紗の実力を評価したかったんですが、能力を評価するための最低限は担保せざるを得ませんでした。

対象となる選手は一気に減って、71名です。

氏名	平均ストローク	パーオン率 	平均パット数_パーオンホール	パーセーブ率 	平均バーディー数 	ドライビングディスタンス 	フェアウェイキープ率	リカバリー率	サンドセーブ率	パーブレーク率	バウンスバック率	イーグル数	バーディー数	パー3平均スコア	パー4平均スコア	パー5平均スコア

鈴木愛	70.7447	70.5083	1.7582	87.4704	3.6277	237.59	68.465	65.5311	39.1304	20.3901	16.7513	4	341	2.9787	3.982	4.75

イ ミニョン	70.7278	73.6111	1.7947	87.5604	3.6848	245.63	65.528	65.4462	34.5455	20.5918	21.4286	2	339	2.962	3.9902	4.7439

キム ハヌル	70.77	71.6117	1.7836	87.4847	3.5055	238.34	66.248	65.3763	38.6364	19.7802	18.75	5	319	2.9945	3.9912	4.7167

テレサ・ルー	70.6061	72.4586	1.777	87.4704	3.7021	254.18	61.4742	63.7339	46.3415	20.9811	15.1961	7	348	3.0133	3.9713	4.7086

上田 桃子	70.8515	71.8713	1.8085	87.2515	3.4421	241.98	60.0752	66.736	60	19.5322	13.7931	7	327	2.9763	3.9884	4.767

李 知姫	71.6588	70.935	1.8423	85.4336	2.8659	240.58	66.8118	62.2378	54.4118	16.4634	14.5	8	235	3.0762	4.028	4.7676

川岸 史果	71.3502	70.7331	1.813	85.2234	3.5361	257.45	55.3427	62.2309	43.8017	19.8167	20.9877	3	343	3.0309	4.0453	4.6925

アン ソンジュ	71.2369	69.5425	1.7928	85.6863	3.3412	239.24	67.7311	62.0172	30	18.8235	24.8804	4	284	2.9706	4.0329	4.7552

全 美貞	71.3197	67.2577	1.7654	85.9929	3.4787	234.94	62.1581	64.8014	48.5437	19.3262	18.3486	0	327	3.0213	4.0297	4.7312

成田 美寿々	71.271	69.213	1.7961	84.6065	3.5938	247.78	64.5833	62.218	39.7959	20.2546	17.8988	5	345	3.0208	4.0187	4.7493

森田 遥	71.7948	64.0321	1.7692	84.1924	3.268	239.22	56.7747	62.2611	42	18.1558	18.8462	0	317	2.9845	4.0441	4.8516

比嘉 真美子	71.6061	69.2661	1.817	85.7798	2.9817	248.82	56.8152	63.0182	38.3178	17.0744	14.5038	10	325	3.039	4.0284	4.7908

笠 りつ子	71.2273	72.9036	1.8285	86.9497	3.2358	246.39	65.4987	64.9903	44.898	18.1866	23.5808	4	343	3.0377	4.0019	4.7636

イ ボミ	71.5203	68.1992	1.8081	86.7178	3	236.63	69.7044	66.0643	40.404	16.6667	14.7208	0	261	3.0057	4.0264	4.8069

ペ ヒギョン	71.4145	71.5142	1.805	86.0566	3.2353	246.56	57.2829	59.847	39	18.1373	12.0833	3	330	2.9951	4.0421	4.7518

姜 秀衍	72.1125	63.7566	1.7825	82.8924	3.1746	228.19	66.78	58.8808	45.7447	17.8131	17.3913	2	200	3.0079	4.0962	4.7742

柏原 明日架	71.826	64.6259	1.7856	84.1837	3.2143	244.66	60.6414	62.8205	42.6357	18.0272	13.5849	3	315	3.1199	4.0295	4.7615

堀 琴音	71.9782	67.037	1.8111	84.6914	3.0222	234.93	63.254	62.7341	41.6667	16.8519	13.5021	1	272	3.0917	4.0454	4.7865

菊地 絵理香	71.7436	67.5817	1.8045	84.2484	3.2588	232.68	68.3193	63.1048	50	18.2353	18.4211	2	277	3.0235	4.0401	4.8129

西山 ゆかり	72.0665	64.3004	1.8094	83.4877	3.1389	235.33	65.3439	63.1124	55.3719	17.4897	17.9661	1	339	3.0394	4.0575	4.8337

藤本 麻子	71.8096	67.9293	1.7949	84.0909	3.2455	242.72	61.1039	57.9528	38.7931	18.2828	16.6102	5	357	3.0182	4.0427	4.8273

永井 花奈	71.9659	68.3532	1.8278	84.8214	3.0089	231.53	68.8138	64.1066	50.495	16.8155	16.9492	2	337	3.058	4.058	4.7875

穴井 詩	72.0388	69.13	1.8245	83.1761	3.283	255.16	51.9542	57.3854	38.1356	18.5535	17.7852	6	348	3.033	4.0643	4.8173

吉田 弓美子	72.5592	65.873	1.8322	83.189	2.7273	234.86	68.6456	59.6195	32.3944	15.2237	16.9643	1	210	3.1071	4.075	4.8426

フェービー・ヤオ	71.8183	68.3712	1.829	85.4167	2.9432	232.96	71.1039	64.4711	50.7042	16.4773	19.3548	2	259	2.9858	4.0633	4.8075

ユン チェヨン	72.1293	70.0654	1.8421	84.8366	2.7412	231.08	68.5714	60.6987	54.8387	15.3595	19.2661	2	233	3.0147	4.0845	4.8047

藤田 さいき	71.8182	68.2198	1.8086	85.4241	3.0215	242.81	59.9846	61.8421	45.3704	16.9654	15.2466	3	281	3.0376	4.043	4.8086

岡山 絵里	71.8697	69.6262	1.8088	84.6833	3.1402	244.66	60.6809	59.8291	40.4255	17.6532	14.2857	4	336	3.0117	4.0589	4.8089

辻 梨恵	72.1114	68.5185	1.8261	83.67	2.9798	243.18	59.8846	58.6453	36.2069	16.7228	14.8014	3	295	3.0556	4.0747	4.7848

東 浩子	72.5877	67.9952	1.8686	83.0314	2.6196	231.34	78.1056	61.1321	32.5581	14.5531	14.9813	0	241	3.0571	4.0966	4.8474

武尾 咲希	71.9178	68.0041	1.8446	84.5679	2.9074	230.28	71.627	66.0772	35.9551	16.4095	16.0142	5	314	3	4.0629	4.8213

福田 真未	72.6874	61.329	1.8	82.1351	2.8039	234.97	58.1933	60.2817	32.4074	15.6318	17.4603	1	286	3.0735	4.0872	4.8796

渡邉 彩香	72.8161	64.8787	1.8225	80.2043	3.1839	251.1	48.7685	54.7273	37.234	17.9438	15.8249	4	277	3.1293	4.1172	4.7816

青木 瀬令奈	72.1977	62.8245	1.8114	83.541	2.9626	225.88	71.9626	64.2458	45.7627	16.5109	16.1074	1	317	3.007	4.0747	4.8548

サイ ペイイン	72.4313	65.0877	1.8425	84.0936	2.6737	237.64	62.2556	62.3116	54.5455	14.9708	16.5385	2	254	3.0789	4.0683	4.8571

新海 美優	72.2873	64.8515	1.8379	83.9384	2.8218	228.32	68.5997	64.6322	54.2553	15.7316	17.8571	1	285	3.0347	4.092	4.8065

大城 さつき	72.2663	64.1901	1.781	82.1285	3.2771	242.92	55.938	57.757	34.0206	18.2062	20.7843	0	272	3.0181	4.0877	4.8273

葭葉 ルミ	72.7934	65.7952	1.8232	81.5359	3.1765	260.76	52.0308	56.051	37.9562	18.0283	17.1875	7	324	3.1176	4.0999	4.8305

ささき しょうこ	72.1113	66.9473	1.8321	84.7363	2.7576	236.4	67.6046	63.6672	34.7368	15.5443	13.8996	4	273	3.0808	4.0616	4.7929

木戸 愛	72.3703	70.4962	1.8222	83.2255	2.9903	240.34	63.3148	54.1133	35.1648	16.8285	15.8249	4	308	3.0437	4.0777	4.8547

三ヶ島 かな	72.8074	66.9654	1.8519	82.6165	2.6559	230.06	72.1966	59.132	48	14.7551	14.4928	0	247	3	4.113	4.9196

黄 アルム	72.5202	67.8932	1.8381	83.189	2.7792	231.65	69.0167	58.6517	33.7662	15.5844	17.2093	2	214	3.0747	4.1102	4.7785

大江 香織	72.7309	64.5255	1.8393	82.2338	2.7396	224.58	70.2381	60.522	44.3396	15.2778	14.841	1	263	3.0547	4.0937	4.893

佐伯 三貴	73.1085	61.2593	1.8281	80.5926	2.68	231.25	58.1905	58.1262	41.5842	14.963	12.1457	1	201	3.0667	4.1396	4.8591

下川 めぐみ	72.7194	65.3558	1.8365	82.6467	2.5955	226.64	68.6196	59.2793	33.3333	14.4819	11.9691	1	231	3.0112	4.1178	4.8732

鬼頭 桜	72.5332	66.1616	1.8445	81.3853	2.9091	238.48	60.3896	57.9957	52.1739	16.5224	17.284	5	224	3.0552	4.1163	4.7829

若林 舞衣子	73.1224	58.7654	1.8537	81.6049	2.4667	227.45	71.1905	64.0719	46.6667	13.8272	14.4876	2	222	3.0472	4.1211	4.9306

服部 真夕	72.6713	70.5556	1.8511	82.5556	2.89	239.95	61	54.9057	25.9259	16.1111	16.7808	1	289	3.105	4.0799	4.8622

永峰 咲希	72.7034	67.6568	1.8446	81.9032	2.8416	238.73	57.9915	56.8027	39.6694	15.8416	17.8344	1	287	3.0099	4.1156	4.8756

濱田 茉優	72.9122	68.1481	1.8849	82.6543	2.5444	236.45	66.6667	61.6279	23.4375	14.321	12.2222	3	229	3.1028	4.1033	4.8667

有村 智恵	72.4738	63.2479	1.8124	82.2344	2.9011	232.97	64.7567	60.9635	44.5455	16.2393	19.4245	2	264	3.0165	4.1039	4.8389

飯島 茜	72.6172	64.539	1.8396	82.0922	2.8298	232.77	60.4863	59.8333	41.8182	15.8392	15.331	2	266	3.0053	4.1084	4.8773

酒井 美紀	73.1794	63.2164	1.8796	81.6959	2.2947	217.03	79.7744	61.8442	42.7273	12.807	8.7838	1	218	3.0421	4.1421	4.8974

ベイブ・リュウ	73.2216	64.4078	1.8427	81.2576	2.7692	244.27	54.0816	57.2899	35.2381	15.3846	14.6853	0	252	3.1374	4.1065	4.9008

福田 裕子	72.8997	62.963	1.8598	81.8743	2.5253	231.83	66.811	62.2727	40	14.1414	10.5263	2	250	3.0884	4.0989	4.8886

岩橋 里衣	73.3232	63.4431	1.8454	79.561	2.6667	230.65	67.6367	54.5966	26.4706	14.8148	15.6584	0	216	3.0617	4.1422	4.9138

イ ナリ	72.6979	61.6729	1.8369	83.2085	2.5169	223.64	68.6196	63.1922	41.8367	14.0449	12.3506	1	224	3.0197	4.111	4.8757

金田 久美子	73.284	63.3333	1.844	80.5229	2.5647	226.68	61.0084	56.1497	37.3626	14.3137	14.3369	1	218	3.0853	4.1338	4.8994

ジョン ジェウン	72.6442	61.5741	1.8095	82.4735	2.7976	233.21	62.1599	61.2737	41.4634	15.6746	17.1429	2	235	3.0595	4.0868	4.8836

松森 彩夏	73.2854	67.4874	1.8755	80.2399	2.5682	239.07	58.0357	54.1748	28	14.4571	12.9252	3	226	3.0966	4.1317	4.8946

香妻 琴乃	73.2507	61.9949	1.849	80.4924	2.6932	243.21	57.224	59.6346	45.9016	15.2778	16.0279	5	237	3.1477	4.1286	4.8442

原 江里菜	72.87	63.8889	1.8475	82.5483	2.5217	236.54	59.9379	61.7057	50	14.1304	12.2677	2	232	3.0951	4.1196	4.8234

前田 陽子	73.0346	66.6667	1.8787	82.0076	2.4318	225.61	72.2403	59.4697	39.3939	13.5732	14.0684	1	214	3.0824	4.1068	4.9091

山城 奈々	73.3792	63.5886	1.8359	78.6787	2.9324	252.45	54.9228	52.3711	38.2979	16.5916	15.9851	4	217	3.1284	4.1432	4.8581

小橋 絵利子	73.0929	64.3411	1.8594	81.5245	2.4884	233.87	67.691	59.6014	35.3535	13.8243	14.9425	0	214	3.1134	4.1093	4.8866

一ノ瀬 優希	73.1414	65.1709	1.8807	82.1225	2.3077	225.03	71.4286	60.9407	47.7612	12.8917	13.1356	1	180	3.0545	4.1087	4.9581

竹内 美雪	74.1287	58.2687	1.867	78.7468	2.1744	227.47	68.8538	56.9659	32.6316	12.0801	11.465	0	187	3.1541	4.1684	4.9563

蛭田 みな美	73.4655	61.5079	1.857	79.6958	2.619	233.05	61.1395	58.9347	48.1013	14.5503	13.2867	0	220	3.1518	4.1235	4.9042

大西 葵	73.4065	60.1748	1.8512	80.2122	2.4157	233.07	61.3162	59.8746	47.3214	13.608	14.9153	3	215	3.0955	4.1504	4.8789

藤崎 莉歩	74.7741	54.9296	1.8802	76.2911	1.9577	220.31	64.5875	55.0347	41.7722	10.9546	8.4806	1	139	3.1514	4.2085	5.0211

松森 杏佳	73.5851	65.6504	1.8843	78.7263	2.5732	233.5	65.4181	53.2544	31.5789	14.3631	17.2881	1	211	3.0152	4.1561	4.9909

主成分分析の結果はこちらです。

golf <- read.csv("stat.csv",header=T,fileEncoding="utf-8")
rownames(golf) <- golf[,1]
pca = prcomp(golf[,2:17], scale=T)
summary(pca)
Importance of components:
                          PC1    PC2     PC3     PC4     PC5     PC6     PC7     PC8     PC9
Standard deviation     3.0047 1.5795 1.07761 1.00753 0.79164 0.69093 0.60037 0.56151 0.44968
Proportion of Variance 0.5643 0.1559 0.07258 0.06344 0.03917 0.02984 0.02253 0.01971 0.01264
Cumulative Proportion  0.5643 0.7202 0.79277 0.85622 0.89539 0.92522 0.94775 0.96746 0.98009
                          PC10   PC11    PC12    PC13    PC14     PC15     PC16
Standard deviation     0.37385 0.3200 0.24791 0.10308 0.06498 0.003758 0.003401
Proportion of Variance 0.00874 0.0064 0.00384 0.00066 0.00026 0.000000 0.000000
Cumulative Proportion  0.98883 0.9952 0.99907 0.99973 1.00000 1.000000 1.000000

PC1とPC2だけで0.7202と7割を超えております。まぁまぁ縮約できているんじゃないでしょうか。そこで結果を散布図に落としてみました。

画像汚くてごめんなさい。スマホデバイスで見ている人はPCで見て下さいませ…。

さて、これはなかなか面白い結果になりました。

まずPC1(横)ですが、右側にパーN平均スコアと平均ストローク、平均パット数があり、左側にパーオン率やパーセーブ率、バーディ率などが並びます。

よく「ゴルフのスコアの半分はパット」と言いますが、平均ストロークと平均パットがPC1観点でみればほぼ同じというのが面白いですね。PC1は「1ラウンドを何打で回れるか能力」と要約しちゃいましょう。

次にPC2(縦)ですが、下はフェアウェイキープ率、サンドセーブ率、リカバリー率とボールのコントロールに関する内容が多いようです。上はドライビングディスタンス、イーグル数など距離に関する内容が多いようです。

パワプロで言えば球速160かコントロールSかみたいなもんでしょうか。PC2は「距離派かコントロール派かの属性区分」と要約しましょう。


鈴木愛ら上位陣が左下に固まっているのがわかります。全体的に見て、距離派よりコントロール派が上位に多いようです。

ドライバーでどんだけ距離出てもラフやったら2打目が辛いだけや!という何処かのおじさんの声が証明されたような気がします。それ俺や。

主成分分析の結果をクラスタリングする

主成分分析を行い、16個ある指標を多少情報量が欠落しながらも2個の指標に収斂できたと考えれば、後はその結果を分類するだけです。

ここでクラスタリングを用います。何個に分類できるかわからないので、まずは確認。

result <- clusGap(pca$x[,1:2],kmeans,K.max=10,B=100,verbose = interactive())
plot(result)

Clustering k = 1,2,..., K.max (= 10): .. done
Bootstrapping, b = 1,2,..., B (= 100)  [one "." per sample]:
.................................................. 50 
.................................................. 100

plot(result)

実はクラスタ1個が1番良い…?

それだと何も面白く無いのでGapが相対的に見て高い7をクラスター数とします。

その結果がこちら。

library(cluster)
clusplot(x, km$cluster, color=TRUE, shade=TRUE, labels=2, lines=0,cex = 0.6)

横軸が「1ラウンドを何打で回れるか能力(右に行くほど良い)」、縦軸が「距離派(上)かコントロール派(下)かの属性区分」になります。

一番右端の4が「上位グループ」であり「最強と呼べる人たち」と考えて良さそうです。

なんと、と言うべきか、やはり、と言うべきか、賞金ランキング上位が入ってきました。

ただし、賞金ランキングに照らして言えば、8位の李知姫が含まれていません。代わりに15位の笠りつ子が入ってきました。2018年は伸び悩んでいるだけに、ちょっと意外な結果。

上位グループの中に、コントロール派が7名、距離派が3名含まれています。

この結果をもってコントロール派>距離派とは言い切れません。それは選手の属性みたいなもので、一番良いのは両方の能力を持つ万能派だからです。女子プロゴルフにおいては上位はコントロール派が多いという結果に過ぎません。

ただ僕のようなあまちゃんゴルファーは「距離よりもコントロールだぞ、ドライバーで遠くに飛ばすよりパット数減らす方法考えろよ」という戒めにはなります。


まとめ

賞金ランキングの上位層と、クラスタリングして生まれた上位グループの顔ぶれはほとんど変わりませんでした。細かい順位は置いておいて、賞金ランキング上位=実力も上位だと考えておけばいいのでしょう。

獲得賞金の金額は多い→能力が高い、という因果関係の説明には違和感を抱いていましたが、能力が高い→結果的に獲得賞金の金額は多い、という結果になるのは当然ちゃ当然ですね。

能力が高くても賞金が貰えていない、ということはまず無いと考えて良いようです。

ただ、繰り返しになりますが、アマチュアゴルファーは①パター大事。②コントロール大事、だから大振りせずに行きましょう。この2つは覚えておきましょう。

データ分析って楽しい!


とまぁ、こんなことをつらつら書き連ねておりますが、基本的には「データを使って社会現象を読み解くって意外と楽しい!」ぐらいの感覚を抱いていただければ幸いです。

ちなみに上記本では、オープンデータを使って様々な社会事象を読み解き、いかにバイアスを持って判断しているかを明らかにしております。

書籍のお題を挙げると…

・「世界から愛される国、日本」に外国人はどれくらい訪れているのか

・なぜネットと新聞・テレビで支持率がこんなに違うのか

・結局、アベノミクスで景気は良くなったのか

・東日本大震災、どういう状況になれば復興したと言えるのか

・経済大国・日本はなぜ貧困大国とも言われるのか

・人手不足なのにどうして給料は増えないのか

・海外旅行、新聞、酒、タバコ…若者の◎◎離れは正しいのか

・地球温暖化を防ぐために、私たちが今できることは何か

・糖質制限ダイエットの結果とデータにコミットする

・生活水準が下がり始めたのか、エンゲル係数急上昇の謎

経済問題からダイエットまで、幅広くデータで読み解いております。書籍で見かけたらぜひ立ち読みして頂き、面白かったらぜひお買い求めください!

以上、お手数ですがよろしくお願いいたします。

  

1本書くのに、だいたい3〜5営業日くらいかかっています。良かったら缶コーヒー1本のサポートをお願いします。