統計手法による 2018年LPGA公式記録データの解析事例(その1)

更新日

投稿日

【統計手法による 2018年LPGA公式記録データの解析 連載目次】

 

1. 相関・主成分・クラスター・レーダーチャート分析の事例とは

 
 2018年の国内女子ゴルフツアー(LPGA)は終了し、アンソンジュが年間獲得賞金女王となりました。LPGAから女子プロゴルファー上位95名の公式記録データが報告されています。今回は、このデータを使って、プレーの実力を決めるための技能(以下変数、各変数の定義は末尾の注を参照ください)、選手の特徴等を「相関」「主成分「クラスター」「レーダーチャート」分析の事例として整理して解説します。なお、この手法は「事業戦略」「マーケティング」等にも使われている有効な手法です。1)2)3)
 

2. 解析の前提条件

 
 獲得賞金額はツアーによって賞金額が異なるため、変数から外し、技能面に着目した解析としました。前提条件は次のとおりです。2018年女子プロ上位95名の公式記録データを使用し、年間の平均ストローク数他9項目の成績を対象としました。
 
 成績の大きさを一致させるために、平均ストローク(=72-実績平均値)、平均(2-実績平均値)としました。各説明変数は標準偏差(σ)で基準化したデータに変換しました。
 
 解析は「相関分析」「主成分分析」「クラスター分析」「レーダーチャート」とし、変数の特性と選手の特徴を浮き彫りにします。
 

3. 記録データの加工

 
 表1にLPGA公式記録データ95選手の内、上位3選手の成績を示します。
 
表1.LPGA公式記録データ(平均ストローク上位3位)
SQC
 
 表2は上記各変数を標準偏差(σ)で基準化した数値です。((μ-x)/σ)μ;各変数の平均値、 x;変数
 
表2.記録データの標準化
SQC
       

4. 記録データの相関分析

 
 10変数の相関係数を計算した結果を表3に示します。それの散布図を図1に示します。
 
 平均ストロークと大きな相関があるのは「パーセーブ率」「平均バーディー」「平均パット数」「パーオン率」「リカバリー率」になります。これを仮に「5つの変数」と呼びます。
 
 一方、「Dディスタンス」「Fキープ率」「Sキープ率」「イーグル数」は平均ストロークと無相関であることが表3、図1から分かります。ゴルフゲームを複雑にしているのは、この「5つの変数」間で発生する「交互作用」すなわち多重共線性(マルチコ)を有することです。
 
 例えば、平均パット数は「5つの変数」の一つですが、図2の「平均ストロークと他変数の相関図」をみると「5つの変数」のパーセーブ率、平均バーディー数にも影響を与えていることが分かります。同様に「多重共線性」はパーセーブ率、リカバリー率にもみられます。
 
 「多重共線性」を有する系は、線形回帰分析は不可能であり、非線形回帰で分析することになりますが、複雑化するため、ここでは「主成分分析」等を使って解析していきます。
 
 参考ですが野球はホームラン、盗塁、三振、安打は独立性の高い変数です。しかし、ゴルフは説明変数のいくつかは「交互作用」を有することに大きな相違があり、野球は比較的簡単な線形回帰式で解析できることが特徴です。
 
表3.10変数の相関係数行列
SQC
 図1.平均ストロークとその他変数の散布図
 
SQC
図2.平均ストロークと他変数の相関図
 
 次回に続きます。
 
【注】
      • パーオン率;パーオンをする率
      • バーディー数;1ラウンド当たりの平均バーディー数
      • パーオン率;パーオンしたホールの平均パット数
      • Dディスタンス;ティーショットの平均飛距離
      • リカバリー率;パーオンしないホールでパーかそれより良いスコアを獲得する率
      • イーグル数;イーグルの年...

【統計手法による 2018年LPGA公式記録データの解析 連載目次】

 

1. 相関・主成分・クラスター・レーダーチャート分析の事例とは

 
 2018年の国内女子ゴルフツアー(LPGA)は終了し、アンソンジュが年間獲得賞金女王となりました。LPGAから女子プロゴルファー上位95名の公式記録データが報告されています。今回は、このデータを使って、プレーの実力を決めるための技能(以下変数、各変数の定義は末尾の注を参照ください)、選手の特徴等を「相関」「主成分「クラスター」「レーダーチャート」分析の事例として整理して解説します。なお、この手法は「事業戦略」「マーケティング」等にも使われている有効な手法です。1)2)3)
 

2. 解析の前提条件

 
 獲得賞金額はツアーによって賞金額が異なるため、変数から外し、技能面に着目した解析としました。前提条件は次のとおりです。2018年女子プロ上位95名の公式記録データを使用し、年間の平均ストローク数他9項目の成績を対象としました。
 
 成績の大きさを一致させるために、平均ストローク(=72-実績平均値)、平均(2-実績平均値)としました。各説明変数は標準偏差(σ)で基準化したデータに変換しました。
 
 解析は「相関分析」「主成分分析」「クラスター分析」「レーダーチャート」とし、変数の特性と選手の特徴を浮き彫りにします。
 

3. 記録データの加工

 
 表1にLPGA公式記録データ95選手の内、上位3選手の成績を示します。
 
表1.LPGA公式記録データ(平均ストローク上位3位)
SQC
 
 表2は上記各変数を標準偏差(σ)で基準化した数値です。((μ-x)/σ)μ;各変数の平均値、 x;変数
 
表2.記録データの標準化
SQC
       

4. 記録データの相関分析

 
 10変数の相関係数を計算した結果を表3に示します。それの散布図を図1に示します。
 
 平均ストロークと大きな相関があるのは「パーセーブ率」「平均バーディー」「平均パット数」「パーオン率」「リカバリー率」になります。これを仮に「5つの変数」と呼びます。
 
 一方、「Dディスタンス」「Fキープ率」「Sキープ率」「イーグル数」は平均ストロークと無相関であることが表3、図1から分かります。ゴルフゲームを複雑にしているのは、この「5つの変数」間で発生する「交互作用」すなわち多重共線性(マルチコ)を有することです。
 
 例えば、平均パット数は「5つの変数」の一つですが、図2の「平均ストロークと他変数の相関図」をみると「5つの変数」のパーセーブ率、平均バーディー数にも影響を与えていることが分かります。同様に「多重共線性」はパーセーブ率、リカバリー率にもみられます。
 
 「多重共線性」を有する系は、線形回帰分析は不可能であり、非線形回帰で分析することになりますが、複雑化するため、ここでは「主成分分析」等を使って解析していきます。
 
 参考ですが野球はホームラン、盗塁、三振、安打は独立性の高い変数です。しかし、ゴルフは説明変数のいくつかは「交互作用」を有することに大きな相違があり、野球は比較的簡単な線形回帰式で解析できることが特徴です。
 
表3.10変数の相関係数行列
SQC
 図1.平均ストロークとその他変数の散布図
 
SQC
図2.平均ストロークと他変数の相関図
 
 次回に続きます。
 
【注】
      • パーオン率;パーオンをする率
      • バーディー数;1ラウンド当たりの平均バーディー数
      • パーオン率;パーオンしたホールの平均パット数
      • Dディスタンス;ティーショットの平均飛距離
      • リカバリー率;パーオンしないホールでパーかそれより良いスコアを獲得する率
      • イーグル数;イーグルの年間獲得数
      • 平均パット数;1ラウンド当たりの平均パット数
      • Fキープ率;フェアウェイをキープしたティーショットの率
      • S(サンド)セーブ率;グリーンサイドのバンカーに入ってから2打かそれより少ない打数でカップインする率
      • 平均ストローク;1Rの平均ストローク数
 
【参考文献】
1)日本女子プロゴルフ協会 https://www.lpga.or.jp/ 
2)多変量解析事例集 第1集 吉沢正 芳賀敏郎 編 日科技連
3)カレッジ・アナリシス 福山平成大学 http://www.heisei-u.ac.jp/ba/fukui/analysis.html

   続きを読むには・・・


この記事の著者

森本 幹夫

「製品品質95%を決める設計で成果を上げる実践的ツールを指導します」 講師と研修者が、2WAYによる議論主体の教育です。 演習は「データ」、「情報化」、「価値の創造」の流れで進めます。

「製品品質95%を決める設計で成果を上げる実践的ツールを指導します」 講師と研修者が、2WAYによる議論主体の教育です。 演習は「データ」、「情報化」、「...


関連する他の活用事例

もっと見る
DPMOとは何か

 DPMOとはDefects Per Million Opportunityのイニシャルを取ったものです。DPMOを百万個当りの欠陥数(製品百万個当りの不...

 DPMOとはDefects Per Million Opportunityのイニシャルを取ったものです。DPMOを百万個当りの欠陥数(製品百万個当りの不...


飛行機事故とセンサー・フィードバックの分布

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...


信頼できる結果を得るために統計的手法の活用を

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...