ゴルフの因果推論 ~日本のツアーデータを用いた効果検証replication~

に公開

はじめに

準自然実験の手法のひとつである回帰不連続デザイン(Regression Discontinuity Design, RDD)は、連続的に変化する変数に閾値(カットオフ)を設け、その前後で処置の有無が変わるという制度的特徴を利用して、因果効果を推定する手法です。たとえば、ある奨学金制度が試験の点数が70点以上で支給される場合、点数が70点に非常に近い受験者(69点や71点)同士では、処置(奨学金の有無)以外の違いがほとんどないと考えられます。このような近傍の比較により、局所的平均処置効果(Local Average Treatment Effect, LATE)を同定するのがRDDの基本的な考え方です。

本記事では、スポーツの世界、特にゴルフという個人競技を舞台に、RDDを適用した因果推論の事例を紹介します。取り上げるのは、Rosenqvist and Skans (2015) による研究で、欧州男子ゴルフツアーのデータを用い、「予選通過の可否」がその後の選手成績に与える因果効果を分析しています。彼らのアイデアは、ゴルフのトーナメントにおける「予選通過スコア(cut line)」が処置の閾値として自然に機能する点に着目するもので、まさにRDDの前提を満たす構造が存在するのです。

本記事では、この先行研究を日本の男子プロゴルフツアーおよび女子プロゴルフツアーのデータを用いてレプリケーションし、同様のアプローチで分析を試みます。2020年および2021年の大会を除いた2010年から2024年までのデータを収集し、RDDの枠組みに基づいた推定を行います。また、使用する推定手法としてはrdrobustを導入し、推定結果を報告します。

RDDの理論的背景や、rdrobustパッケージの概要についても簡単に触れながら、スポーツの実データを用いた因果推論の実践的な流れを追っていきます。

Rosenqvist and Skans (2015) の要旨と推定方法

本節では、Rosenqvist and Skans (2015) の論文 "Confidence enhanced performance? – The causal effects of success on future performance in professional golf tournaments" の概要を簡単に解説します。本来はある程度丁寧に説明する必要がありますが、本論文はオープンアクセスとなっていませんので(2025年6月12日現在)、replicationに必要な前提知識のみを簡単に紹介し、必要部分の引用に留めます。

https://www.sciencedirect.com/science/article/abs/pii/S0167268115001912

研究の目的

本研究の目的は、男子プロゴルファーが欧州ツアーのトーナメントにおいて予選通過したかどうかが、その後の大会の成績にどのような影響を与えるかを評価することです。特に注目しているのは、予選通過という経験が、選手の自信を高めることで次の出場機会におけるパフォーマンスに影響を与えるというメカニズムです。

RDDの適用構造

プロゴルフトーナメントでは、多くの大会において、初日と2日目の合計スコアにより一定数の上位選手のみが後半(3・4日目)に進出できるというカットライン(cut line)が設定されます。このcut lineはスコアに基づくため、スコアがカットラインすれすれの選手同士(たとえば、通過スコアちょうどの選手とその1打上の選手)は、実力的にはほとんど差がないと考えられます。この構造は、スコア(連続変数)に対してcutという閾値(カットオフ)が処置(予選通過)を決定していることから、RDDの前提を自然に満たすものとなっています。また一般的に、選手は予選通過のために努力するため、**操作(manipulation)が発生しないものと考えられ、これもRDDの前提を満たしています。

推定戦略と識別仮定

RDDの識別には、以下の仮定が満たされる必要があります:

  1. 処置下、統計下の予選通過が次大会の成績にもたらす効果の平均値が等しい
  2. ぎりぎり処置を受けた人とぎりぎり処置を受けなかった人の観測頻度が等しい
  3. 事前の共変量の分布が等しい

Rosenqvist and Skans (2015) では、これらの前提を視覚的・統計的に確認しつつ、バンド幅を調整して推定のロバスト性を確認しています。

結果の解釈

彼らの主な発見は、予選通過がその後のパフォーマンスにポジティブな効果をもたらすというものです。彼らはその効果について、前回の出場大会で予選を通過したことが自信につながり、そのことによって次の大会の成績が向上するというメカニズムで解釈しています。(簡単な紹介に留めます。詳しくは本論文をご参照ください。)

以上が、Rosenqvist and Skans (2015) の研究概要およびRDDを用いた因果推論の戦略になります。次節では、これを日本の日本の男子ツアーおよび女子ツアーデータに適用した実証分析を行います。

rdrobust パッケージの解説

Rosenqvist and Skans (2015)では、globalなRDDを用いて推定を行っています(推定式自体はオープンではないので、本記事では具体的に紹介しません)。
一方でこの推定方法は、パラメトリックで関数形に仮定を置くうえ、閾値から離れた値に不当に大きいウェイトを置くことになるため、局所近似(local approximation)手法を用いる方が望ましい(川口、澤田(2024))とされているようです。

そのため今回は、ノンパラな局所線形推定量を推定するパッケージであるrdrobustを用いることとします。

rdrobust は、Calonico et al. (2014, 2020) によって開発された回帰不連続デザイン専用の推定ツールです。今回は昨今一般的に使われているこの手法を用いることとします。rdrobustは最適バンド幅選択に基づく推定を自動的に行ってくれる点で実用性が高く、RDD分析におけるスタンダードとなっています。

R, Stata, Python等で実装されており、その使い方に関しては以下の2書を参考としました。

https://www.amazon.co.jp/Pythonで学ぶ効果検証入門-安井-翔太/dp/427423116X

https://www.nippyo.co.jp/shop/book/9359.html

データ

本分析では、日本の男子プロゴルフツアー(JGT)および女子プロゴルフツアー(JLPGA)のデータを用いてRDDによる推定を行います。対象期間はJGTが2010年から2024年、JLPGAが2007年から2024年です。

JGTの説明

JGTO(Japan Golf Tour Organization)が統括する日本の男子プロゴルフの主要トーナメントで、毎年20〜25試合前後の公式競技が行われています。

欧州ツアーと比較すると、大会数や賞金総額、参加選手の国際性に違いはありますが、試合形式は多くの点で共通しています。両者ともに初日・2日目を通過した選手が決勝ラウンドに進出するcut制度を採用している大会が多く、RDDの適用が可能と考えました。

本分析では、パンデミックの影響でスケジュールが大きく変則的となった2020年および2021年の大会を除外しています。

JLPGAツアーの説明

JLPGAツアーは、日本国内で開催される女子プロゴルフのトーナメントを統括する組織です。年間で30〜40試合が開催されており、JGTよりも多くの公式戦が存在する点が特徴的です。

JLPGAツアーでは、一部の大会において3ラウンド制(初日〜3日目)で完結する形式が採用されており、男子の4ラウンド制とは異なる点に留意が必要です。しかしながら、大会数が男子ツアーより多いため、予選カット通過が「自信」につながるという元の論文のメカニズムを表現できるのではと考えました。

本分析では、2020年の大会を除外しています。

大会選定基準

以下の基準を満たす大会のみを分析対象としました:

-- 国内で開催される大会であること
-- 予選cut制度が導入されていること
-- 雨天等の理由で短縮され、2日で終了した大会は除外
-- 前回開催された出場者のうち60%以上の選手が出場している大会であること

cutラインをめぐる競争が一定水準以上で担保され、かつ選手層に偏りのない大会のみを対象とすることにしています。

推定結果

JGTの結果

import pandas as pd
from rdrobust import rdrobust,rdbwselect,rdplot

まず、前の大会の予選通過が次の大会の予選通過に与える効果を推定します。

rdrobust(
    x = df['prior_diff], #前大会のカットオフ値との差分
    y = df['pass_dummy'], #今大会の予選通過ダミー
    c=0,
    all = True
)


推定した結果、従来の推定量およびbias-correctedな推定量については10%有意水準で有意に負という結果でしたが、さらにrobustな標準誤差を用いたbias-correctedな推定量に関しては有意な効果が得られませんでした。

同様に、前の大会の予選通過が次の大会の2ラウンド終了時の打数に与える効果を推定します。

こちらに関しても、元の論文と異なり有意な結果が得られませんでした。

JLPGAツアーの結果

rdrobust(
    x = df['prior_diff #前大会のカットオフ値との差分
    y = df['pass_dummy'], #今大会の予選通過ダミー
    c=0,
    all = True
)
rdrobust(
    x = df['prior_diff'],
    y = df['total_score'], #今大会の2round終了時のスコア
    c=0,
    all = True
)


こちらに関しても、両推定ともに有意な結果が得られませんでした。

共変量のチェック

そもそも閾値を境に共変量が偏っている可能性があるため、RDDを実装する際には共変量のジャンプが起こっていないかチェックします。今回はJLPGAツアーのケースを紹介します。observable factorとして、年齢を挙げます。

rdrobust(
    x = df['prior_diff'], #前大会のカットオフ値との差分
    y = df['age_at_tournament'], #年齢
    c=0,
    all = True
)
rdplot(
    x = df['prior_diff'], #前大会のカットオフ値との差分
    y = df['age_at_tournament'], #年齢
    c=0,
)


この結果から、閾値によって年齢がジャンプしているという有意な結果は得られませんでした。

考察

本記事では、Rosenqvist and Skans (2015) に倣い、直前の大会における予選通過が次大会の予選通過確率や、次大会の2ラウンド終了時点のスコア(打数)に与える因果効果をRDDで検証しました。しかしながら、欧州ツアーで得られたような統計的に有意な効果は、日本ツアーでは確認されませんでした。

以下に、その理由として考えられる点を整理します:

  • 大会間のインターバルの違い:欧州ツアーでは連続的な開催が多く、心理的・物理的なcarry-over効果が期待される一方で、日本ツアーでは開催頻度がやや少なく、大会間に数週間空くことも多いです。そのため、前大会のcut通過が次大会に与える影響が希薄化している可能性があります。
  • 観測可能なアウトカムの違い:女子ツアー大会に関しては、3roundで終了する大会もあり、この制度の違い自体が影響している可能性も考えられます。
  • 推定戦略の違いが起因している可能性:元の論文ではパラメトリックな推定を行っている一方、本記事ではノンパラな推定を行いました。そもそもこの推定方法の違いが結果の差異に影響を及ぼしている可能性も否定できません。

このように、レプリケーションの結果が欧州ツアーの結果と一致しなかったことには複数の要因が考えられます。したがって今後は試合間の間隔や精度に起因する出場選手のモチベーションといった観点も考慮して大会を選定する必要があると考えられます。

また、推定手法に関する別の技術的課題として、ゴルフスコアが本質的に離散的な変数である点も見逃せません。RDDの理論的枠組みでは、処置変数に関与するrunning variable(本研究では2日間のスコア)が連続変数であることを想定しています。しかし、ゴルフのスコアは1打単位で記録されるため、実質的には整数値しか取り得ない離散変数となっています。

このような場合、cutライン近辺のスコアが飛び飛びの点(例:+2、+3、+4など)で構成されるため、局所的回帰を行っても閾値直前の関数の挙動がわからず、求めたい推定値が得られない可能性が生じます。

こうした離散的running variableに対する解決策として、川口、澤田(2024)では**離散RDD(discrete RDD)**がサブセクション内で紹介されています。本稿のようにスコアが離散的である場面では、こうした補完的な推定手法の併用や感度分析も、因果推論の頑健性を高めるうえで重要となるでしょう。

Discussion