🐈

M-1 グランプリの演技の真の実力点を推定する (3/n)

に公開

出場順バイアスの形:スプラインか、カテゴリカルか。それってあなたのプロセスモデルですよね。

前回のおさらい

前回は sequential order bias(直前の組のウケに影響されるバイアス)を検討し、モデルが複雑すぎるという理由で潔く諦めました。

今回は overall order bias、つまりたとえば「前半より後半が有利」「最初が不利」という出場順バイアスに集中します。

「出場順と点数の関係」をどう表現するか

出場順バイアスをモデルに組み込むとき、こういう項を足すことになります:

y_{ij} = \alpha_i + \beta_j + \underbrace{f(\text{order}_i)}_{\text{ここの形は?}} + \epsilon_{ij}

ここで:

  • y_{ij}:審査員 j が漫才師 i につけた得点
  • \alpha_i:漫才師 i の真の実力点
  • \beta_j:審査員 j の甘辛バイアス
  • f(\text{order}_i):出場順バイアス ← 今回の焦点

今回の問題は、この f(\text{order}_i) をどう定義するかです。正解は誰も知りません。

4つのバイアスモデルの概念図

A. 線形バイアス

f(\text{order}_i) = \gamma \cdot \text{order}_i

なんというか、罪深いくらいシンプルな選択肢です。解釈も簡単で「出場順が1つ上がるごとに、点数が γ 点上がる」と言う直感的な説明ができますね。

B. 2次バイアス(多項式)

f(\text{order}_i) = \gamma_1 \cdot \text{order}_i + \gamma_2 \cdot \text{order}_i^2

線形に2次の項を足したもの。これで「最初は急激に有利になり、後半は頭打ち」みたいなカーブを表現できます。なんだかイメージに近いものが作り出せますが、恣意的感がぬぐえません。

C. スプライン曲線

f(\text{order}_i) = \text{spline}(\text{order}_i)

非線形のモデルです。例えば spline の代表である restricted cubic splines(RCS)は、変数の値域をノット(結び目)で区切り、各区間で3次多項式(cubicの由来)を当てはめ、ノットで滑らかに接続します。滑らかにするため、ノットで関数値(f)、傾き(f')、曲率(f'')も連続になるように制限をかけます。さらに「restricted」の名の通り、両端の区間では線形に制約されます(データが少ない両端で3次多項式が暴れるのを防ぐため)。結果の解釈は係数ではなくグラフで視覚的に行います。

ちなみに自由度については、3ノットの RCS なら自由度は2(ノット数−1)で、線形モデル(自由度1)より1つ多いだけであり、過剰に複雑というわけでもありません。

D. カテゴリカル(各順番独立)

f(\text{order}_i) = \gamma_{k[\text{order}_i]}, \quad k \in \{1, 2, \ldots, 10\}

各出場順に独立したパラメータを与えます。1番手の効果、2番手の効果、…、トリの効果、をすべて別々に推定します。いままでの3つのバイアスモデルとは異なり、隣り合う順番でバイアスが似てくるはずだ、という制約がかかりません。1番手を基準(参照カテゴリ)にすれば、出場10組の場合には推定するパラメータは9個(df 9)。線形(1 df)や RCS(2 df)に比べると自由度が多いです。

スプラインがアツいのか? BMJ 論文の「線形を仮定するな」警告

さて、A. 線形および B. 2次バイアスモデルは、結論としてどちらもスプラインの下位互換です。いずれも仮定が強すぎるからです。

この部分の議論は、ちょうど最近(2025年)、BMJ (British medical journal)に連続変数の扱いに関する論文が出ました(Lopez-Ayala et al., 2025)。内容は「医学研究で連続変数をカテゴリ化(2値化)したり、安易に線形を仮定したりするのはやめよう」というものです。主なメッセージは:

  1. カテゴリ化(2値化)は情報を捨てすぎ:たとえば年齢を「55歳未満/以上」で二分すると、54歳と55歳で断絶が生じ、55歳と80歳が同じ扱いになる
  2. 線形も仮定が強すぎる:BMI と死亡率は U 字型なのに、線形を仮定するとこれを見逃す
  3. 非線形をデフォルトで仮定しよう:そもそも、自然界で真に線形な関係は稀

なお、3. を正当化するポイントがさらに2つあります。1) 仮にデータ分布が真に線形である場合に、スプラインで仮定してしまっていた場合はちょっとした overfitting で済んで推定の安定性がやや下がるものの、結論そのものは依然として正しい。一方で 2) データが非線型である場合には、線形で仮定してしまうとまったく現象を捉えられなくなる危険性がある、ということです。

結論、事前にデータの性質が不明である場合には、スプラインが安全で、スプラインが線形モデルの上位互換ということになります。

となると残るはスプライン vs カテゴリカルになりました(われわれの場合は2値化ではないので、カテゴリカルアプローチも依然として可能性がのこってる)。

「どういう事前信念を持つか」という問題

スプラインとカテゴリカルの違いは「どういう事前信念を持っているか」という観点から整理することのほうが重要です。プロセスモデルに関わってくる議論ですね。

スプライン(特に restricted cubic splines)は隣接する出場順は、似た効果を持つはずだ という信念に基づきます。したがって全体としてのバイアス効果は滑らかに変化する、と仮定します。

これは多くの自然現象では妥当な仮定だと思いますが、しかし M-1 の評価に関してはどうなんでしょうか?順番によるバイアスは、1番目→2番目→・・→9番目と変化するにつれ緩やかに変化していくのでしょうか?(図のCを改めて参照、図 D の離散的な感じと比較)。なお情報的(というか実務的?)には、局所的に情報を借りる構造になっており、隣から情報を借りることで推定が安定します。

一方、カテゴリカル階層化モデルは、情報借用はなしに互いに独立です。つまり隣の順位に似たバイアスがあるという仮定は入っていません。スプラインとの比較であえてカテゴリを選択する状況でいえば、バイアスは非連続に変化するということを暗に仮定しているともいえると思います。

こんなかんじでしょう。

スプライン カテゴリカル
事前信念 隣接する順番は似た効果を持つはず 各順番の効果はばらばらであるはず
情報の借用 局所的(隣から借りる) なし
順序情報 使っている 使っていない
許容するパターン 滑らかな曲線 非連続的なジャンプも許容
弱点 先頭・トリだけ極端なバイアスがある場合には、その推定が歪む 推定が不安定になる傾向

どちらが正しいかは事前にはわかりませんね。

結論:僕の事前信念でいくとスプラインだ

はい、ここは僕個人の事前信念で行かせてもらいます。スプラインだと思います。つまり人間心理として、審査員や聴衆の「テンション」は連続的に変化すると考えるのが自然だと思うからです。

M-1 をみていて、徐々にあったまっていく、あるいは逆に疲れていく、といった心理プロセスを生成モデルとして仮定すると、バイアスは滑らかに変化するはずです。もしガタガタと不連続に期待値が変化するとしたら、それはおそらく直前ウケに対する影響です(モデリングすることを前回の記事であきらめた、sequential order bias)。

なお、こういうふうに事前信念に基づいて(というか生成モデルにもとづいて)モデリングすることで、モデルの説得力がでますし、またそれによりモデリングそのもののエンターテイメント性も上がると思います(何を言っているんだか、この恐ろしくだれも読んでいない記事で・・)。いいんです、いつか誰かに伝われば。

というわけで、

主解析

  • スプライン(RCS, 3 knots)

感度分析

  • カテゴリカル(違う生成モデルを過程した場合どうか)
  • 線形モデル(似たような生成モデルで、違う統計モデル)
  • 2次モデル(似たような生成モデルで、違う統計モデル)

もし感度分析による推定の結果が、主解析に似た結論なら、複数の事前信念(あるいは生成プロセスモデル)。に対してロバストだと言えます。つまり、結局どういうバイアス構造なのかわからないし、分かる必要もない(点数に実質的な影響をあたえない=実質的にそれは存在しない)ということになります。

ちなみに、生成プロセスからの演繹で自然に導かれたスプラインを(生成プロセスに対する信念から)チョイスしているわけですが、いちおう予測性能は各種手法でそれぞれ検討する(たとえば Leave-One-Out Cross-Validation: LOO-CV とかで)予定。急に適当になってきました。

おまけ:スプラインのノット数

なお Restricted cubic splines のノット数は3つとします。これは BMJ 論文でも推奨されているデフォルトの設定であり、多くの非線形パターン(単調増加/減少、U字型)を表現できます。

ノット位置は、出場順の分布の 10%, 50%, 90% quantile に a priori に配置します(おそらく1番手、5-6番手、9-10番手あたり)。

せっかくですので、感度分析として 4 ノットの場合も試してみることにしましょう。もし結果が大きく変わらなければ、3 ノットで十分だと結論できます。

はあ、つかれた。

次回予告

次回は、迷います。

  1. ベイズを導入することの正統性を説明し、実際にデータを使ってベイズ推定する
  2. 審査員の好みによる点数のバイアスを交互作用項の導入でモデリングすることの是非を議論する

どっちかですね。

長かった。今回は、スプラインの話題と、生成モデルに基づくモデリングの話題とまとめられますでしょうか。事前信念という用語と、生成モデルという用語・概念の取り扱いがやや整理されておらず申し訳ありません。だれかピアレビューしてほしい。


参考文献

  • Clingingsmith, D., Conley, M., & Shane, S. (2022). How Pitch Order Affects Investor Interest. Journal of Innovation Economics & Management, (37), 139-175. 10.3917/jie.pr1.0112.
  • Lopez-Ayala, P., Riley, R. D., Collins, G. S., & Zimmermann, T. (2025). Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide. BMJ, 390, e082440. 10.1136/bmj-2024-082440.
  • 松山博幸 (2021). 「審査のゆがみ:全日本吹奏楽コンクールを例に」 『応用経済学研究』 第14巻, 45-66. 10.60258/jaae.14.0_45.

Discussion