💡
論文紹介：Conformalized Interval Arithmetic with Symmetric Calibration

tonakai
2025/10/06に公開
 論文弊社のアナリスト勉強会で勉強した論文 「Conformalized Interval Arithmetic with Symmetric Calibration」（Luo & Zhou, 2024） をご紹介します。

信頼予測区間による不確実性の定量化に関する研究となっています。

詳細はarXivに公開されています：

https://arxiv.org/abs/2408.10939

 背景不確実性の定量化は、特に確率変数の同時分布が関わる意思決定において重要であり、Conformal Predictionによる信頼予測区間の研究が進められてきた。

例: 交通ネットワークにおいて、「最短経路の所要時間は85〜100分の範囲に収まる可能性が高い」といった不確実性の幅を示すことで、利用者は遅延リスクを考慮した計画を立てられる。
従来の Conformal Prediction は、データ分布に依存せずに一定の確率で真値を含む信頼予測区間を構築できる手法として注目されてきた。単一のラベル（例：ある道路の所要時間）に対しては理論的に正しいカバレッジ保証を持つ予測区間を与えられる。

例: 従来のConformal Predictionは、各道路ごとに「この道路は95%の確率で12〜18分」と予測区間を構築する。
しかし、複数ラベルの合計や平均（例：経路全体の所要時間）に対しては直接適用できない。単純に区間を加算すると、カバレッジ保証が崩れる、あるいは区間が不必要に広がってしまうという問題がある。

例: 各道路の区間を単純に足し合わせても「経路全体が95%の確率で30〜40分に収まる」とは保証できない。実際にはカバレッジが崩れたり、逆に区間が過度に広がる可能性がある。

 貢献
 Conformal Interval Arithmetic (CIA)複数ラベルの合計や平均に対して、区間の単純加算ではなくグループ単位（例：経路全体）の予測合計と実測合計の差をスコアとして扱うことで、正しいカバレッジ保証を持つ信頼予測区間を構築する手法を提案した。
(例)

経路全体の所要時間を直接対象とし、各道路の予測区間を足し合わせるのではなく「経路全体の残差」をキャリブレーションに使うことで、経路全体に対して正しく95%をカバーする予測区間を構築する。
(数式)

各グループ S_k（例: 経路）に対して残差を次のように定義：

s_k = \sum_{i \in S_k} (y_i - \hat{y}_i), \quad k \in [K]
分位点 Q_{1-\alpha} を \{s_1, s_2, \dots, s_K\} の中で (1-\alpha)(1+K) 番目に小さい値として定義：

Q_{1-\alpha} = \lceil (1+K)(1-\alpha) \rceil \;\; \text{番目に小さい値 } \{ s_1, s_2, \dots, s_K \}
テスト集合 S_{K+1} に対して予測区間を構築：

C(S_{K+1})=
\left[
\sum_{i \in S_{K+1}} \hat{y}_i - Q_{1-\alpha},\;
\sum_{i \in S_{K+1}} \hat{y}_i + Q_{1-\alpha}
\right]

 Symmetric Calibrationキャリブレーションセットとテストセットを対称的に分割する。従来は、未知ラベルがキャリブレーション側に偏る、あるいはテスト側にしか含まれないといった非対称な分割が生じ、キャリブレーションで得た残差分布をテストに適用することが困難であった。Symmetric Calibration では、ラベルをキャリブレーションとテストに均等な条件で割り当てることで、未知ラベルが複数のグループにまたがる場合でも両者の分布を揃えることができる。これにより、キャリブレーションで計算した分位をテストにも妥当に適用でき、正しいカバレッジ保証を実現できる。
(例)

複数の経路が同じ未知道路（E–F）を共有する場合、従来の方法ではキャリブレーション側に E–F を含む経路が偏り、テスト側には含まれないといった問題が生じた。Symmetric Calibration では、E–F を含む／含まない経路がキャリブレーションとテスト双方にバランス良く分かれるように扱うため、キャリブで得た残差の基準をテストにも適切に適用でき、経路全体の予測区間を正しく保証できる。
(数式)

各グループ S_k をキャリブレーション側とテスト側に分ける：

S^{\text{cal}}_k := S_k \cap I_{\text{cal}}, \quad
S^{\text{test}}_k := S_k \cap I_{\text{test}}.

I_{\text{cal}}: キャリブレーション集合。既知ラベルを含み、スコア分布を推定するために使うデータ。

I_{\text{test}}: テスト集合。未知ラベルを含み、予測区間を構築する対象となるデータ。

S_k: グループ（例：経路）。各グループをキャリブ側とテスト側に分割して扱う。
キャリブレーション集合に基づいてスコアを定義：

s^{\text{cal}}_k = \sum_{i \in S^{\text{cal}}_k} (y_i - \hat y_i).
これらから分位点を計算する：

Q_{1-\alpha} = \lceil (1+K)(1-\alpha) \rceil \;\; \text{番目に小さい } \{ s^{\text{cal}}_1, \dots, s^{\text{cal}}_K \}.
テスト集合に対する予測区間は：

C(S^{\text{test}}_k) =
\left[
 \sum_{i \in S^{\text{test}}_k} \hat y_i - Q_{1-\alpha}, \;
 \sum_{i \in S^{\text{test}}_k} \hat y_i + Q_{1-\alpha}
\right].

 データセットBike Sharing

データセット: 自転車シェアリング需要データ

予測対象: 「季節 × 天候 × 曜日」といった条件ごとの需要平均
Community Crime

データセット: 地域単位の犯罪統計データ

予測対象: 各地域グループにおける犯罪発生率の平均
Medical Expenditure Panel Survey (meps)

データセット: 医療費に関する記録データ

予測対象: 特定の属性グループにおける医療コストの平均
Anaheim / Chicago 交通ネットワーク

データセット: 都市規模の交通ネットワーク（ノードと道路の接続情報、交通コスト）

予測対象: ランダムに選んだ始点・終点間の最短経路における合計コスト

 比較モデル
 Group Sampling Conformal Prediction (Group)テスト集合のサイズと同じ数のサンプルをキャリブレーションセットから抽出し、グループごとに残差を計算してその分布を基準に信頼予測区間を構築する方法。
(数式)

提案手法のCIAに一致(ただし、Symmetric Calibrationは用いない)。

 Normal Confidence Interval予測値と実測値の差が独立同分布で正規分布に従うと仮定し、推定された分散に基づいて信頼予測区間を構築する方法。
(数式)

まずキャリブレーション集合から分散を推定：

\hat{\sigma}^2 = \frac{1}{|I_{\mathrm{cal}}|-1} \sum_{i \in I_{\mathrm{cal}}} (y_i - \hat{y}_i)^2
次に、テスト集合 S_{k}^{\mathrm{test}} に対する予測区間を構築：

C(S_{k}^{\mathrm{test}}) =
\left[
\sum_{i \in S_{k}^{\mathrm{test}}} \hat{y}_i + z_{\alpha/2}\sqrt{|S_{k}^{\mathrm{test}}|}\,\hat{\sigma}, \;
\sum_{i \in S_{k}^{\mathrm{test}}} \hat{y}_i + z_{1-\alpha/2}\sqrt{|S_{k}^{\mathrm{test}}|}\,\hat{\sigma}
\right]
ここで

z_{\alpha/2} は標準正規分布の下側 \alpha/2 分位点

z_{1-\alpha/2} は標準正規分布の上側 (1-\alpha/2) 分位点

\hat{\sigma} はキャリブレーションで推定された誤差の標準偏差

 Bonferroni Correction複数ラベルの同時推定に対して Bonferroni補正を適用し、全体としてカバレッジを保証する方法。

 結果

 Bike, Community, meps21 (Figure 2)
CIA: すべてのケースで1-αのカバレッジを安定的に達成し、信頼予測区間の幅（サイズ）も小さく効率的であった。

Group: カバレッジはある程度安定していたが、CIAに比べて区間の幅が広がる傾向が見られた。

Normal CI: 正規分布の仮定が外れるため、カバレッジが大きく崩れ、信頼性が低い。

Bonferroni: カバレッジが1-α以上に大きく、区間幅が過度に広がった。
まとめ: CIAは理論通り1-αのカバレッジを保証しつつ、最も効率的（区間幅が狭い）な手法であることが確認された。

 Anaheim / Chicago 交通ネットワーク (Figure 3)
CIA: 1-αに近いカバレッジを維持しつつ、区間幅も小さい。

Group: 経路が重複する状況ではカバレッジが不安定であった

Normal CI: カバレッジが大きく崩れた。

Bonferroni: カバレッジが1-α以上に大きく、区間幅が過度に広がった。
まとめ: 経路の重複を含む複雑なケースでも、CIAは Symmetric Calibration によって1-αのカバレッジを維持し、効率的な区間を構築できることが示された。

 結論提案手法 CIA と Symmetric Calibration は、従来の Conformal Prediction が扱えなかった複数ラベルの合計・平均に対しても、
理論通り1-αのカバレッジを保証
効率的な区間幅

を同時に実現できることを理論的に示した。
また実験結果により、CIA は Group・Normal CI・Bonferroniといった従来手法が十分に有効なカバレッジを保証できない状況においても、安定した信頼予測区間を構築可能であることを示した。
DMM Data BlogPublication
DMM.comに所属するデータ分析関連組織の有志によるテックブログです。データ分析に関する知識・技術を発信します。
論文

背景

貢献

Conformal Interval Arithmetic (CIA)

Symmetric Calibration

データセット

比較モデル

Group Sampling Conformal Prediction (Group)

Normal Confidence Interval

Bonferroni Correction

結果

Bike, Community, meps21 (Figure 2)

Anaheim / Chicago 交通ネットワーク (Figure 3)

結論

Discussion