🙆
【E資格対策】検証手法・交差検証で「暗記すべき」重要ポイントまとめ
モデルの汎化性能を正しく評価するための「検証集合」の設計は、実務でも重要ですが、E資格では「用語の定義」と「計算コストのロジック」が問われます。
時系列データの扱いや、交差検証(Cross Validation)のバリエーションについて、試験直前に見直すべきポイントをまとめました。
1. ホールドアウト法 (Hold-out Method)
データセットを「訓練データ」と「テストデータ(評価用データ)」の2つに固定的に分割する、最も単純な方法です。
データの「順序性」があるかどうかで分割方法を変える必要があります。
分割のルール(重要)
| データの性質 | 分割方法 | 理由 |
|---|---|---|
|
時系列に依存しないデータ (画像、独立したテキストなど) |
ランダムにシャッフルして分割 | データの偏りをなくすため。 |
|
時系列データ (株価、売上推移など) |
順序を保ったまま分割 | 「過去のデータで学習し、未来のデータを予測する」という現実のタスクに合わせるため(未来のデータを見て学習してはいけない)。 |
2. K分割交差検証 (K-fold Cross-Validation)
データを
覚えておくべき派生形(Variants)
データの性質に合わせて使い分ける必要があります。定義を選ばせる問題が出ます。
-
Stratified K-Fold (層化K分割交差検証)
- 定義: 分類タスクにおいて、分割されたブロックごとの「クラスの割合(正例・負例の比率など)」を等しく保つ方法 。
- 用途: 不均衡データ(異常検知など、正解ラベルが極端に少ない場合)で必須。
-
Group K-Fold
- 定義: 「グループ単位(ユーザーIDなど)」で分割する方法。
- 用途: 同じユーザーのデータが訓練と検証の両方に混ざるのを防ぐ場合(未知のユーザーへの性能を測りたい時)。
-
Leave-One-Out (LOO / 一つ抜き交差検証)
-
定義: データ数が
のとき、N とする究極の交差検証。「1件だけを検証用、残りのK=N 件を学習用」にする 。N-1 - 特徴: データが極端に少ない場合に使うが、計算コストは最大になる。
-
定義: データ数が
3. 分割数 K と計算コストの関係
K を増やすメリット・デメリット
- [cite_start]メリット: 1回の学習に使うデータ量(
)が増えるため、データセット全体で学習させた場合に近い精度評価ができる [cite: 530]。(K-1)/K - [cite_start]デメリット: 学習回数が
回になるため、計算時間がK に比例して増える [cite: 530]。K
【頻出】計算量の変化(K=2 から K=4 へ)
ブロック数を
1. 計算時間の変化
学習回数がそのまま増えるため、単純な倍率になります。
-
2回学習K=2 \to -
4回学習K=4 \to -
答え: 2倍 (
)4 \div 2
2. 訓練データ量の変化
1回の学習に使えるデータ割合の変化です。
-
の時: 全体のK=2 (50%) を使用。\frac{1}{2} -
の時: 全体のK=4 (75%) を使用 。\frac{3}{4} -
答え: 1.5倍 (
)0.75 \div 0.5
まとめ:暗記チェックリスト
- 時系列データは「順序を保って」分割する。
- クラスバランスを保つ交差検証は Stratified K-Fold。
- 1件だけ検証に使うのは Leave-One-Out。
-
を増やすと、計算時間は増え、学習に使えるデータ量も増える(評価の信頼性が上がる)。K
Discussion