🧠
機械学習 中末試験まとめ
✅ 1. モデル性能評価指標の必要性と MSE / R² スコア
📌 性能評価指標の必要性
- 学習されたモデルがどれだけ正確に予測できるかを客観的に判断するための基準。
📌 MSE(平均二乗誤差)
- 予測値と実測値の差の二乗の平均。
- 誤差が大きいほどペナルティが大きく、値が小さいほど精度が高い。
- 常に 0以上、回帰問題で主に使用される。
📌 R² スコア(決定係数)
- 平均値による予測と比較して、モデルの優位性を数値化。
- 1: 完全な予測, 0: 平均と同等, 負: 平均より劣る
- MSE より直感的に理解しやすい指標。
✅ 2. 正規化(Normalization)/ 標準化(Standardization)の目的と理由
📌 Normalization
- データを [0, 1] の範囲に調整。
- 最小値/最大値に基づき相対位置を維持しながらスケーリング。
- スケールの違いを緩和 → 公平な学習を促進。
📌 Standardization
- データを 平均0・標準偏差1 に変換。
- 多くのデータが正規分布に従うという前提で使用。
- 勾配降下法の収束速度向上や特徴量間の影響バランスに貢献。
📌 テスト・予測段階で同じ基準を使う理由
- 学習時と同じ平均・標準偏差を使うことでスケールの一貫性が維持される。
- 異なるスケーリングでは予測精度が低下する可能性あり。
✅ 3. ロジスティック回帰(Logistic Regression)の主要概念
📌 仮説関数
- 線形結合結果をシグモイド関数に通して確率値として解釈。
- 出力値の範囲は (0, 1)、0.5 を閾値にして2クラス分類を実施。
📌 シグモイド関数の解釈
- 入力が大きいほど1、小さいほど0に近づく。
- 出力は確率とみなされ、0.5以上 → クラス1, 未満 → クラス0に分類。
📌 損失関数(交差エントロピー損失)
- ログ関数で予測と正解の差を数値化。
- 正解が1 →
-log(予測確率)
、正解が0 →-log(1 - 予測確率)
- 統合式:
L = - [ y * log(h(x)) + (1 - y) * log(1 - h(x)) ]
- ログ関数により正解に近いほど損失が小さく、遠いほど損失が大きい
✅ 本記事は期末試験の記述問題対策を完全にカバーしています。
Discussion