⤴️

XGBoostで株価LogReturn予測――“カテゴリ変数”で予測AIはここまで変わる

に公開

本記事は前回の「株価データ分布の可視化とカテゴリ分岐設計」(記事はこちら)の続編です。
前回のデータ分析で設計したカテゴリ分岐をもとに、今回は実際にAIで株価LogReturn予測を行い、「カテゴリ変数の有無」で精度や予測分布がどう変わるかを徹底検証しました。


検証の目的

「翌営業日の終値LogReturn(=前日比の変動率)」をXGBoostで予測するタスクにおいて、

  • カテゴリ変数(例:価格帯やグループ)を追加すると予測精度やモデルの挙動がどのように変化するのか?
    を実験・分析します。

実験概要

  • モデル:XGBoost

  • 予測対象:翌営業日の終値LogReturn(=終値の前日比変動率、単位は%ではなくLog値)

  • 特徴量パターン

    • V4:カテゴリ変数なし
    • V5:カテゴリ変数あり
  • 評価指標:MAE(平均絶対誤差)、RMSE(二乗平均平方根誤差)、相関係数(予測vs実測) ほか


【図表・写真挿入位置とキャプション一覧】


  • 図1. mediumグループ・カテゴリ変数なし(V4)の予測結果散布図
     (実測LogReturnと予測値の関係。点が直線から大きくバラつく=予測が外れている例が多い)

  • 図2. mediumグループ・カテゴリ変数なし(V4)の予測誤差ヒストグラム
     (誤差0から右方向にピークがずれている=過小評価バイアスの傾向を可視化)

  • 図3. mediumグループ・カテゴリ変数あり(V5)の予測結果散布図
     (実測LogReturnと予測値が直線付近に集まり、モデルが“動きをしっかり当てている”様子)

  • 図4. mediumグループ・カテゴリ変数あり(V5)の予測誤差ヒストグラム
     (誤差0への集中が強化。外れ値の頻度も激減し、“外さないAI”に進化した様子)

  • 図5. smallグループ・カテゴリ変数なし(V4)の予測結果散布図
     (small銘柄でも、カテゴリ変数なしでは点が縦に散らばりやすい傾向)

  • 図6. smallグループ・カテゴリ変数なし(V4)の予測誤差ヒストグラム
     (0以外にも複数ピークや裾野が見える=外れ値・予測ブレが多い)

  • 図7. smallグループ・カテゴリ変数あり(V5)の予測結果散布図
     (カテゴリ変数追加により、点が直線付近に密集し“正解に追従するAI”の特性が現れる)

  • 図8. smallグループ・カテゴリ変数あり(V5)の予測誤差ヒストグラム
     (0付近への寄り付き・密度がさらに強化。誤差の大外れが大幅に減少した)

  • 表1. MAE・RMSE等の指標比較表
     (small/medium/large各グループのモデルごとの主要指標を一括比較。カテゴリ変数導入で精度・安定性が飛躍的に向上していることが数値で見て取れる)


補足注釈

各図・表は、カテゴリ変数導入の有無によるAIの予測精度・分布変化を視覚的・定量的に比較しています。
図1~4はmediumグループ、図5~8はsmallグループの挙動を示し、表1では全体傾向を定量的にまとめています。


検証結果(グループごと)

表1. MAE・RMSE等 指標比較

モデル グループ MAE RMSE R2 MAPE
chartyx_v4 small 0.138 0.216 -25.76 1752.55
chartyx_v4 medium 0.366 0.436 -108.78 5513.39
chartyx_v4 large 0.274 0.363 -74.81 4498.73
chartyx_v5 small 0.053 0.073 -2.02 854.59
chartyx_v5 medium 0.081 0.106 -5.42 1243.86
chartyx_v5 large 0.149 0.254 -36.11 2321.01

※表内のV4=カテゴリ変数なし、V5=カテゴリ変数あり


可視化で見る精度の違い

mediumグループの「誤差ヒストグラム」を例に、カテゴリ変数あり/なしでどう分布が変わったかを比較します。
※他グループも同様の傾向が見られました。

medium/GroupAvg_medium の例(LogReturn予測)

カテゴリ変数なし(V4)の予測分布


図1. 「カテゴリ変数なし」モデルの予測結果散布図(横軸: 実測LogReturn、縦軸: 予測値、赤線: 完全一致)


図2. 「カテゴリ変数なし」モデルの予測誤差ヒストグラム(横軸: 誤差, 縦軸: 頻度)

カテゴリ変数あり(V5)の予測分布


図3. 「カテゴリ変数あり」モデルの予測結果散布図


図4. 「カテゴリ変数あり」モデルの予測誤差ヒストグラム


結果まとめ・図の読み解き

  • Predicted vs Actual散布図(図1,3)では、点がy=x(赤線)に近いほど予測精度が高いことを示します。
    カテゴリ変数なし(V4)では点がバラつきますが、あり(V5)では直線付近に密集し、相関係数も明確に向上しています。
  • 誤差ヒストグラム(図2,4)では、「誤差0」(=予測が実測と一致)に山が集中し、裾野(大外れ)が減少。“外さない予測”が増えたことを示します。

smallグループでも同様の傾向が見られます。
実際の誤差ヒストグラムでは、カテゴリ変数を導入することで中心(0付近)への寄り付きがさらに強くなり、大外れのケースも大きく減少しました。
分散が一時的に増えたように見える場面もありますが、これは**“予測誤差が0に集中する”ことで中心密度が増したため**です。


図5. smallグループ:カテゴリ変数なしの予測結果散布図


図6 smallグループ:カテゴリ変数なしの予測誤差ヒストグラム


図7 smallグループ:カテゴリ変数ありの予測結果散布図


図8 smallグループ:カテゴリ変数ありの予測誤差ヒストグラム


なぜカテゴリ変数が効くのか?

  • 株価データには**「異質なグループ」**(価格帯/業種/流動性など)が混在しており、そのまま学習させると「全体平均」に引っ張られがち
  • カテゴリ変数を追加することで、AIは「今どのグループのデータか」を認識し、それぞれの特徴に合わせた予測が可能に
  • 結果として「外れ値の暴走」や「過小評価」が抑制され、全体の精度・安定性が大幅向上

まとめ・今後の展望

  • カテゴリ変数の追加は、株価予測AIの“精度と頑健性”を飛躍的に高める強力な工夫
  • 今後は、SHAP値による特徴量重要度の可視化や、「どのカテゴリが最も効いているか?」の深堀り分析も予定

次回もお楽しみに!
前回記事(こちら)で紹介した「分布分析・カテゴリ設計」と合わせてご覧いただくと、より理解が深まります。


さらに理解を深めたい方へ:補足Tips

  • Predicted vs Actual散布図では「点がy=x直線(赤線)に集まる=どんな変動幅でも実測値をしっかり当てている」ことを意味します。相関係数はこの“一致度”の良さを数値で表す重要指標です。
  • 誤差ヒストグラムは「0に山が集まる」ほど、実用的に“外さないAI”になった証拠。分散や尖度も参考指標ですが、中心密度の高さをまず注目しましょう。

Discussion