💭

GMOmediaインターンシップ体験記:アフィリエイト予測システムを構築した10日間

に公開

はじめに

2025年夏、私はGMOメディアのAIデータ推進チームで10日間の就業型インターンシップに参加しました。
テーマは「アフィリエイトマーケティングにおける予測システムの構築」でした。
現場の業務に直結する課題に取り組みながら、データ分析・機械学習・GCP活用を総合的に経験できる貴重な機会でした。


プロジェクト概要

アフィリエイト案件の発生から承認までにはタイムラグがあります。
現状ではこの承認時期を担当者が手動で予測しており、業務負担や精度面の課題がありました。

そこで今回のプロジェクトでは以下を自動化しました。

  1. 承認/否認予測(分類タスク)
  2. 承認時期予測(日単位・月単位)(回帰タスク)

目的

  • 案件が承認されるか否かを事前に予測し、非効率な広告投資を回避
  • 売上が計上される時期を予測し、キャッシュフロー計画を高精度化

技術スタック

  • 言語/ライブラリ: Python, scikit-learn, LightGBM, pandas, numpy
  • クラウド: Google Cloud Platform (BigQuery, Cloud Storage)
  • 分析可視化: matplotlib, seaborn
  • 学習方式: アンサンブル学習 + 特徴量エンジニアリング

技術的工夫

1. データリーク防止

  • 発生日時点で利用可能な情報のみ使用
  • 承認日など未来情報を学習データから排除

2. 特徴量エンジニアリング

  • 時間的特徴:曜日、時間帯、月末/月初、季節イベントなど
  • 金額特徴:対数変換でスケーリング
  • 承認期間特徴:文字を数値にマッピング
  • テキスト特徴:案件説明文のTF-IDFベクトル化
  • 交互作用特徴:高額案件×月末、週末×営業時間外 など

3. 信頼度スコアの導入

  • 予測確率から「高・中・低」信頼度を算出
  • 信頼度に応じてモデルや補正ロジックを切り替え精度を向上

4. BigQuery I/O 自動化

  • スキーマ定義&テーブル自動作成
  • 重複テーブル排除
  • 新規データのみをInsertし、品質を担保

成果(公開可能な範囲で概算)

  • 承認/否認予測モデル:精度 約96%、AUC 約96%、F1スコア 約97%
  • 承認時期予測(日数):MAE 約1〜2日
  • 承認時期予測(月単位):正解率 約96%(高信頼データでは99%超)

この結果により、

  • 月次キャッシュフロー計画の高精度化
  • 予測結果の自動集計とスプレッドシート共有による業務効率化
    が実現しました。

学びと今後の展望

  • 学び

    • モデル精度だけでなく、ビジネス活用を前提とした設計の重要性
    • BigQueryと機械学習の統合によるMLOpsの一端を実体験
    • 「なぜやるのか」「どう貢献するのか」を意識して開発を進める姿勢
  • 今後の改善案

    • ユーザー属性や行動データの追加
    • SHAPなどを用いた説明可能AI(XAI)の導入
    • 低信頼度予測の精度向上
    • 不正検知への応用検討

まとめ

短期間ながら、実データを用いて事業価値を生むシステムを構築できたことは非常に大きな経験でした。
特に、技術力だけでなくビジネス視点を持ち、関係者が活用できる形に落とし込むプロセスを体験できたことは今後のキャリアに直結すると感じています。
この経験を糧に、AIエンジニアとしてさらに成長していきます。

Discussion