🎬
「次に何を見るか」より「なぜ見たいか」Netflixの推薦システム FM-Intentから学べる事

2025/05/30に公開
 「次に何を見るか」に加えて「なぜ見たかの意図」を予測Netflix Technology Blogが2025年5月に発表した技術記事で、同社の新しい推薦システム「FM-Intent」の設計思想と技術的詳細が公開されました。
https://netflixtechblog.com/fm-intent-predicting-user-session-intent-with-hierarchical-multi-task-learning-94c75e18f4b8
このモデルは、従来の「次に見るコンテンツ予測」に加えて「ユーザーのセッション意図」を階層的に予測する革新的なアプローチを提案しており、推薦精度の大幅な改善を実現しています。
本記事では、FM-Intentがどのような課題を解決し、どのような技術的手法でその解決を図っているのかを整理しました。

 Foundation Modelの限界と「意図予測」の必要性Netflixは以前から基盤モデル（Foundation Model, FM）を活用した推薦システムを運用していましたが、このモデルには重要な課題がありました。
従来FMの課題
ユーザーの行動履歴から次のアイテムを予測するが、「なぜそのコンテンツを求めているのか」という意図は捉えられない
短期的な行動パターンに基づく予測が中心で、セッション全体の文脈を理解できない
推薦の精度向上に限界があった
実務者なら必ず経験する課題：「クリック率は上がったけど、満足度が下がった」「A/Bテストで勝ったのに、なぜかリテンションが悪化」。これらの現象の根本原因は、ユーザーの本当の意図と推薦内容のミスマッチにあることが多いです。
この課題に対し、Netflixは「ユーザーの意図を明示的に予測し、その意図を活用してアイテム推薦を行う」というアプローチを提案しました。これがFM-Intentです。

 意図の定義：4つのプロキシで複雑な意図を分解FM-Intentでは、ユーザーの「意図」を以下の4つのメタデータの組み合わせで定義しています。
1. Action Type（行動タイプ）
「視聴開始」「一時停止」「スキップ」「お気に入り追加」など
ユーザーがコンテンツとどのように関わっているかを表現
2. Genre Preference（ジャンル嗜好）
「コメディ」「ドラマ」「ドキュメンタリー」など
現在のセッションでユーザーが求めるコンテンツのジャンル
3. Movie/Show（映画/TV番組の選好）
映画形式を好むか、連続性のあるTV番組を好むか
セッションの継続性や時間的制約を反映
4. Time-since-release（リリースからの経過時間）
「新作コンテンツ」「懐かしのコンテンツ」など
ユーザーの新規性・ノスタルジア志向を把握
この4次元の組み合わせにより、例えば「今夜は軽い気分でコメディ映画の新作を見たい」といった複雑な意図を数値化して捉えることが可能になります。
プロキシ設計の現実的な知見：「ユーザーの意図」なんて測れるわけないと思いがちですが、Netflixのアプローチは非常に実用的。我々データ職も「売上を上げたい」という曖昧な要求を「どの商品カテゴリの、どの価格帯で、どのチャネルから」のような観測可能な要素に分解して分析しますよね。同じ発想です。

 階層的マルチタスク学習：意図→アイテムの2段階予測FM-Intentの最大の特徴は、階層的な予測構造です。従来のマルチタスク学習では意図予測とアイテム予測を並列で行っていましたが、FM-Intentでは意図予測を先に実行し、その結果をアイテム予測に明示的に活用します。
実装時のハマりポイントを回避：マルチタスク学習を本番導入した経験がある方なら分かると思いますが、複数の損失関数の重み調整って本当に面倒ですよね。階層的にすることで「意図理解→アイテム選択」という論理的な順序が明確になり、重み調整の方針も立てやすくなります。

 アーキテクチャの核心部分1. Input Feature Construction（入力特徴構築）
ユーザーの行動履歴とメタデータを組み合わせて豊富な入力特徴を作成
カテゴリカル埋め込みと数値特徴の融合
2. Intent Prediction Component（意図予測コンポーネント）

Transformer Encoderを使用してシーケンス処理
マルチヘッドアテンション機構でユーザーの長期的興味をモデル化
4つの意図プロキシそれぞれに対する予測ヘッドを持つ

アテンション・ベースのアグリゲーションで個別の意図予測を統合
3. Item Prediction Component（アイテム予測コンポーネント）
意図予測の結果を明示的に入力として受け取る
意図情報と行動履歴を組み合わせて次のアイテムを予測

 短期・長期興味の統合FM-Intentは、ユーザーの興味を以下のように区別して処理します：

長期的興味: Transformerの全履歴処理により捉える

短期的興味: 直近H時間の行動を特別扱いし、現在のセッション文脈を強調
この組み合わせにより、「普段はアクション映画好きだが、今夜はリラックスしたくてコメディを求めている」といった状況を適切に理解できます。
特徴量エンジニアリングの勘所：「直近H時間」というウィンドウ設計、実務でよく悩みませんか？ Netflixは固定長ではなくタイムスタンプベースの動的ウィンドウを採用。これ、不規則なユーザー行動に対応するための地味に重要な設計判断です。

 実験結果：SOTA手法を大幅に上回る性能NetflixはFM-Intentを同社のユーザーエンゲージメントデータで評価し、以下の結果を得ました。
ベースライン比較

TransAct（従来のSOTA手法）対比で大幅な改善

LSTM、GRU、Transformerベースラインも上回る
本番運用中のFMモデル（FM-Intent-V0）からも性能向上
アブレーション研究の知見
階層的学習構造の有効性を確認

Action Type予測が次アイテム予測に最も重要
短期的モデリングとの組み合わせが最高性能
実務上重要なのは、FM-Intentが従来の基盤モデルよりも小規模なデータセットで訓練されているにも関わらず、より高い性能を達成している点です。これは階層的な予測構造の効率性を示しています。
データ量vs.モデル設計の現実：「データさえ増やせば精度が上がる」と思いがちですが、Netflixの結果は違います。適切な問題設定とアーキテクチャ設計の方が、しばしばデータ量よりも重要。限られたデータでも成果を出さなければならない我々にとって、勇気をもらえる結果ですね。

 損失関数の設計：複数タスクの最適なバランスFM-Intentでは以下の損失関数を組み合わせています：

次アイテム予測: クロスエントロピー損失（インタラクション継続時間で重み付け）

意図予測: マルチラベル分類のためのバイナリクロスエントロピー損失

全体最適化: ハイパーパラメータλで意図予測とアイテム予測の重要度を調整
この設計により、意図理解とアイテム推薦の両方を効果的に学習できます。
損失関数設計の実践的ポイント：インタラクション継続時間での重み付け、これ地味に重要です。「3秒で離脱したクリック」と「最後まで視聴したクリック」を同じ重みで扱うなんて、よく考えたらおかしいですよね。でも実装時に忘れがちな観点です。

 実務への示唆：意図予測が開く新たな可能性FM-Intentのアプローチは、推薦システム全般に以下の示唆を与えます。
1. 意図の明示的モデリングの価値

従来の「過去の行動→次の行動」という直接的な予測から、「過去の行動→現在の意図→次の行動」という間接的だがより解釈可能な予測への転換。これにより、なぜその推薦をしたのかの説明が容易になります。
ビジネスサイドとの会話が変わる：「なぜこの商品を推薦したんですか？」と聞かれたとき、「このユーザーは価格重視で実用性を求める意図があり...」と説明できるのと、「過去の購買パターンが類似していて...」と説明するのでは、納得感が全然違います。
2. 階層的学習の効率性

意図予測を先に行い、その結果をアイテム予測に活用する階層的アプローチは、単純な並列マルチタスク学習よりも効果的。意図という中間表現が、より良い汎化性能をもたらします。
運用時の安定性にも寄与：中間の意図予測結果をモニタリング指標として使えるのも実務的なメリット。「推薦精度が下がった」とき、「意図理解は正常だがアイテム選択に問題」なのか「意図理解自体が狂った」のかが分かりやすくなります。
3. プロキシ設計の重要性

直接観測できない「意図」を、観測可能な複数のメタデータで代替する設計思想。各ドメインの特性に応じて適切なプロキシを選択することが成功の鍵となります。
ドメイン知識とデータの橋渡し：「ユーザーはなぜこの行動をとったのか？」という仮説を、データで検証可能な形に落とし込む作業。これ、普段我々がビジネス要求を分析要求に翻訳する作業と本質的に同じですよね。ドメイン知識がないと絶対にできない部分です。

 おわりにNetflixのFM-Intentは、推薦システムの新たな可能性を示した重要な研究です。単純な行動予測から意図理解への発展は、より人間らしい、文脈を理解した推薦システムの実現につながります。
特に印象的なのは、「技術的複雑さの背後にある明確な課題意識」です。ユーザーの意図を理解することで、より満足度の高い推薦を提供したいという目標が、階層的マルチタスク学習という技術選択を明確に導いています。
推薦システムの分野では、大規模化とパフォーマンス改善が注目されがちですが、FM-Intentが示すように「何を解決したいのか」という根本的な問題設定の見直しこそが、真のブレークスルーをもたらすのかもしれません。
実務者として：新しい手法を見るたび「うちでも使えないかな」と考えがちですが、FM-Intentから学ぶべきは具体的な技術よりも「問題の捉え方」だと思います。「精度を上げたい」ではなく「なぜユーザーが離脱するのか」「真に価値のある推薦とは何か」という本質的な問いから始める姿勢。これこそが、技術的負債の山に埋もれがちな我々が見習うべき点ではないでしょうか。
「次に何を見るか」に加えて「なぜ見たかの意図」を予測

Foundation Modelの限界と「意図予測」の必要性

意図の定義：4つのプロキシで複雑な意図を分解

階層的マルチタスク学習：意図→アイテムの2段階予測

アーキテクチャの核心部分

短期・長期興味の統合

実験結果：SOTA手法を大幅に上回る性能

損失関数の設計：複数タスクの最適なバランス

実務への示唆：意図予測が開く新たな可能性

おわりに

Discussion