次バスケット推薦アルゴリズム(MMNR)の紹介&MISUMIデータでの実装について
はじめに
こんにちは。ミスミグループ本社Gateway推進本部でAIエンジニアを務めているデンと申します。今回は、SIGIR 2023で発表された次バスケット推薦(Next-basket Recommendation, NBR)アルゴリズム『Multi-view Multi-aspect Neural Networks for Next-basket Recommendation(MMNR)』について、ミスミのデータを用いた実装結果を交えてご紹介いたします。
背景
NBRは、ユーザーの過去のバスケット履歴に基づいて、次に購入する可能性のある商品群を推薦する手法です。従来の推薦手法(協調フィルタリング、コンテンツベースの推薦、行列分解など)は単一の商品に焦点を当てることが多いです。例えば:
協調フィルタリング(Collaborative Filtering):過去のユーザー行動に基づいて、次に購入する単一の商品を推薦します。
コンテンツベースの推薦(Content-based Filtering):商品の属性情報を基に、ユーザーに適した単一の商品を推薦します。
行列分解(Matrix Factorization):ユーザーと商品の交互作用を解析し、ユーザーに合う単一の商品を推薦します。
NBRは、複数の商品を含む「バスケット」を推薦します。これは、ECサイトなどの実際の購買行動により近いアプローチです。
課題と挑戦
従来のNBR手法には、次の2つの主要な課題があります。
- 低レベルの関連性の無視: 従来のNBR手法では、ユーザーの関心を一括りに捉える傾向があり、商品の特定の側面(色、形状など)に対するユーザーの関心を十分に考慮していません。これにより、推薦精度が低下する可能性があります。
- 虚偽の興味の問題: 繰り返し購入される商品がユーザーの興味を反映していると仮定されていますが、実際には購入頻度に過度に依存しているため、異なるユーザー間での興味の違いを捉えきれていません。例えば、ある商品に対して、ショッピング好きの人とミニマリストが同じ回数の購入を繰り返していたとします。しかし、彼らのその商品に対する興味の度合いは異なる可能性があります。つまり、購入回数が同じであっても、ミニマリストの方がショッピング好きよりもその商品に強い興味を持っていると考えられます。同様に、売れ行きの早い商品と遅い商品を同じ回数購入しても、ユーザーが後者により強い興味を示していることが多いです。このように、購入回数だけではユーザーの本質的な興味を十分に捉えることはできません。
アルゴリズムの概要
これらの課題に対処するために、MMNRアルゴリズムは新しいアプローチを提案しています。このアルゴリズムは、まずユーザーと商品の両方の視点からインタラクションを正規化します。次に、虚偽の興味を取り除きます。その上で、商品を多角的に表現し、ユーザーの細かい興味を学習します。主なアイデアは次のとおりです。
- 多視点埋め込み: ユーザーと商品の視点から商品を埋め込みます。例えば、ユーザー1とユーザー2が特定の商品(例: 赤いカップ)に対して、それぞれ3回と6回のインタラクションがあったとします。単純に見ると、ユーザー2の方がその赤いカップに強い興味を持っているように見えます。しかし、ユーザー側の正規化されたインタラクション重み(NIU)によれば、実際には彼らの興味は同じレベルです。同様に、ユーザー1が猫型のお皿とアヒル型のカップにそれぞれ1回のインタラクションをした場合、表面上は同じ興味を持っているように見えますが、商品側の正規化インタラクション重み(NII)によると、ユーザー1はアヒル型のカップに対してより強い興味(0.5)を持っており、猫型のお皿に対する興味(0.1)はそれほど高くありません。正規化されたインタラクション重み(NIUとNII)を用いて、商品ごとにユーザー視点と商品視点のエンベディングが生成されます。これにより、ユーザーが商品に対して持つ興味が、異なる視点から表現され、より精度の高い推薦が可能になります。
- 多方面表現学習: スライディングウィンドウを使用して、商品の周囲にある他の商品が持つ方面を十分に探索し、低レベルな商品の関連性を捉えます。例えば、あるユーザーのバスケットにTシャツ、ズボン、靴が入っている場合、これらの商品には潜在的な関連性があると考えられます。
- 対比学習: 異なる視点からのユーザー興味を比較し、精度の高い興味モデルを構築します。
アルゴリズムの効果
MMNRアルゴリズムは、複数の実データセットで最先端の手法と比較して優れたパフォーマンスを発揮しています。特に、細かいユーザーの興味を捉え、虚偽の興味を排除する能力において顕著な効果を示しました。これは、購入頻度に左右されず、ユーザーの真の関心を捉えることで実現されています。例えば、購入頻度が高い商品でも、ユーザーの本質的な興味を反映していない場合は排除し、より正確な推薦結果を提供します。
データの適用例
ミスミの1週間の購買履歴データを用いて、すべての取引で購入されたアイテムを1つのバスケットとして扱いました。各ユーザーごとにバスケットを時間順に並べ替え、最後のバスケットをテストセット、最後から2番目を検証セット、残りをトレーニングセットとして使用しました。また、トレーニング前に前処理を行い、バスケット数が4未満のユーザーや、カテゴリ数または商品数が5未満のバスケットは除外しました。
結果
結果は以下の通りです。(データセットTaFeng、Dunnhumby、ValuedShopper、Retailrocketでの結果は論文に記載されているものです)
評価指標 | Recall@5 | Recall@10 | NDCG@5 | NDCG@10 |
---|---|---|---|---|
TaFeng | 11.40 | 15.21 | 14.06 | 14.47 |
Dunnhumby | 15.65 | 21.24 | 17.92 | 19.00 |
ValuedShopper | 15.11 | 21.03 | 26.20 | 25.07 |
Retailrocket | 15.53 | 23.09 | 32.29 | 31.25 |
MISUMI(カテゴリ) | 23.97 | 39.97 | 49.65 | 48.68 |
MISUMI(商品) | 15.28 | 24.69 | 35.47 | 33.60 |
当社のカテゴリ単位データでは、公開データセットよりも高い精度が達成されました。商品単位でも、Recall@5を除き、公開データセットよりも高い精度が確認されました。
MISUMIデータと公開データセットの比較および効果の分析
MISUMIデータは公開データセットとデータの種類やシナリオに違いがありますが、以下の点がMMNRアルゴリズムがMISUMIデータでより良いパフォーマンスを示す理由と考えられます。
シナリオの違い:
MISUMIデータはB2BのECシナリオに基づいており、公開データセットのほとんどがB2Cシナリオです。B2Bの顧客は購買行動がより規則的で、意思決定は理性的であり、取り扱う製品も集中しています。そのため、MMNRはMISUMIデータにおいて、顧客の真のニーズをより効果的に捉えることができます。一方、B2Cのデータでは、消費者の行動は多様で予測が難しく、これが公開データセットでのパフォーマンスに影響を与えています。
時間の影響:
MISUMIデータは1週間の短期間のデータであり、顧客の最新のニーズを反映していますが、公開データセットは4か月から2年の長期データです。長期データには、過去の行動に基づくノイズが多く含まれており、現在のニーズを予測する精度が下がる可能性があります。これにより、短期間のMISUMIデータでMMNRがより高い精度を示していると考えられます。
多様性:
MISUMIはドメイン領域が専門特化しており、顧客行動は限定されています。また、製品や顧客の種類が固定されているため、アルゴリズムのトレーニングにおける複雑さやノイズが少なくなっています。これに対し、公開データセットは、顧客行動が多様であるため、MMNRは変数の増加により、若干のパフォーマンス低下を引き起こすことがあります。
B2Bの購買行動の予測可能性:
B2Bの顧客は、長期的な取引関係と安定した購買ニーズを持つことが多いため、MMNRアルゴリズムをもちいると短期間の顧客行動で将来のニーズを正確に予測できます。一方、B2Cでは、消費者の行動はプロモーションや感情など多くの要因に左右されるため、予測の難しさが増します。
これらの点から、MISUMIデータの特性により、MMNRは顧客のニーズを捉え、推薦する際により良い効果を発揮しています。したがって、MISUMIデータと公開データセットのシナリオが異なるものの、結果は妥当であり、優れたパフォーマンスはこれらのデータの特性に起因しています。
精度向上の可能性
今回の実験では、論文で使用されたハイパーパラメータをそのまま採用しましたが、調整することでさらなる精度向上が期待されます。例えば、バッチサイズを20から100に変更することで、精度が2〜3%向上しました。また、データの集計期間を延長することで、さらなる改善が見込まれると考えられます。
実装の感想
実装において、重複性(Repetition)と新奇性(Exploration)のバランスが重要な課題として浮かび上がりました。当社のカテゴリ単位のデータでの新奇性(正しく推薦された新しい商品数/正解値にある新しい商品数)はわずか0.43%、商品単位のデータでは0.21%にとどまっています。MMNRは精度面で優れているものの、新奇性にはまだ改善の余地があると感じています。新奇性を向上させるために、他のアルゴリズムの検討が必要かもしれません。
まとめ
今回は、SIGIR 2023で発表されたアルゴリズム『Multi-view Multi-aspect Neural Networks for Next-basket Recommendation(MMNR)』について紹介し、ミスミのデータを用いた実装結果を共有いたしました。組み合わせ推薦の参考になれば幸いです。私たちと一緒に検索および推薦アルゴリズムの研究開発に取り組んでみたい方は、ぜひお気軽にご連絡ください!また、中途採用も随時募集しておりますので、ご興味のある方はぜひご応募ください。
Discussion