📝

AmazonのCOSMOという論文を読む

2024/12/05に公開

論文リンク

https://www.amazon.science/publications/cosmo-a-large-scale-e-commerce-common-sense-knowledge-generation-and-serving-system-at-amazon

SIGMOD/PODS 2024で発表されたものらしいです。

著者

Changlong Yu、Xin Liu、Jefferson Maia、Tianyu Cao、Laurence (Yang) Li、Yifan Gao、Yangqiu Song、Rahul Goutam、Haiyang Zhang、Bing ying、Zheng Li

投稿日付

2024/6/9-15

中身

COSMO:業界規模の知識グラフを構築し、さまざまなオンラインサービスを強化するスケーラブルなシステム

  • 知識グラフをAmazonの18の主要カテゴリに拡張し、わずか3万のannotated instructionsで何百万もの高品質な知識を生み出す
  • オフラインとオンラインの両方のA/Bテストで大幅な改善を達成していることが実証された

ユーザーの意図を正確に捉えることで電子商取引プラットフォームはよりインテリジェントでユーザーフレンドリーになり、説明可能なレコメンデーションやパーソナライズされた検索体験を提供できる

  • 例:結婚式に行く→フォーマルな服を買う において、結婚式に行くという意図を捉えられると改善する

取り組みでの主な貢献

  • LLMを採用して高品質な知識グラフを構築し、オンラインアプリケーションを提供する画用開発の知識システム
  • 効果的なeコマース常識知識生成のための指示チューニングを採用
  • eコマースの意図知識を何百万ものユーザー行動に拡大し、より少ないアノテーションで高品質な指示データ生成を実現
  • 生成されたintention knowledgeを3つのeコマースタスクに適用し、有望な実験結果を得た

フレームワークの内容

ナレッジ生成のためのInstruction dataを生成:ユーザー行動、クエリ、購入品目、アウトプットからなる
image

  • 常識的な知識:(h:ユーザー行動, r:関係性, t:tail)からなる

    • ユーザー行動:検索して購入するパターンとco-buy(一緒に買う)パターンに分類
    • 関係性:ユーザー行動とtailの関係性
    • tail:ユーザーの意図に該当していると思う
  • これらの一連の流れのデータを生成する:ユーザーのクエリ入力と購入した商品から意図を推測するプロンプトの例↓
    image

  • 生成した後、データをフィルタリングしてノイズを除去

    • ルールベースのフィルタリング
    • コサイン類似度によるフィルタリング
  • その後人間によるアノテーションを行い、知識候補に対する人間のフィードバックを実施

    • 検索購入の35%、共同購入の9%が妥当性を満たす
      image
  • 機能ストアと非同期キャッシュストアを中心にデプロイ戦略を実施
    image

検証

COSMOの有効性を3つのケースで検証を実施

  • 検索関連性:検索-購入行動の間のギャップをCOSMOの知識で補い、検索関連性予測を強化

    • PublicデータセットにおいてもPrivateデータセットにおいても、COSMO-LMから生成された知識によって性能向上が示された
      image
      image
  • セッションベース推薦

    • タスク:匿名の行動シーケンスが与えられた時に、製品アイテムセットから次にクリックまたは購入されるアイテムを予測
    • 検索クエリと各検索ー製品ペアに対してCOSMO-LMから生成された知識を活用することで改善
    • 実験:COSMO-GNNを提案し、検索意図を考慮した推薦のGNNを最適化
      • 2つのドメイン(衣料品・電化製品)において、競合ベースラインを優位に上回り、MRR@10でもほぼ全てのベースラインに匹敵
      • 複雑で多様な検索シーケンスを持つセッションデータ(電化製品)において大きな改善:電化製品の方がユーザー意図理解が大変
        image
  • 検索ナビゲーション:COSMOによって顧客クエリの意図コンセプトが動的に分類され、意図コンセプトが製品コンセプトにリンクされるようになる→製品中心から顧客中心のアプローチへ

    • COSMOのナビゲーションシステムの特徴

      • 講義の概念解釈:ドメイン知識なしで幅広いユーザーの意図をカバーし、顧客行動インサイトと応用分析によって広いクエリに対処
      • 製品タイプとサブタイプの発見:ユーザーが特定の製品タイプとサブタイプを識別するのをCOSMOが支援
      • 属性ベースの絞り込み:ユーザーが特定の属性に基づいてフィルタリングし、結果を個々の好みに合わせられる
        image
    • マルチターンナビゲーション:複数回の検索絞り込みを提供でき、ユーザーの検索体験を大幅向上

      • 例)キャンプ→エアマットレス→キャンプ用エアマットレス→様々なキャンプに合わせたエアマットレス
    • 検証:COSMOを検索ナビゲーションシステムに統合し、A/Bテストを実施

      • 対象セグメント内の製品売り上げが0.7%増加(数億ドルの売り上げ増)
      • ナビゲーションエンゲージメント率が8%増加し、顧客とのインタラクションと満足度が向上

感想

データセットの作り方、データの処理、指示チューニング、システムへのデプロイ、下流タスクでの評価といったように、一連の流れを全て抑えてあり、かなり密度の濃い論文だと思った。詳細への理解度は低いが、理論〜実用まで一貫した取り組みとしてとても面白いと思った。
これらを全て一気通貫でやれるAmazonの資産すごい。

Discussion