Closed22

Top-k recommendationの指標について調査

nknk

global top-𝐾 Hit-Ratioという指標(とその拡張)に対して、samplingした場合どのように結果が変化するか調査した論文?

nknk

abstractにRecently, Rendle has warned that the use of sampling-based top-k metrics might not suffice.とあるのでサンプリングすることがマイナスに働くことを危惧した上での調査っぽい

nknk

データ数が巨大でない場合、サンプリングする必要はないように思われる。(サンプリングすることに懸念も示されているし)
global top-𝐾 Hit-Ratioを提案している論文の被引用数は1668(Google Scholar調べ)と非常に多いため、取り合えずそちらを参考にしてみる。

nknk

Twitterでよく使われる指標として挙げられているものがあり、リプライの中でライブラリ群も挙げられていた。
論文などから調べていくと全体像を掴むまで時間がかかりがちなのでライブラリの方から調べていく。
https://twitter.com/amber_kshz/status/1491371751145902083?s=20&t=drV6c5DFOo8EqZ3YMWHuEA

https://twitter.com/amber_kshz/status/1491372256525651968?s=20&t=drV6c5DFOo8EqZ3YMWHuEA

nknk

ライブラリによって実装が異なることが懸念されているという話なのでそこは気に留めておく。

nknk

ライブラリから調べようかと思ったが、ライブラリの差異を懸念した論文であれば指標について概観できそうなのでそちらは少し読んでみる。
https://arxiv.org/abs/2206.12858

nknk

Precision, NDCG using binary relevance, HitRate, MRR being limited by 1などは広くコンセンサスが得られているみたいだが、その他は論文中で定義が不明瞭であったりなどして実装もバラけているみたい。
RecSysで指標を標準化した方がよいと述べている。

nknk

よく考えたらコンセンサスが得られていない指標でもそのドメインで妥当で説明ができるなら問題ないし、実装した指標の定義が書いてあるライブラリを適当に選定する。

nknk

人気のないライブラリは実装ミスが見落とされてそうなのでできるだけ人気のあるやつ。

nknk
nknk

Darel13712/rs_metrics以外は推薦システム自体を組むためのライブラリっぽい。

nknk

microsoft/recommendersはそもそも推薦システム自体を組めるライブラリみたい。
指標だけ利用するのが面倒だったり、評価したいだけなのにライブラリが無駄に巨大になりそう。

nknk

huggingface Evaluate top-kで検索しても、ハズレっぽい検索結果が出てくる。
そもそも推薦システムを作るためのツールセットはあっても、top-kの指標群という括りはナンセンスかもしれない。(専門のカンファレンスでも指標が標準化されてないくらいだし)
使いたい指標を選定して、それを実装したライブラリを探す方が良いかも。

nknk

割と隆盛してそうな分野なのにそんなことになるだろうか。
一般的な呼び方とか存在しているのを知らないだけかもしれない。

nknk

今回行いたいタスクがTop-k recommendationで一般的に行われているタスクとはズレていたので調査を終了。

このスクラップは2023/02/16にクローズされました