Top-k recommendationの指標について調査
On Sampling Top-K Recommendation Evaluation
という論文を見つけた
global top-𝐾 Hit-Ratioという指標(とその拡張)に対して、samplingした場合どのように結果が変化するか調査した論文?
abstractにRecently, Rendle has warned that the use of sampling-based top-k metrics might not suffice.
とあるのでサンプリングすることがマイナスに働くことを危惧した上での調査っぽい
データ数が巨大でない場合、サンプリングする必要はないように思われる。(サンプリングすることに懸念も示されているし)
global top-𝐾 Hit-Ratioを提案している論文の被引用数は1668(Google Scholar調べ)と非常に多いため、取り合えずそちらを参考にしてみる。
Twitterでよく使われる指標として挙げられているものがあり、リプライの中でライブラリ群も挙げられていた。
論文などから調べていくと全体像を掴むまで時間がかかりがちなのでライブラリの方から調べていく。
ライブラリによって実装が異なることが懸念されているという話なのでそこは気に留めておく。
ライブラリから調べようかと思ったが、ライブラリの差異を懸念した論文であれば指標について概観できそうなのでそちらは少し読んでみる。
Precision, NDCG using binary relevance, HitRate, MRR being limited by 1などは広くコンセンサスが得られているみたいだが、その他は論文中で定義が不明瞭であったりなどして実装もバラけているみたい。
RecSys
で指標を標準化した方がよいと述べている。
RecSys
という推薦システムのカンファレンスがあるみたい。
推薦システム関連で調べたいことがあればここから探るのも良さそう。
よく考えたらコンセンサスが得られていない指標でもそのドメインで妥当で説明ができるなら問題ないし、実装した指標の定義が書いてあるライブラリを適当に選定する。
人気のないライブラリは実装ミスが見落とされてそうなのでできるだけ人気のあるやつ。
上の論文でGithubのリンクが紹介されていたライブラリ
microsoft/recommenders
はそもそも推薦システム自体を組めるライブラリみたい。
指標だけ利用するのが面倒だったり、評価したいだけなのにライブラリが無駄に巨大になりそう。
huggingface Evaluate top-k
で検索しても、ハズレっぽい検索結果が出てくる。
そもそも推薦システムを作るためのツールセットはあっても、top-kの指標群という括りはナンセンスかもしれない。(専門のカンファレンスでも指標が標準化されてないくらいだし)
使いたい指標を選定して、それを実装したライブラリを探す方が良いかも。
割と隆盛してそうな分野なのにそんなことになるだろうか。
一般的な呼び方とか存在しているのを知らないだけかもしれない。
hit rateなどいくつかの指標の実装記事が出てきた。
Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently?
でgithubのリンクが紹介されていないものも調べたらリポジトリが出てきた。
今回行いたいタスクがTop-k recommendationで一般的に行われているタスクとはズレていたので調査を終了。