Numerai 2020Q4炉辺談話メモ

3 min読了の目安(約3500字IDEAアイデア記事

この記事は?

NumeraiのCEOとCTOが2020年10月1日に以下のYouTubeに公開した、炉辺談話 (fireside chat)の中で、個人的に面白いと思った内容のメモです。

https://www.youtube.com/watch?v=mbwMXUzPot4&t=129s&ab_channel=Numerai

正確な一次情報を知りたい方は↑の動画をご覧になってください。

注)Numeraiって何ぞという方は、KagglerへのNumeraiのススメをご覧ください
注)私の英語力の問題で以下の内容が正確ではない可能性があります
注)Numerai signalsについては、私は参加していないので飛ばしていますし、全てのQ&Aを網羅しているわけではありません

メタモデルのパフォーマンスは向上している

NumeraiがTournament参加者に公開している訓練データは2020年2月から変更されていない(!)にも関わらず、Tournament参加者が提出する予測値のアンサンブルモデルであるメタモデルのパフォーマンスは向上している。つまり、Numeraiが参加者にモデル予測をクラウドソーシングする、というヘッジファンドとしては新しいスタイルが機能していることを示している。

特に、上図で薄緑のStake weighted metamodelのパフォーマンスは、Naiveなメタモデルよりも強い、すなわち、参加者は自分のモデルに自信があればよりNMRを掛けるはずなので、よりNMRが掛かっている予測値を重視してアンサンブル(Stake weighted)すれば、ただ全ての予測値を平均する(Naive)よりも良いパフォーマンスが出るはず、という仮説が正しいことがわかる。

注意が必要なのは、評価指標はcorrelation sharpeで、メタモデルでも1前後になっていること。もし自分のモデルのcorrelation sharpeが1.5とかになっていたら、Overfitしている可能性が高いので見直した方が良い。

Staked submission (NMRを掛けた提出)は増加傾向

Numeraiで実際にお金を掛けて自分の予測を提出しているsubmission数は最新のラウンドで815まで増えている(このうち自分は常に10 subしてるので、競技人口まだ少ないですな...?)。

約70%の提出はCORR+MMCになっているらしい。

印象に残ったQ&A

Fireside chatは運営による"Ask me anything"のイベントです(CEOとCTOの背景には、fireside chatらしく?暖炉の炎が燃えている映像が流れていて面白かったです)。いくつか興味深い質問と回答が出たので、まとめておきます。

Numerai運営がトークンのNMRを全て参加者に払ってしまったらどうなる?

Numerai運営としては、500万NMRは参加者への報酬用に確保している。150 milion USドル(150億円くらい)は参加者のコミュニティに払う気があるということ。

ただし、これが(数年先の未来ではあるが)全て参加者に支払われたら...?

Numeraiとしては自身の利益の一部をコミュニティに還元したいと思っているが、現状Numeraiはかなり小さいファンドであり、まだ利益を生むプロダクトを持っていない(いずれは持ちたい)。現在暗号通貨NMRを使用しているのは、利益を出す前にコミュニティに支払いができるから。先のプランはあるが、今はまだ話す段階ではないということ。

アカウントごとのモデルスロット数は増やせないか?

現在アカウントごとに10モデル持てるが、もっと増やしたい要望は多いようなので、増やす予定。

Validation eraを増やしてほしい

現在24 eraがvalidation eraとして提供されているが、過去6ヶ月のマーケットデータをvalidationとして提供するのもいいかもと考えている。ただし、overfitには注意(correlation sharpe >= 1.5とかになったらriskを下げることを考えた方がいい)。

Reputation bonusがなくなったが、別のボーナス体系を考えているか?

Reputation bonus(ランキング上位者にエクストラの報酬を与える仕組み)を含め、あらゆるボーナスの導入はうまくいかないというのが結論。そうした仕組みは攻撃の対象となり、大変なリソースが割かれてしまう(詳しくは言ってなかったが多分なんかあった)。

ボーナスの一案として、掛け金に応じてエキストラのボーナスを導入する案もあると思うが、例えば現在十分強いXGBのExampleに、データサイエンスはよくわからないけどお金は持っている参加者がBetし、例えばSubmissionの80%がExampleになったら、メタモデルは実質的にExmapleと近いものになり、Numerai運営としては嬉しくないし、ちゃんと自分で予測モデルを作っている参加者にフェアではない。

運営としては、新しいボーナスの導入より、データセットをより良いものにすることにフォーカスしたいし、それがコミュニティのためになると信じている。

Numerai tournamentは持続可能か?現在コミュニティへの支払い総額には上限があるが、それを今後下げることは考えているか?

以前Tweetしたように、Numeraiが参加者に支払う金額は1日で300k USドル(3000万円くらい)を超えている。NMRの保有は十分にあるし、上限は下げるというより、上げることを考えている。

↓Tweet
https://twitter.com/richardcraib/status/1309166492211179522?s=20

Live dataでテストしたいので、モデルスロットは10じゃ足りないのだが?

要望が多いのでモデルスロットは増やすが、Live dataでテストしても過去データを使ったバックテストと検証の質は変わらないと考えている。例えば3ヶ月ライブテストして、いいモデルを見つけたとしても、それが今後続くとは限らない。1年ライブテストしても十分ではないだろう。

Numerai運営内のData ScientistはTournamentに参加できるのか?

できる。Numerai Tournamentはゼロサムゲームではないので、従業員が参加してもConflict of Interestに当たらないと考えている。運営内の人間は、一般参加者が手に入らないバックテストデータが手に入るのは確かだが、リーダーボード上位のボーナスも廃止され、運営内の参加者が仮に上位に来ても他の参加者に不利になることはない。多くの運営内のコードはOpen Sourceになっている。Numerai tournamentはあくまで、個人のパフォーマンスによって報酬が決まる仕組みだ。

もしかしてExample modelにStakeするのってNumerai的にダメ?

全然大丈夫だし、自分のモデルのリスクヘッジとして使ってもらって構わない。運営としては、そのStake額によって、どれくらいユーザーが自分のモデルに自信を持っているかわかる。

感想

Fireside chatという概念を初めて知ったのですが、こうして運営側とフランクに対話できる機会っていいですね。コミュニティと運営Winwinになるいいシステムを作りたいという姿勢が伝わってきて好感が持てました。