NumerCon2022メモ
NumerConでNumerai社員のみが着用できる紫のマントを身にまとうリチャードCEOとその仲間たち
この記事は?
Numeraiの毎年の一大イベントであるNumerConが、4/1日にサンフランシスコで開催されました。
自分自身は参加していませんでしたが、代わりに日本で有志が集ってみんなでNumerConを観る会を開催し、お寿司を食べて大いに盛り上がりました。
Numerai参加者にとってはかなり重要なイベントであり、いくつか新情報も出ましたので、簡単にですが大事そうな内容に絞ってまとめたいと思います。
自分の英語力の関係でこの記事の内容が正確である保証はありません。なるべく↑の元動画をご覧ください。
NumerCon2022
True Contribution, V4 data, benchmark models...!
Richard Craib, Founder and CEO of Numerai
まずは、Numerai CEOであるリチャードのトークからスタート
「参加者の10人に1人はkaggle grandmasterなんじゃないか?笑」
「参加者はいろんな国からNumerConに参加している。日本では夜中の3時だがliveで観ている人もいる」
などとNumeraiコミュニティの質の高さ、充実ぶりをアピールしつつ、Numeraiのmaster planの紹介をしました。
提出されたモデル数、stake額が拡大していることに言及しつつ、真にNumeraiのメタモデル(Numeraiが参加者の予測値をアンサンブルし実際に運用に使っているモデル予測値のこと)をよりインテリジェントなものにしていくためには、今までの評価指標(CORR, MMC, FNCなど)は上手くいかなかったことを告白。
そこでTC (True Contribution)を評価指標として発明、導入し、Numeraiのインテリジェンス(要は運営収益)に貢献している予測値により報酬を支払えるような仕組みを導入したことを述べていました。
TCの概念としては、Numerai参加者が予測を提出し、自信があればNMRをstakeし、その加重平均でアンサンブルが行われ、optimizerによってポートフォリオが構成され、ファンドによってロングショートで運用されて利益が生まれる、という一連のNumeraiの流れを1つのニューラルネットワーク(NN)に見立て、
参加者のstake額をNNの重みとしたときの、運用益の勾配
を計算することができれば、Numeraiはファンドに貢献している予測値により報酬を与えることができるようになるのでは、というもので、運営のバックテストによると様々な良い結果が出ているということです。
TCへのstakingは(既にアナウンス済みでしたが)4/9より始めることを発表しました。
Michael Oliver, Chief Scientist of Numerai
TCはとても大事なので、Numeraiのchief scientist Michael Oliver (MDOとしてforum等でDS関連の知見を共有してくれる人で有名。Computational neuroscienceの博士号持ち)にバトンタッチして詳細の説明が始まりました。
- TCはポートフォリオを改善した予測値に報いる
- 自身の予測値(signal)のみならず、optimizerやその他の予測値全てに依存する
- 参加者と運営のインセンティブが一致する
というTCの性質から説明をスタート。
TCの計算方法としては、リチャードもちょっと言っていましたが、
参加者のstake額をNNの重みとしたときの、運用益の勾配
で、それをTCとして参加者にフィードバックするということです。
実装としては、cvxpylayersのlayerをoptimizerに挟むことで、実際にpytorchのモデルで運用益の勾配の計算を可能にする、ということで、使用しているコードの一部も公開していました。
TCは説明があったように、自身の予測値とtargetの関係だけでは決まらず、Numeraiが持つoptimizerや他の参加者の予測値にも依存するため、localで再現することが基本的に不可能です。そのため、トークの最後にTCをどうやって上げるかについて指針を示していました。
TC
- 与えられた特徴量によって線形に説明できない予測であること
- (Numeraiが実際に運用する銘柄に該当する)TOP or BOTTOMの予測値の精度が高いこと
- 予測値が単一特徴量に対して低い、あるいは中程度の相関しか持たないこと
- ユニークであること
(もう単一特徴量出してうひょーはダメってことだお)
Michael Phillips, Minister of Data in Numerai
Master planのうち"monopolize data"(データを独占する)について、Numeraiはすでに大きな進捗を見せていることを強調していました(2020年以降特徴量の数は3倍、レコード数は4倍になった)。
Numeraiのデータチームとしての仕事は2つあることを説明しました。
- ユーザによりたくさんのデータを提供すること
- ユーザによりたくさんのアイデアを共有すること
1(ユーザによりたくさんのデータを提供すること)について、V4データのリリースが発表されました (2022/04/05 start)。
いままでtrain, validation, test, liveと分かれていたデータのうち、testをラベル付きで提供する(testという区分がなくなる)ことで、ユーザにラベル付きデータをより多く提供するだけでなく、より最近のデータを使ってモデルを訓練することができるようになります。
毎週データセットが更新される(resolve済みラウンドのデータがラベル付きで追加されていく)ということです。
2(ユーザによりたくさんのアイデアを共有すること)について、Benchmark modelsのリリースが発表されました。
今までforum等に散らかっていたモデリングアイデアを一か所にまとめ、コードをオープンソースにし、過去2年以上の成績(TC含む)が閲覧でき、そしてAPI経由でそれらのモデル予測値を毎週ダウンロード可能になる(!?)、というのがbenchmark modelsのアイデアです。
これによりユーザは明らかに自身のモデリングなどの研究が捗り、結果的にNumeraiのメタモデルが大きく向上することを期待しているそうです。Forumに落ちていたアイデアを自分で実装してみて、提出してみて、良さそうならstakeしてみて...とやっていると、数か月以上かかってしまい、meta modelにとってもユーザにとっても良くないので、運営側でまとめてしまおう、ということらしいです。
1, 2共に、ユーザが高いTCを取るために運営ができることは何でもする、という強い意志が伝わってきます。
そしてとうとう、stake-weighted meta modelのスコアも毎週公開されるそうです(ここで歓喜する観客)。これでユーザは自分のパフォーマンスとメタモデルのパフォーマンスを比べ、様々な実験をすることができますね。
Michael Oliver, Chief Scientist of Numerai(2回目)
データ数を増やせば、パフォーマンスは上がります。一方で、株価のデータはせいぜい30年分くらいしかありません。
では例えばメタモデルのパフォーマンスをさらに向上させるため、100万年分のデータを得るにはどうしたらいいか?
2度目の登場となるMichael Oliverが、synthetic data(人工的に作られたデータ)について語りました。
一般的に、こういったdata augmentationは特徴量とターゲットの同時確率分布 (joint distribution)が全てであり、画像系のタスクだとdata augmentationが非常に良く効くことを述べていました。
一方で、Numeraiデータにおける特徴量とターゲットの関係は非常に複雑な分布であり、潜在空間にmapすると↓のようなポテトみたいなものにしかならなかったそうです。
このdata augmentationにおいても、コミュニティの貢献を期待する、ということでした。
外部枠
ここから2組はNumerai外の方が講演されました(ネタ枠)。
CrowdCent
Signalsで莫大な金額をstakeしていることで有名なCrowdCentですが、今回のNumerConでメンバーが講演しました。
CrowdCentはNumerai参加者がNumeraiというヘッジファンドの上に設立したヘッジファンドであり、NMRを資金調達してNumeraiコンペで運用することで、保有NMRを最大化することを目的としている会社です(ありがとうございますありがとうございます)。
今回のトークでは、NumerBoxというNumeraiにより簡単に取り組むためのwrapperを作ったことを報告しました。
今後、NumerBayとの統合や、NLP(自然言語処理)、生成モデル等も取り入れていく予定だということです。
Jo-Fai Chow, Data Scientist @H2O.ai
360度撮影が趣味の方が登壇されました。面白い方ですね。
Money
皆さん気になるファンドについてのUpdateでした。Numerai tournament自体はデータサイエンスコンペであるけれども、ファンドの発行しているトークン(NMR)を買ってstakeしている以上、ファンドが順調なのかどうかは参加者としてとても気になるところです。
Richard Craib, Founder and CEO of Numerai(2回目)
CEOが2回目の登場。ファンドのプロダクトである"Numerai One"のおさらいから始まりました。
当初はリチャード自身や友人の資産のみで700万ドルしかなかったのが、はじめての機関投資家(カナダ年金機構)から資金調達できて7000万ドルへ10倍になったことを報告(うちらはカナダ人の年金を運用してたんか...)。
さらにcapacity right(最初は少ないが、feeは変わらないまま後で資金を追加する契約?)で2億ドル程度まで確保していることを報告。
Numerai fundに公開されているように、同業他社と比較してもNumeraiは非常にパフォーマンスが良いことも言及し、今後より資金調達が進むであろうということです。
特に、パフォーマンスは減衰することなく改善を続けており、過去1年のsharpe ratioは2.08であるということで、
「sharpeが2を超えれば、マーケティング部門は必要ない」
という業界のことわざ(?)を引用し、より大きな資金が調達できることを期待していると述べていました。年末までに5億ドルを調達したいと言うことです。
一方で、market neutralファンドに投資される金額は、世界のお金のほんの一部であり、ファンドとしてそれだけやっているのもどうか、ということで、Numeraiの2つ目のプロダクトのリリースが発表されました。
それが、Numerai Supremeです!
Numerai Supremeは、Numerai Oneではさまざまなリスクファクター(国、セクターなど)を鑑みてロングショートのポートフォリオを構築していたものを、よりメタモデルに忠実にポートフォリオを構築するようです。
イメージは↑のような感じで、メタモデルの予測リターンが最も良い銘柄のみロングし、最も悪い銘柄をショートする、ということです。
このようなポートフォリオ構築は、リスクが大きいと言われていましたが、運営のbacktestによると、よりリスクを抑えたNumerai Oneに比べ、大きなリターンが得られる、ただしdrawdownも大きいものになっています。
(↑オレンジがNumerai One, 青がNumerai Supreme)
Sharpeはどちらも同じのようです。リスクを限定したNumerai Oneと、よりメタモデルに忠実なNumerai Supremeで同じsharpeが得られているのは面白いですね。
Numerai Supremeによる運用は、6/30に開始されるそうです。
リチャードとの対談
ここからはリチャードCEOと他2名の対談が行われました。
1人は、Jonathan Larkin氏。 Kaggle Masterであり, コロンビア大学の大学ファンドのManaging Directorであり, クラウドソース型ヘッジファンドのQuantopianの前CIOであり, 伝説のヘッジファンドであるMillenniumの株式部門のglobal headだった方です(やば...)。
もう1人は、Joey Krug氏。 Pantera Capitalの共同CIOであり、, Augurの共同創立者であり, Numeraiに投資とアドバイスも行っている人物です(こっちも強い...)。
対談は、Larkin氏が過去に伝統的なヘッジファンドで働いていた経験を振り返る形でスタート。一つの会社が独立したチームを雇って、互いに競わせるスタイルは一定の成功を収めていたが、スケーラビリティが小さく、チームが互いに衝突したりと協力することが少なかったことが問題だったと語りました。
そのため彼はQuontopianというアウトソース型のファンドを作ったわけですが、Numeraiはさらにその先を行っていると述べていました。True contribution (TC)など、世界中のデータサイエンティストがファンドの力になる仕組みができてきていることを評価していました。
リチャードは次にJoeyに、CrowdCentとの出会いのストーリーついて話を振りました。JoeyはPanteraのCIOですが、もともとNumeraiには興味があり、メタモデルの性能が確かなものだと分かった時点で相応の金額でNMRのポジションを組むつもりだったそうです。そしてNMRの運用のため、CrowdCentがそこから資金調達できるようにした、ということです。
(CrowdCentの莫大な金額のSignalsにおけるStakeは、Panteraから来てたのですね。納得)
Panteraに比べるとNumeraiはまだ規模が小さいですが、Larkin氏はNumeraiが700万ドルの資金を調達できたことを高く評価していると述べていました。
またLarkin氏は、Market neutralは株式市場におけるゴールドスタンダードでありながらも多くの機関投資家はそれをあまりよく理解していないことに言及。Numeraiはマーケットニュートラルであり、機械学習を使い、予測値はクラウドソースし、そのインセンティブはクリプトで賄う、という従来の機関投資家からすると4つの非常に複雑な仕組みがあることを考慮すると、Numeraiは良くやっているし、いずれ他の機関投資家も追随するだろうと述べ、会場からは拍手が上がりました。
次に、リチャードはJoey氏に移り変わりの激しいDeFiについて質問しました。
Joey氏は、Joey氏がPanteraに来た当初は1.5億ドル程度の運用額だったものが、現在は59億ドルほどまで増えていること、DeFiへ投資をはじめたときはUniSwapすらなくMakerDaoくらいしかなかったことを振り返りました。Numeraiはこの世で最後のヘッジファンドをになることを理念に掲げているが、そのように伝統的な金融の仕組みを揺るがすもの、というのは従来のlendingやexchangeを揺るがすDeFiとの類似点が多く、拡大余地が大きく残っていることを指摘しました。
また、NumeraiのSharpeが向上し続けているのは自分達NMRホルダーにとって良いことだと述べ、CrowdCent以外にもユーザにNMRを与えたり、ポートフォリオの多様化を図りたいとのことでした。
最後に、リチャードがLarkin氏に、「Numeraiが間違っていることをしているとしたら、それは何か?」という質問をしました。
Larkin氏の答えは、「Signals」でした(はい...)。
金融データの取り扱いは難しく、必ずしも他のドメインで成功しているデータサイエンティストが成功できるとは限らず、データそのものをNumeraiが丁寧に処理し、提供しているコアのTournamentについては素晴らしいと思うが、Signalsはそういったデータ処理をユーザに委ねており、本当に機能しているのか疑問が残る、という内容でした。
リチャードは、Signals参加者の予測値のリターンがTournamentに比べて(提出時にさまざまな直交化をかけているにもかかわらず)変動幅が大きいことに触れ、リチャード自身もよく理解できていないことから、Larkin氏の懸念には同意しました。
一方で、Numeraiが持っていないデータから参加者がsignalを作れているとするなら、データの独占を目指すNumeraiからすると必ず欲しいsignalであり、そういったsignalはTCが非常に高いのでは、という期待をしているということでした。
Howard L. Morgan, co-founded Renaissance Technologies
そしてついに、クオンツファンドの先駆け的な存在である伝説のヘッジファンド、ルネサンス・テクノロジーの共同創立者であり、Numeraiに初期から投資を行ってきたHoward L. Morgan氏の登場です。
「最も賢い億万長者(英題: The man who sold the market)」という本を読まれた方も多いかも知れませんが、この本に多くの情報提供をしたのもこのHoward氏だそうです(自分もこの本読みましたがすさまじく面白かったです。読んでない方はいないと思いますが、まだの方は是非)。
まずは自己紹介も兼ねて、Howard氏は70年代、自身がまだ (コンピューターサイエンスの)ペンシルベニア大の教授だった ころの話から始めました。確率過程に興味があってジム・シモンズに出会い、定量的なトレーディングのためのデータベース作りを始めた彼らは82年にルネサンス・テクノロジーを創業します。
(詳しくは「最も賢い億万長者」に書いてあるのであまりまとめませんが)ルネサンス・テクノロジーが画期的だったのは、70年代の時点でデータが全てであるという確信を持って大量のデータを収集していた点でした。当時はデータを収集、保存するのに非常にコストがかかり、圧縮技術やプロセッサーの改良にも取り組んでいたようです。
その定量的なトレーディングは大いに成功し、89年には10億ドルの運用資金を抱えるまでになりました。(本ではあまり述べられていないとしながら)2000年以前までのルネサンスはGoogleよりも従業員当たりのプロセッサ数が多かったそうです。世界に先駆けてデータベースを整備し、並列処理を実装したことが、より良いモデルを作ることを可能にし、莫大な利益を上げることができたと強調していました。
ここまでファンドの運用資金が拡大すると、問題になってくるのはマーケットインパクト、カウンターパーティリスクであり、お金を入れれば今までの調子で増えていくというわけではないですが、Howard氏自身は投資家として、人間の意思決定が介入しない"money machine"を信頼し、着実に資産を増やしていったようです。
もちろん世界が危機的な状況の時は別ではあるけれども、87年にジムと東京にいたHowardは市場のクラッシュに見舞われ、朝3時に奥さんから電話があって自分達が1億ドル失ったことを知ったわけですが、翌日には+2億ドルに戻したというエピソードに触れ、モデルを信じることの大切さをユーモアを交えて語りました。
そういった経験から、Howard氏はモデルのdrawdownはあまり恐れておらず(20%程度のdrawdownはファンドをやっていれば普通に起こりうる)、Numerai Supremeにもお金を投じることを表明、会場を沸かせました。
(ボラは友達!)
次に、Numeraiについての話に移りました。
Howard氏はNumeraiの初期段階からの投資家ですが、実はリチャードとの出会いは偶然だったようです。
Numerai創業3ヶ月目のリチャードは資金調達のため別の投資家に会う予定でしたが、たまたま同じ部屋にいたHoward氏と話をすることになり、Howard氏の顔を知らなかったリチャードは定量的な投資についてHoward氏に説明をはじめたそうです。Howard氏が「定量的な投資チョットワカル」と答えたエピソードは、会場を笑いに包みました。
リチャードの「なぜ当時創業3ヶ月のNumeraiを気に入って投資してくれたのか」という問いに対しては、Howard氏は、「リチャードがリスク管理についてよく理解していたから」だと答えました。
当時VCとしてクオンツファンドへの投資を積極的に進めていたHoward氏の元には、美しい右肩上がりのbacktest結果を携えた若者がたくさん訪れていました。そういった若者には、
「モデルが取引をしろとsignalを出したとき、どれくらいの回数取引をした結果なんだ?」
と聞いたそうです。
そうしたとき大概「どういうことです?もちろん毎回ですよ」と答えるよくわかっていない若者には、リアルマーケットでは全ての注文が意図した通りに通ることはないのだから、例えばランダムに半分の取引ができなかったとしたときの結果を持ってこい、と言うそうですが、リチャードはそういったことを初めからよく理解していたそうです。
また、Howard氏はNumeraiのクリプトを発行し、データサイエンティストの機械学習モデリングをアウトソースするインセンティブとして使う、というアイデアを非常に気に入ったことも、投資をした理由だと述べました。
そうしてリチャードはHoward氏の投資と助言を受けながらNumeraiの運営を推し進めていくわけですが、Numerai tournamentで参加者に提供するデータを難読化 (obfuscation)させた理由もそのあたりにあるようです。というのは、(これは有名な話だと思いますが)Howard氏によると長い間ルネサンスはヘッジファンドでありながら、数学者、統計学者、コンピューターサイエンティストなど数字の羅列から予測モデルを作れる人材を採用し、金融がわかる人材は採用しなかったそうです。その数字の意味は深く考えず、モデルを改良できる人材が利益を出してきたことから、Numerai Tournamentでも難読化されたデータを提供し、金融知識のないデータサイエンティストがむしろ活躍できるようにした、ということらしいです。
次に、ファンドとしてより発展するためには何をすべきか?というリチャードの問いに対し、Howard氏は「一般的にはユニバースを拡大することだ」と答えました。運用金額が大きくなるとマーケットインパクトやカウンターパーティリスクが深刻になるためであると。
一方で、現在のNumerai OneはQuarterベースだとほとんど損失を出すことがなく、こうした安定性はより多くの機関投資家が興味を持つだろうと述べました。
最後にHoward氏は、Numeraiは世界中のデータサイエンティストが自身のスキルをお金に換える機会を提供することで、素晴らしいコミュニティが育っていることを賞賛していました。このような互いにアイデアを交換し、サポートし合うようなコミュニティができることはHoward氏といえど予測できておらず、非常に喜ばしいと述べていました。
そして、「(Numerai)の旅路に同行できていることは素晴らしく、願わくばこれから長い年月にわたって続けていきたい」という言葉でこのパートを締め、会場からは惜しみない拍手が送られました。
Anson Chu, Numerai CTO, formerly at Uber
最後に、NumeraiのCTOが登場です。Salesforce --> Uber --> Numeraiという経歴のつよつよエンジニアですね。
まず、NMRのstakingの歴史を振り返りました。最初は手動でNMRを毎度stakeし、パフォーマンスに応じてearn or burnしていたのが、numerai computeが導入され、毎週末手を動かさなくても提出が行えるようになりました。
一方で、NMR stakingの課題として今でもあるのが、モデル間のstake移動にunstake --> re-stakeで1ヶ月以上かかってしまう点です。この現状では、stake額が果たして本当にユーザのモデル予測値に対する自信を表現するものになっているのか、疑問が持たれます。
この問題を解決するため、まずstakingの一般的なsmart contractとしてNumeraiが作り、使用していたErasure protocolの廃止が発表されました。それに伴って、staking 3.0として、ユーザのstaking experienceを向上させるための取り組みが発表になりました。
まず、ユーザはMetamaskのようなwalletを使ってstakeができるようになりますと。
次に、erasure protocolの廃止に伴ってsolidityでsmart contractを0からより単純化したものに書き直すそうです。
最後は、アカウントレベルのstakingで、ユーザは自分のモデルポートフォリオにモデルごとの%を設定するだけで、一瞬でstakeを移動できることになるそうです。これには会場から大きな拍手が送られました。
NJへの感謝
最後に再びリチャードが登場し、NumeraiでCoS(チーフ・オブ・スタッフ)を務めるNJへの感謝が述べられました。NJには日本のコミュニティも大変お世話になっていますね! Thank you NJ, we always appreciate your support:)
最後に感想
個人的には、やはり「最も賢い億万長者」を読んでいたこともあって、ルネサンス共同創業者のHoward氏とリチャードの対談が一番面白かったです。リチャードはコーネル大数学科出身ですが、Howard氏もPh.Dはコーネル大で取得されているので、そういったところも親近感があったのかなーなんて勝手に思いました。
なんにせよHoward氏が創業後3ヶ月のNumeraiに投資をしていなければ、今のNumeraiは存在し得なかったと思うので、一参加者としてHoward氏ありがとうございます...!という感想です。すでに莫大な資産を持っているおじいちゃんなのに、ややハイリスクハイリターン寄りのNumerai Supremeにも契約する、というのは単純にすごいですね。日本も金融資産の大多数を持っているおじいちゃんおばあちゃんが、もっと先見の明と実力のある若者に投資してくれるといいのですが...。
参加者目線では、TC staking導入が一番気になるところです。(運営から指針は示されている一方で)ローカルで再現できない指標を最大化するような、ユニークな機械学習モデルが作れるかどうか? Kaggle master以上のdata scientistsが続々参戦している中で、TC stakingが始まる2022/04/09以降Tournamentがどうなっていくのか、気になるところです。Signalsはあまり機能していないのではという言及もありましたが、自分もそんな感じがしているので、モデルポートフォリオの最適化は考えないといけませぬ。
最後にですが、投資は自己責任で! Happy Numerai Life!
Discussion