🌄

Numerai 2023Q2/3炉端会議

2023/06/19に公開

Model uploadsのlimitationについて説明するCTO(左)、とCEO(右)

この記事は?

NumeraiのCEOとCTOが2023年06月08日に以下のYouTubeに公開した、炉端会議 (fireside chat)の中で、個人的に面白いと思った内容のメモです。

https://www.youtube.com/watch?v=Dn9Dwpc0O_w

正確な一次情報を知りたい方は↑の動画をご覧になってください。Slidoのvote順の回答になっているため、大事そうな前半に特にフォーカスしています。

以前の関連記事は↓
(2020Q4)
https://zenn.dev/katsu1110/articles/3fc47534cdc8c1807102

(2021Q1)
https://zenn.dev/katsu1110/articles/7cdf98af5d3b57

(2021Q2)
https://zenn.dev/katsu1110/articles/7ce69ccd5212fb

(2021Q3)
https://zenn.dev/katsu1110/articles/bba27e6f8ff8c0

(2021Q4)
https://zenn.dev/katsu1110/articles/d804efecba6a49

(2022Q1)
https://zenn.dev/katsu1110/articles/d461c8dea4024b

(2022Q2)
https://zenn.dev/katsu1110/articles/60c777d15e01d5

(2022Q4)
https://zenn.dev/katsu1110/articles/b25c1fc3b79a94

注)Numeraiって何ぞという方は、Numerai Japanese Docsをご覧ください
注)私の英語力の問題で以下の内容が正確ではない可能性があります
注)全てのQ&Aを網羅しているわけではありません

CEOとCTOからお知らせ

(CEO) やあみんな、炉端会議へようこそ。Numeraiは参加者コミュニティと繋がり自分達が何をしているのか質問に答えるために炉端会議をしている。

直近のNumeraiにとって非常に良いニュースは、daily submissionとdaily payoutの導入だ。以前は週1の提出だったが、参加者に毎日提出してもらうようになった。これは取引頻度を上げ、世界一の機械学習ファンドになるために必要不可欠だからだ。Numeraiの資産総額(AUM)は約3億5000万ドルに迫る勢いだ。1年前は7000万ドルとかだったので、私たちのビジネスは成長著しい。

一方、特に新しい参加者にとってはハードルが上がっているのを感じていた。Daily submissionを簡単に行うためのNumerai computeなどの仕組みはあるけど、notebookとかはないし、Numeraiに興味を持ってwebsiteを覗いてくれても、何をどうしたら始められるかわかりにくいんだ。

そこでAnson (CTO)の友人で元CoinbaseのエンジニアのDanielを雇ったんだが、彼は既存のwebsiteを10倍は良くしてくれた。

もう一つ、私たちが直近数ヶ月頑張って取り組んでいたのは、Model Uploadsという新機能だ。これは、参加者が一度モデルをNumeraiにuploadすれば、あとはNumerai側で毎日提出を自動実行しますよというものだ。

この機能は特に新しい参加者にとって助けになると思う。まだBeta版だが、CTOのAnsonがこれから説明してくれる。

(CTO) ありがとうリチャード、じゃあmodel uploadsについて説明させてくれ。

...model uploadsについての説明...

(Model Uploadsについては既に別記事でまとめてあるため、ここでは省略します)
https://zenn.dev/katsu1110/articles/ecd6e1fb13c2c6

一応、chatGPTによる要約も載せておきます。

  • Numerai ComputeはAWS上でモデルを展開するための簡単な方法として導入されました。
  • 目標はユーザーフレンドリーな体験を提供し、インフラストラクチャーの取り扱いを不要にすることです。
  • Compute Lightは簡略化されたバージョンとしてリリースされましたが、AWSとDockerの理解が必要でした。
  • プロセスをさらに簡単にするため、AWSへの依存を取り除くことを検討しました。
  • モデルのアップロードは新機能として導入され、ユーザーはインフラストラクチャーの設定なしに予測パイプラインをNumeraiにアップロードすることができます。
  • コードを使用してシンプルな例を実行しました。データセットをダウンロードし、小さな特徴セットで軽量なモデルをトレーニングしました。
  • 予測パイプラインをPythonの関数として定義し、Cloud pickleライブラリを使用してpickleファイルに保存し、Numeraiにアップロードしました。
  • モデルのアップロードは任意であり、ユーザーが自身の環境でモデルをトレーニングし、予測のみを提出することも可能です。
  • モデルのアップロードにより、NumeraiがAWS上でモデルを実行し、毎日のライブ予測を生成します。
  • モデルのアップロードは新規ユーザー向けの便利なオプションであり、数分から数十分の待ち時間が発生する場合もあります。

Q & A

50%ものstakeが2人の参加者によってされている中で、どうやってSignalsをmeta modelに取り込むつもりなんだ?

[00:39:40] Q&A: How do you integrate Signals into the meta model considering only 2 participants account for 50% of stakes in Signals?

いい質問だ。Signalsは参加者が自身の持っているクオンツのデータを使って提出を行うもので、多くの参加者がLLM (Large Language Model)を使ってニュースデータなどからシグナルを抽出してたりするといいなと思っているんだが、確かに現状のSignalsは歪んでいる。実はTournamentと違って、Signalsは加重平均ではなく単純平均の方がmeta modelへ組み込むにはいいみたいなんだ。まぁ巨額のstakeをしている参加者がoverfitしているからなんだろうけど、我々の方で参加者のstake額をコントロールはできないし、どうSignalsで受け取ったシグナルをlive tradingに組み込むかは検討中だ。

最大値ベースでcorr20v2はcorr20のだいたい半分になるようなんだけど、payout factorを変更する予定はあるか?

最大値でみればそうかもしれないが、平均はどうなんだろう。Corr V2とCyrusターゲットの導入で、ほとんどのユーザのsharpeは向上すると思うし、現状を変えるつもりはない。とはいえ、4ヶ月前に25% capを上げたばかりだし、直近では全NMRの20%程度のburn、金額にして2億円くらいのburnもあった。自動であるべき形になっていくと思う。

TC v2について何か明らかにできることはあるか?どのようにv1に比べて参加者に有利になるんだ?

[00:42:22] Q&A: Can you give a sneak into TCv2 and discuss what prompted the evolution? How will v2 be better than v1 for participants?

Optimizerの変更を行なったし、より多くのリスクに対してneutralであろうとしている。それによって、ボラとドローダウンを減少させるのが狙いだが、現在のTCはラウンドごとに変動が激しいため、より滑らかなTCの計算をしたいと考えている。取り組み中だが、数ヶ月くらいで結果を出したい。

Stake managementについて話してくれるか?

[00:45:32] Q&A: Can you speak on stake management?

心の中では常に取り組んでいることだが、最優先課題ではない...とはいえ現在我々が行なっていることは全てそこにつながっていると思っているので、何かアナウンスできることがあればそのときにしたい。

リチャード、2018年はNumeraiにとってクリティカルな年だと言っていたな。当時の会社やTournamentに何があったんだ?

[00:46:26] Q&A: Richard, you said 2018 was a critical year for Numerai. What was the state of the company & tournament then, and what turned it around?

2018年は何もうまくいかなかった。NMRは2ドルまで下がり、ファンドパフォーマンスも良くなかった。まともなヘッジファンドを作れるようなチームもなかったし、trading engineerもいなかった。会社のお金もなくなろうとしていた。

当時はCorrではなくAUCを評価指標にしていた。Staking 1.0はオークションメカニズムのようなものを採用していて、うまくいっていなかった。AnsonがjoinしてくれてStaking 2.0に移行し、2019年9月にOptimizerを刷新して40だった特徴量が310になってから、ようやく色々うまくいき始めたんだ。

7/8にプラハでやるNumerai meetup 2023について言及してください。

[00:49:19] Q&A: Please mention the next Numerai meetup in Prague on July 8th, 2023.

JoeはCouncil of Eldersの一員で、前回は東京だったが、次はプラハでやるそうだ。LLMなどホットなトピックに関する話やワークショップがあるようだ。興味ある人はDiscordでcouncil of eldersと話してみてくれ。

Daily submissionに移行してからファンドパフォーマンスに大きな変化はあったか?

[00:50:16] Q&A: Can you see a significant change in performance since daily submissions were introduced?

Daily submissionとdaily payoutsは始まっているが、dailyのトレーディングは実はまだ行なっていない。USでトレーディングをしているが、その時間はアジア市場は閉まっていたりとか、実行面で難しい。トレーディングオペレーションの人を新しく雇うことができれば、状況は改善すると思う。

Dailyのsubmission自体は分析を行っていて、以前はweeklyの従来のsubmissionのパフォーマンスの方が良かったが、最近になってdailyのも同じくらい良くなっているようだ。

ファンドのAUMの成長には満足してるか?

[00:51:13] Q&A: Are you happy with the fund's AUM growth?

1億ドルに到達するのが会社の夢だったが1億ドルに達した9ヶ月後には3.5億ドルに到達したので、素晴らしい成長だ。とはいえもっと大きくなりたい。今年は特に大切な年になると思っている。ほとんどの時間を資金調達のために使っていて、月の1、2週間はNYに行っている。雪だるま式に、ある投資家が投資を決めると、別の投資家が安心して投資を決めてくれて...というようにいい循環が起きていて、今年中に1 billion USDのAUMを目指したい。今年中に、パフォーマンスだけでなくマネージメント手数料でも稼げるヘッジファンドにして、Numeraiのビジネスを安全にしたい。

AdiaLabのコンペを知っているか?Numeraiに異様に似ているようだが...

[00:55:08] Q&A: Are you aware of the AdiaLab competition? It seems that Marcos Lopez de Prado is somehow involved. The data is suspiciously similar to that of Numerai

自分たちがやっていることはたくさんの特許で守られていて、長年築き上げてきたチームや仕組みがある。もちろんKaggleで最近あったような株式コンペが出てくるのは面白いし、CrunchのようなNumeraiの2017年時点のレベルのことを真似ていそうな取り組みもまぁゲームとしては楽しいかもしれない。株のデータを集めてコンペにするのはそれほど大変ではないんだ。ただ、大変なのは実際に提出されたシグナルを使って取引を行うことで、Numeraiではそこに長年かけて取り組んできたし、結局自分たちはオンリーワンなのは変わりがない。

TCをシミュレートしたDiagnostics評価を見ることができないか?

[00:58:18] Q&A: Can we get TC simulation diagnostics?

TCはとても高い。TCの計算だけでAWS上で毎日700ドルかかっていて、これは提出分だけだ。ただ、質問の意図もよくわかる。Corr v1からv2に変わって、TCとの相関が0.18から0.22に上がったのはいいニュースだ。TC v2がでるまでにもっとよくできるかもしれないが、多くの人からもらっている要望なので、DiagnosticsでもTCが見れるような最適化は検討したい。

新しい特徴量とターゲットのリリースが過去数ヶ月あったが、モデルパフォーマンスへの影響はどの程度あるんだ?

[00:59:51] Q&A: Between the release of new features and targets over the last few months, what is the impact on the metal model’s performance?

ターゲットCyrusを導入したことや、corr v2を評価指標として採用したことは新しいが、ユーザも20%その間増加したし、影響を測るのは難しい。ただ、自分たちは研究と可視化を通じて、新しい特徴量を追加したときは必ずパフォーマンスは向上し、新しいターゲットを追加したときは既存のターゲットより必ず良くなるようにはしている。

Signalsにより多くのターゲットを追加する予定はあるか?

[01:01:54] Q&A: Do you plan to introduce more targets to Signals?

確かに多くの変化はTournament向けだったな。Signalsに新しいtargetを足すのもいいが、Diagnosticsをよりリッチにするのが良いと考えている。というのは、多くのSignals参加者は自分がどんなリスクを取っているのか、理解していないように見えるからだ。実際、Signalsのsubmissionを個別に分析してみると、「あぁ、この参加者はこのrisk factorにこれだけstakeしているんだな」というのがわかる。

最近SignalsのDiagnosticsでChurnを追加したが、今後はより多くのrisk modelをDiagnosticsに載せたい。ミレニアムのようなQuantsヘッジファンドでマネージャーをやれば、無数のrisk modelにアクセスできて、自分のポートフォリオがどんなリスクを取っているのかわかるようになっている。そうなると、SignalsはQuantについて学ぶすごくいい場になるだろう。

新しいウェブサイトにはあらゆる評価指標がリーダーボードに載っていて、payoutについて混乱してしまう。どうして新旧の評価指標が入り混じっているんだ?

[01:04:31] Q&A: With the new website and all these metrics on the leaderboard, I am a bit confused about payout. Why do we still have both metrics?

まだ評価指標については移行期間かなという認識で、参加者が過去の成績をトラックできるようにした方が現段階では良いかなと思っている。指標を変更した5/13前後でcorrを変えて、何らかの形で連続性を保ったまま表示させるようにしたいが、現状全ての評価指標を出している。

NumerBayはTournamentをどう変えたのか?

[01:07:07] Q&A: How will Numerbay change the tournament dynamics? Is it parasitic or signal amplification? Please share your thoughts.

投資家との会合でよくある質問は、素晴らしいsubmissionでもその参加者がお金を持っていないとき、メタモデルのweightが下がってしまうのでは?というものだ。そんなとき、自分は、いやそんなことはない、Leaderboardで上位に来る参加者は、自分のモデルをNumerBayで売るから問題ないんだ、と言っている。Numerbayに追加される数々の新機能は素晴らしく、自分もNumerBayは大好きだ。Daily submissionになってNumerBayを使うのが難しくなっているのは感じているが、Model Uploads機能が何らかの形で助けになれば良いと思う。誰かのcloudpickleを買ってそれをuploadして終わり、みたいな。

大きなマクロ経済的なシフト、それもデータになかったような大きなものが、全体のtournamentのパフォーマンスに影響することがあり得ると思うか?それともデータはそういった影響に対しロバストか?

[01:11:45] Q&A: Do you expect the big macroeconomic shifts which are unseen in the data to affect performance of the overall tournament, or is the data robust towards this?

マーケットに起こりうる全てにヘッジすることは難しいが、なるべくたくさんのrisk factorにneutralであることで、ロバストであるように努めることはできる。グロース株優位が長く続いてクラッシュして、そのあとバリュー株優位になるようなサイクルはリアルマーケットでよく起こるし、金利とかがそのサイクルに影響しているんだろうが、そういったファクターに全期間でneutralであれば影響は小さいだろう。

実を言うと、最近リリースした新ターゲットであるCyrusは、金利とか、あと家畜の先物とかにもneutralに作られているので、しばらくモデルの訓練を回していないのであれば、今が再学習するいい機会だと思う。

終わりに(訳者感想)

daily submissionが始まり評価指標が変わったり慌ただしい中で、NMRも暴落しており既存ユーザも離れやすい状況が続いてるかなぁと思います。一方で、model uploads機能など新規ユーザーには優しい仕組みができているので、なくなってもいいお金があるなら始めてみてもいいかもしれないですね。ファンドとしては成長を続けているので、daily tradingが実装されてどこまでいけるか楽しみです。

Special Thanks

この記事は

YouTube & Article Summary powered by ChatGPT

によってYouTubeの元動画から書き起こされました。開発者の方々ありがとうございます。

Discussion