やること
前回のHigh-frequency trading in a limit order bookと戯れるでは、論文の中身を読まずに数値シミュレーション部分だけを触ったのですが、今回はきちんと論文全体を理解したいです。
そのために、論文を読みながらメモを取っていきます。
これまでのBotter自主ゼミノート
Botter自主ゼミノート 1.2 確定システムの制御の回顧
Botter自主ゼミノート 2.1 確率過程とは?, 2.2 確率過程の数学的表現
Botter自主ゼミノート 1.2 数式導出
Botter自主ゼミノート 2.3 確率モーメント
Botter自主ゼミノート 2.4 確率過程の分類
Botter自主ゼミノート 2.5 エルゴード性
Botter自主ゼミノート 2.6 確率過程の周波数表現
Botter自主ゼミノート 2.7 マルコフ過程
Botter自主ゼミノート 2.8 正規型確率過程
Botter自主ゼミノート 2.9 ウィーナ過程(1)
Botter自主ゼミノート 2.9 ウィーナ過程(2)
Botter自主ゼミノート 2.10 白色雑音
Botter自主ゼミノート 3.1, 3.2 確率変数列の収束
Botter自主ゼミノート 3.3 確率過程の連続性
Botter自主ゼミノート 3.4 自乗平均微分
Botter自主ゼミノート 3.5 自乗平均積分
Botter自主ゼミノート 4.1 確率微分方程式とは?
Botter自主ゼミノート 4.2 確率積分
Botter自主ゼミノート 4.2 確率積分 例題4.1
Botter自主ゼミノート 4.3 確率微分方程式
Botter自主ゼミノート 4.4 伊藤の確率微分演算
Botter自主ゼミノート 4.5 拡散過程
Botter自主ゼミノート 4.6 確率密度関数の時間進化 - コルモゴロフ方程式
Botter自主ゼミノート 6.1 動的システムの推定とは?
Botter自主ゼミノート 6.2 条件付き確率密度関数の時間進化
Botter自主ゼミノート 6.3 モーメント関数の時間進化
Botter自主ゼミノート 6.4 カルマンフィルタ
Botter自主ゼミノート 6.5 イノベーション過程
Botter自主ゼミノート 7.2 線形システムの最適制御 (1)
Botter自主ゼミノート 1.2 確定システムの制御の回顧
Botter自主ゼミノート 2.1 確率過程とは?, 2.2 確率過程の数学的表現
Botter自主ゼミノート 1.2 数式導出
Botter自主ゼミノート 2.3 確率モーメント
Botter自主ゼミノート 2.4 確率過程の分類
Botter自主ゼミノート 2.5 エルゴード性
Botter自主ゼミノート 2.6 確率過程の周波数表現
Botter自主ゼミノート 2.7 マルコフ過程
Botter自主ゼミノート 2.8 正規型確率過程
Botter自主ゼミノート 2.9 ウィーナ過程(1)
Botter自主ゼミノート 2.9 ウィーナ過程(2)
Botter自主ゼミノート 2.10 白色雑音
Botter自主ゼミノート 3.1, 3.2 確率変数列の収束
Botter自主ゼミノート 3.3 確率過程の連続性
Botter自主ゼミノート 3.4 自乗平均微分
Botter自主ゼミノート 3.5 自乗平均積分
Botter自主ゼミノート 4.1 確率微分方程式とは?
Botter自主ゼミノート 4.2 確率積分
Botter自主ゼミノート 4.2 確率積分 例題4.1
Botter自主ゼミノート 4.3 確率微分方程式
Botter自主ゼミノート 4.4 伊藤の確率微分演算
Botter自主ゼミノート 4.5 拡散過程
Botter自主ゼミノート 4.6 確率密度関数の時間進化 - コルモゴロフ方程式
Botter自主ゼミノート 6.1 動的システムの推定とは?
Botter自主ゼミノート 6.2 条件付き確率密度関数の時間進化
Botter自主ゼミノート 6.3 モーメント関数の時間進化
Botter自主ゼミノート 6.4 カルマンフィルタ
Botter自主ゼミノート 6.5 イノベーション過程
Botter自主ゼミノート 7.2 線形システムの最適制御 (1)
Botter自主ゼミノート 7.2 線形システムの最適制御 (2)
2.2 The optimizing agent with finite horizon
時間の定義
この論文では現在時刻をt、トレーダーの持っている現金と株の価値の合計を最大化したい未来のある時刻をTとしています。
株価の定義
この論文では時刻uの株価の変動dS_uを、以下のように標準ウィーナ過程の増分を\sigma倍したものと仮定しています。そのため、この論文では株価にはドリフトも自己相関も無いものとして扱われています。さらに、株価はティックサイズを考慮せず連続なものとしています。
論文では初期時刻tでの株価の初期値はsとしていますが、表記の便宜上S_tとします。
価値関数v
この論文では以下のような価値関数を使っています。
\begin{aligned}
v(x,s,q,t) &= E_t[-\exp(-\gamma(x+qS(T))] \\
&= -\exp(-\gamma x)\exp(-\gamma q S_t)\exp\left(\frac{\gamma^2 q^2 \sigma^2(T-t)}{2}\right) \tag{3}
\end{aligned}
ただし、xはトレーダーが持っているキャッシュ、sは株価、qはトレーダーが持つ離散的な株数、tは時間、\gammaはリスク感応度、S(T)は終端時刻Tでの株価です。ざっくりいうと、時刻T時点でのキャッシュと持ち株の価値の合計の期待値が大きくなればより価値が高いとみなしますが、-\exp(-x)の形なので、キャッシュと持ち株の価値の合計が大きくなるにつれて、価値関数vの値の伸びは鈍っていきます。
この式のままでは期待値オペレータがついていて扱いづらいので、論文では期待値オペレータを外した形を式\text{(3)}でサクッと導入しています。
なぜこんなことができるのかわからないので、式変形をして右辺の期待値オペレータをはずしてみます。
実際に期待値オペレーターを外す前に、v(x,s,q,t)を処理しやすく変形します。
\begin{aligned}
v(x,s,q,t) &= E_t[-\exp(-\gamma(x+qS(T))]\\
&= E_t[-\exp(-\gamma x)\exp(-\gamma qS(T))]\\
&= -\exp(-\gamma x) E_t[\exp(-\gamma qS(T))]\\
&= -\exp(-\gamma x) E_t[\exp(-\gamma q(S(t) + S(T-t))]\\
&= -\exp(-\gamma x) \exp(-\gamma q S_t) E_t[\exp(-\gamma q S(T-t))] \tag{A}
\end{aligned}
上で整頓した通り、dS(t) = \sigma dW(t)、F(t,s) = \exp(-\gamma qS(t))とした時、差分dF(t,s)がどのようなものになるかを伊藤の公式を使って考えてみます。
-
F(t,s) = \exp(-\gamma qS(t))はtを含んだ項を持たないのでtで偏微分すると消えてしまいます
-
\mu(t)は定数0なので、これを含む項も消えてしまいます
-
F(t,s) = \exp(-\gamma qS(t))はsで偏微分すると-\gamma q F(t,s)となります
以上のことに注意しながら、伊藤の公式に代入すると以下のようになります。
\begin{aligned}
dF(t,s) &= \frac{1}{2}\sigma^2\frac{\partial^2 F(t,S(t))}{\partial^2 s}dt + \sigma\frac{\partial F(t,S(t))}{\partial s}dW(t) \\
&= \frac{1}{2} \gamma^2 q^2 \sigma^2 F(t,S(t))\:dt - \gamma q \sigma F(t,S(t))\:dW(t)
\end{aligned}
これで、確率過程S(t)を変数に持つF(t,s) = \exp(-\gamma qS(t))の差分dF(t,s)がどのようなものかがわかりました。
しかし、本当に知りたいのはF(t,s)の差分であるdF(t,s)ではなくて、F(t,s)そのもの、更にその先のE[F(t,s)]なので、積分してF(t,s)を計算してみます。
dF(t,s)は差分でしかないので、その積分を計算しても、初期値F(0,S(0))がなければF(t,s)はわからないことに注意すると…。
F(t,s) = \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t F(t',s)\:dt' + \gamma q \sigma \int_0^t F(t',s)\:dW(t') dt' + F(0, S(0))
最終的に知りたいのはE[F(t,x)]なので、両辺の期待値を取ります。この時F(t,s)とdW(t)は無相関なので、積の期待値は期待値の積として扱えます。
すると、ウィーナ過程の性質E[W(t) - W(s)] = 0があるので、E[dW(t')] = 0となり、dW(t')を含んだ項は消えてしまいます。
\begin{aligned}
E[F(t,s)] &= \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t E[F(t',s)]\:dt' + \gamma q \sigma \int_0^t E[F(t',s)]\:E[dW(t')] dt' + E[F(0, x)]\\
&= \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t E[F(t',s)]\:dt' + E[F(0, S(0))]\\
\end{aligned}
ここで再び両辺をtで微分します。初期値の項は消えて、だんだん求めたい形に近づいて来ました。
\begin{aligned}
E[F'(t,s)] &= \frac{1}{2} \gamma^2 q^2 \sigma^2 E[F(t,s)]\\
\end{aligned}
tで微分した後のE[F'(t,s)]が微分する前のE[F(t,s)]の定数倍したものということは、E[F(t,s)]が指数関数であることがわかります。
E[F(t,s)] = \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2 t\right) \tag{B}
ここで、式\text{(A)}で整頓したv(x,s,q,t)に式\text{(B)}を当てはめると式\text{C}が得られ、論文の中の式\text{(3)}と一致します…かね?
\begin{aligned}
v(x,s,q,t) &= -\exp(-\gamma x) \exp(-\gamma q S_t) E_t[\exp(-\gamma q S(T-t))]\\
&= -\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) \tag{C}
\end{aligned}
Reservation price (留保価格)
論文では、現在の状態からある値段で1株売っても価値関数vの値が変わらない株価をReservaion priceとして求めています。この計算も一応やっておきます。
Reservation priceは、t時点での株価sと在庫qによって変化します。ここでは1株売っても価値関数vの値が変わらない価格をReservation ask priceと呼び、r^a(s,q,t) = R^aとします。
1株売ると、在庫qは1減って、資産xがR^aだけ増えることになりますので、取引をする前とした後の価値関数vを等式でつなぐと以下のような数式が得られます。
-\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) = -\exp(-\gamma (x+R^a)) \exp(-\gamma (q-1) S_t) \exp\left(\frac{1}{2}\gamma^2(q-1)^2\sigma^2(T-t)\right)
これを変形していけば論文と一致するR^aが簡単に出てきます。
\begin{aligned}
-\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) &= -\exp(-\gamma (x+R^a)) \exp(-\gamma (q-1) S_t) \exp\left(\frac{1}{2}\gamma^2(q-1)^2\sigma^2(T-t)\right) \\
&= -\exp(-\gamma x) \exp(-\gamma R^a) \exp(-\gamma q S_t) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2(T-t)\right) \exp\left(\frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t)\right) \\
1 &= \exp(-\gamma R^a) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t) \right) \\
\exp(\gamma R^a) &= \exp\left(\gamma S_t + \frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t) \right) \\
R^a &= S_t + \frac{1}{2}(1-2q)\gamma\sigma^2(T-t)\tag{6}
\end{aligned}
1株買うときのR^bも同様の計算です。
\begin{aligned}
-\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) &= -\exp(-\gamma (x-R^b)) \exp(-\gamma (q+1) S_t) \exp\left(\frac{1}{2}\gamma^2(q+1)^2\sigma^2(T-t)\right) \\
&= -\exp(-\gamma x) \exp(\gamma R^b) \exp(-\gamma q S_t) \exp(-\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2(T-t)\right) \exp\left(\frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t)\right) \\
1 &= \exp(\gamma R^b) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t) \right) \\
\exp(\gamma R^b) &= \exp\left(\gamma S_t - \frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t) \right) \\
R^b &= S_t + \frac{1}{2}(-2q-1)\gamma\sigma^2(T-t)\tag{7}
\end{aligned}
論文では、これらR^aとR^bの平均値を、株を売りも買いもしなかったときのReservation priceとして求めています。
R = S_t + -q\gamma\sigma^2(T-t)\tag{8}
このReservation priceの数式は、価値関数vに基づいて判断した場合、エージェントがポジションを持っている時は、多少仲値よりも不利な価格でもポジションをクローズしたくなることを意味しています。そして、その多少不利な価格と仲値の差は、価格系列に含まれるノイズ成分の分散\sigma^2、エージェントのリスク感応度\gamma、そして価値を最大化する目標の時間までの残り時間(T-t)に比例することを明らかにしています。
Discussion