ただし、 $x$ はトレーダーが持っているキャッシュ、 $s$ は株価、 $q$ はトレーダーが持つ離散的な株数、 $t$ は時間、 $\gamma$ はリスク感応度、 $S(T)$ は終端時刻 $T$ での株価です。ざっくりいうと、時刻 $T$ 時点でのキャッシュと持ち株の価値の合計の期待値が大きくなればより価値が高いとみなしますが、 $-\exp(-x)$ の形なので、キャッシュと持ち株の価値の合計が大きくなるにつれて、価値関数 $v$ の値の伸びは鈍っていきます。

この式のままでは期待値オペレータがついていて扱いづらいので、論文では期待値オペレータを外した形を式 $\text{(3)}$ でサクッと導入しています。

なぜこんなことができるのかわからないので、式変形をして右辺の期待値オペレータをはずしてみます。

確率システム入門の4.4節で出てきた伊藤の公式を使いたいので思い出します。

教科書では $X(t)$ がベクトルでしたが、今回はスカラです。

微分形で以下のように表される伊藤確率過程 $X(t)$ があったとします。

dX(t) = \mu(t)dt + \sigma(t)dW(t)

ちなみに、この $X(t)$ は、積分形では以下のような形になります。

X(t) = X(0) + \int_0^t \mu(s)ds + \int_0^t \sigma(s)dW(s)

このような $X(t)$ を変数として持ち、 $t$ に関して一階微分可能、 $x$ に関して二階微分可能なスカラ関数 $F(t, x)$ を考えたとき、その時間増分 $dF(t,x)$ は、以下の伊藤の公式で表されます。

dF(t,x) = \left[\frac{\partial F(t, X(t))}{\partial t} + \mu(t)\frac{\partial F(t, X(t))}{\partial x} + \frac{1}{2}\sigma^2(t)\frac{\partial^2 F(t, X(t))}{\partial^2 x}\right]dt + \sigma(t)\frac{\partial F(t, X(t))}{\partial x}dW(t)

伊藤の公式の便利なところは、確率過程を変数に持った (特定の条件を満たす) 関数の微分がどのようなものになるかをサクッと示してくれるところです。

実際に期待値オペレーターを外す前に、 $v(x,s,q,t)$ を処理しやすく変形します。

\begin{aligned} v(x,s,q,t) &= E_t[-\exp(-\gamma(x+qS(T))]\\ &= E_t[-\exp(-\gamma x)\exp(-\gamma qS(T))]\\ &= -\exp(-\gamma x) E_t[\exp(-\gamma qS(T))]\\ &= -\exp(-\gamma x) E_t[\exp(-\gamma q(S(t) + S(T-t))]\\ &= -\exp(-\gamma x) \exp(-\gamma q S_t) E_t[\exp(-\gamma q S(T-t))] \tag{A} \end{aligned}

上で整頓した通り、 $dS(t) = \sigma dW(t)$ 、 $F(t,s) = \exp(-\gamma qS(t))$ とした時、差分 $dF(t,s)$ がどのようなものになるかを伊藤の公式を使って考えてみます。

$F(t,s) = \exp(-\gamma qS(t))$ は $t$ を含んだ項を持たないので $t$ で偏微分すると消えてしまいます
$\mu(t)$ は定数 $0$ なので、これを含む項も消えてしまいます
$F(t,s) = \exp(-\gamma qS(t))$ は $s$ で偏微分すると $-\gamma q F(t,s)$ となります

以上のことに注意しながら、伊藤の公式に代入すると以下のようになります。

\begin{aligned} dF(t,s) &= \frac{1}{2}\sigma^2\frac{\partial^2 F(t,S(t))}{\partial^2 s}dt + \sigma\frac{\partial F(t,S(t))}{\partial s}dW(t) \\ &= \frac{1}{2} \gamma^2 q^2 \sigma^2 F(t,S(t))\:dt - \gamma q \sigma F(t,S(t))\:dW(t) \end{aligned}

これで、確率過程 $S(t)$ を変数に持つ $F(t,s) = \exp(-\gamma qS(t))$ の差分 $dF(t,s)$ がどのようなものかがわかりました。

しかし、本当に知りたいのは $F(t,s)$ の差分である $dF(t,s)$ ではなくて、 $F(t,s)$ そのもの、更にその先の $E[F(t,s)]$ なので、積分して $F(t,s)$ を計算してみます。

$dF(t,s)$ は差分でしかないので、その積分を計算しても、初期値 $F(0,S(0))$ がなければ $F(t,s)$ はわからないことに注意すると…。

F(t,s) = \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t F(t',s)\:dt' + \gamma q \sigma \int_0^t F(t',s)\:dW(t') dt' + F(0, S(0))

最終的に知りたいのは $E[F(t,x)]$ なので、両辺の期待値を取ります。この時 $F(t,s)$ と $dW(t)$ は無相関なので、積の期待値は期待値の積として扱えます。

すると、ウィーナ過程の性質 $E[W(t) - W(s)] = 0$ があるので、 $E[dW(t')] = 0$ となり、 $dW(t')$ を含んだ項は消えてしまいます。

\begin{aligned} E[F(t,s)] &= \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t E[F(t',s)]\:dt' + \gamma q \sigma \int_0^t E[F(t',s)]\:E[dW(t')] dt' + E[F(0, x)]\\ &= \frac{1}{2} \gamma^2 q^2 \sigma^2 \int_0^t E[F(t',s)]\:dt' + E[F(0, S(0))]\\ \end{aligned}

ここで再び両辺を $t$ で微分します。初期値の項は消えて、だんだん求めたい形に近づいて来ました。

\begin{aligned} E[F'(t,s)] &= \frac{1}{2} \gamma^2 q^2 \sigma^2 E[F(t,s)]\\ \end{aligned}

$t$ で微分した後の $E[F'(t,s)]$ が微分する前の $E[F(t,s)]$ の定数倍したものということは、 $E[F(t,s)]$ が指数関数であることがわかります。

E[F(t,s)] = \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2 t\right) \tag{B}

ここで、式 $\text{(A)}$ で整頓した $v(x,s,q,t)$ に式 $\text{(B)}$ を当てはめると式 $\text{C}$ が得られ、論文の中の式 $\text{(3)}$ と一致します…かね？

\begin{aligned} v(x,s,q,t) &= -\exp(-\gamma x) \exp(-\gamma q S_t) E_t[\exp(-\gamma q S(T-t))]\\ &= -\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) \tag{C} \end{aligned}

Reservation price (留保価格)

論文では、現在の状態からある値段で1株売っても価値関数 $v$ の値が変わらない株価をReservaion priceとして求めています。この計算も一応やっておきます。

Reservation priceは、 $t$ 時点での株価 $s$ と在庫 $q$ によって変化します。ここでは1株売っても価値関数 $v$ の値が変わらない価格をReservation ask priceと呼び、 $r^a(s,q,t) = R^a$ とします。

1株売ると、在庫 $q$ は1減って、資産 $x$ が $R^a$ だけ増えることになりますので、取引をする前とした後の価値関数 $v$ を等式でつなぐと以下のような数式が得られます。

-\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) = -\exp(-\gamma (x+R^a)) \exp(-\gamma (q-1) S_t) \exp\left(\frac{1}{2}\gamma^2(q-1)^2\sigma^2(T-t)\right)

これを変形していけば論文と一致する $R^a$ が簡単に出てきます。

\begin{aligned} -\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) &= -\exp(-\gamma (x+R^a)) \exp(-\gamma (q-1) S_t) \exp\left(\frac{1}{2}\gamma^2(q-1)^2\sigma^2(T-t)\right) \\ &= -\exp(-\gamma x) \exp(-\gamma R^a) \exp(-\gamma q S_t) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2(T-t)\right) \exp\left(\frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t)\right) \\ 1 &= \exp(-\gamma R^a) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t) \right) \\ \exp(\gamma R^a) &= \exp\left(\gamma S_t + \frac{1}{2}\gamma^2 (-2q+1) \sigma^2(T-t) \right) \\ R^a &= S_t + \frac{1}{2}(1-2q)\gamma\sigma^2(T-t)\tag{6} \end{aligned}

1株買うときの $R^b$ も同様の計算です。

\begin{aligned} -\exp(-\gamma x) \exp(-\gamma q S_t) \exp\left(\frac{1}{2}\gamma^2q^2\sigma^2(T-t)\right) &= -\exp(-\gamma (x-R^b)) \exp(-\gamma (q+1) S_t) \exp\left(\frac{1}{2}\gamma^2(q+1)^2\sigma^2(T-t)\right) \\ &= -\exp(-\gamma x) \exp(\gamma R^b) \exp(-\gamma q S_t) \exp(-\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 q^2 \sigma^2(T-t)\right) \exp\left(\frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t)\right) \\ 1 &= \exp(\gamma R^b) \exp(\gamma S_t) \exp\left(\frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t) \right) \\ \exp(\gamma R^b) &= \exp\left(\gamma S_t - \frac{1}{2}\gamma^2 (2q+1) \sigma^2(T-t) \right) \\ R^b &= S_t + \frac{1}{2}(-2q-1)\gamma\sigma^2(T-t)\tag{7} \end{aligned}

論文では、これら $R^a$ と $R^b$ の平均値を、株を売りも買いもしなかったときのReservation priceとして求めています。

R = S_t + -q\gamma\sigma^2(T-t)\tag{8}

このReservation priceの数式は、価値関数 $v$ に基づいて判断した場合、エージェントがポジションを持っている時は、多少仲値よりも不利な価格でもポジションをクローズしたくなることを意味しています。そして、その多少不利な価格と仲値の差は、価格系列に含まれるノイズ成分の分散 $\sigma^2$ 、エージェントのリスク感応度 $\gamma$ 、そして価値を最大化する目標の時間までの残り時間 $(T-t)$ に比例することを明らかにしています。

やること

これまでのBotter自主ゼミノート

2.2 The optimizing agent with finite horizon

時間の定義

株価の定義

価値関数v

Reservation price (留保価格)

Discussion