この記事はFediverse Advent Calendar 2025の21日目の記事です.
はじめに
Schumacherの量子情報源符号化定理は量子情報理論における符号化定理の中でもっとも単純なものであり, かつvon Neumannエントロピーに操作的な意味を与え, 量子情報源のもつ情報の量を明確にした点で重要な結果だと言えます. 本記事は, データ圧縮のコンセプトや古典情報理論におけるShannonの情報源符号化定理を振り返るとともに, Schumacherの量子情報源符号化定理を理解することを試みたものです.
データ圧縮のコンセプトと例
現代的な日常生活を送っている人ならば, JPEG, PNG, ZIP, GIFなどのファイル形式に日々触れていることと思います. これらのファイル形式はそれぞれ独自の圧縮アルゴリズムによってデータを圧縮(compression)しています. あるデータを送信したいときや保存したいとき, もとのデータのまま送信・保存するよりも, 圧縮してそのサイズを小さくしてから送信・保存したほうが少ないリソースでそれらが実行できるからです. 圧縮は符号化(encoding)と復号(decoding)で構成されています. 符号化によってデータをよりサイズの小さいデータに変換し, 実際にそのデータを利用するときには復号によって元のデータを得るという具合です. (復号は「解凍」とも言いますが, これはzipをダウンロードしたときなどによく目にすると思います.)
データ圧縮をする上で, 復号したデータがもとのデータと全く以て違っていてしまっては元も子もありませんから, 複号後のデータが元のデータと近しいということを要請することは自然でしょう. さらに, 符号化によってデータのサイズをできるだけ小さくしたいというのも自然な願望です. したがって以下のような問題を考えたくなります:
この問いを数学的にきちんと考えるために, まずは「情報」とは何かを定義する必要があります. これは難しい問題ですが, ここでは「情報」とは「確率的に記号を出力するデバイスからデータが生成される確率過程」と定義します. 字面だけを見ると小難しいことを言っているように思えますが, たとえば天気などを考えると, 少しはこの定義の意味するところが分かってきます. すなわち, 我々が「天気に関する情報を得た」と思うのは, 確率的に「晴れ」「曇り」「雨」などを出力するデバイスである空が, 特定の気候を示したときであると言えます. さて, このように「確率的に記号を出力するデバイス」を情報源(information source)とよびます.
ここまでを踏まえて, データ圧縮の簡単な例を考えてみましょう. 次のような設定を考えます.
- 情報源が記号\{a,b,c,d\}のうちいずれかの記号を出力する
- それぞれの記号が出力される確率分布は以下の通り:
\begin{align*}\mathrm{Pr}[a]=1/2,\ \mathrm{Pr}[b]=1/8,\ \mathrm{Pr}[c]=1/4,\ \mathrm{Pr}[d]=1/8\end{align*}
この設定の下では, 符号化後のビット列の長さの期待値が短いほど, よい圧縮であると考えます. まず, 素朴な符号化として
\begin{align*}a\rightarrow00,\ b\rightarrow01,\ c\rightarrow10,\ d\rightarrow11\end{align*}
が考えられます. これはどの記号にも長さ2のビット列を対応させる方法で, ビット長の期待値は2です. ここで, 記号の確率分布を観察すると, それぞれの記号の起こりやすさには偏りがあることがわかります. したがって, 「起こりやすいものは短く, 起こりにくいものは長く符号化する」というアイデアを採用することで, より短く符号化できそうな感じがします. 実際,
\begin{align*}a\rightarrow0,\ b\rightarrow110,\ c\rightarrow10,\ d\rightarrow111\end{align*}
という符号化を考えると, このビット長の期待値は7/4(<2)となります. さらにこの符号化は, 符号化されたビット列を一意に復号可能であるという特徴ももちます. たとえば,
\begin{align*}0011010111010100010\end{align*}
というビット列は
\begin{align*}0\ 0\ 110\ 10\ 111\ 0\ 10\ 10\ 0\ 0\ 10\end{align*}
というように一意に分解できるため, 元の記号列は
\begin{align*}aabcdaccaac\end{align*}
であるということがわかります. 以上より, 後者の符号化の方がよい圧縮であることがわかります.
Shannonの情報源符号化定理
データ圧縮の簡単な例を通して, そのコンセプトをなんとなく理解していただけたと思います. 以下ではこれまで述べたことを数学的に定式化し, データ圧縮の限界を示すShannonの情報源符号化定理(Shannon's source coding theorem)の主張を述べます.
さて, データ圧縮を数学的に扱うために以下のような設定を考えます:
- 有限個の記号からなる集合\mathcal{X}(このような集合を情報理論ではアルファベットと呼称します)に値をとる確率変数をXとし, その実現値をxと表す
- 情報源が記号列x^{n}=x_{1}x_{2}\cdots x_{n}を出力する
- この情報源は分布p_{X}(x)による独立同時分布(independent and identically distributed; i.i.d.)であると仮定する:
\begin{align*}p_{X^{n}}(x^{n})=\prod_{i=1}^{n}p_{X}(x_{i})\end{align*}
また, 情報源の圧縮を以下のように定義します:
- 符号化E_{n}:\mathcal{X}^{n}\rightarrow\{0,1\}^{nR}と復号D_{n}:\{0,1\}^{nR}\rightarrow\mathcal{X}^{n}の組の列\{(E_{n},D_{n})\}_{n}に対して, 圧縮成功確率をp_{n}^{\mathrm{succ}}:=\mathrm{Pr}[(D_{n}\circ E_{n})(X^{n})=X^{n}]と定義する
- 符号化と復号の組の列\{(E_{n},D_{n})\}_{n}が存在して, \lim_{n\rightarrow\infty}p_{n}^{\mathrm{succ}}=1を満たすとき, Rを達成可能な圧縮レート(achievable compression rate)という
- 達成可能な圧縮レートの下限を情報源の圧縮限界(compression limit)という
先ほどの例との違いは, 今回は1つの記号を符号化するのではなく, 長さnの記号列を, 長さnRのビット列へと符号化している点です. また, x^{n}の情報源がi.i.d.であるという仮定も重要です. i.i.d.が出力する記号列は一つひとつの記号が同じ確率分布に従ってランダムに出力されるため, それ自体が意味のあるメッセージを出力することはできません. しかし, i.i.d.は情報源のもっとも簡単なモデルであり, 数学的に扱いやすいため, このような議論ではよく用いられます. 以上でShannonの情報源符号化定理を述べる準備ができました.
この定理の証明は2つの部分から構成されます. 1つは圧縮レートがH(X)となる圧縮プロトコルを明示的に構成して, 圧縮限界\leq H(X)を示すパートです. もう1つは, どのような圧縮プロトコルを以てしても圧縮レートがH(X)を下回ることができないことを示すことで, 圧縮限界\geq H(X)を示すパートです. 情報理論ではこのような証明の手法がよく採用されており, しばしば前者のことを達成可能性(achievability)の議論, 後者のことを最適性(optimality)の議論と呼称します. Shannonの情報源符号化定理における達成可能性の議論の核となるのが典型系列(typical sequence)という概念です.
典型系列とその性質
i.i.d.が満たす性質である典型性(typicality)を理解するために, 先ほどの例
\begin{align*}\mathrm{Pr}[a]=1/2,\ \mathrm{Pr}[b]=1/8,\ \mathrm{Pr}[c]=1/4,\ \mathrm{Pr}[d]=1/8\end{align*}
を再び考えます. この情報源によるi.i.d.が128文字の記号列を出力したとき, 記号a,b,c,dが現れる回数としてもっともらしいのはそれぞれいくつでしょうか. 直感的にはaが128\times\frac{1}{2}=64回, cが128\times\frac{1}{4}=32回, b, dがどちらも128\times\frac{1}{8}=16回となるのがもっともらしい気がします. 反対に, 「bが128回出る」みたいなことは滅多に起こらなさそうです. この直感は実際正しいのですが, 数学的にきちんと定式化しましょう. もう少し一般的な以下の設定で考えます:
- アルファベット\mathcal{X}の要素をa_{1},\dots,a_{|\mathcal{X}|}とする
-
N(a_{i}|x^{n})を記号列x^{n}の中で記号a_{i}が現れる回数とする(\sum_{i=1}^{|\mathcal{X}|}N(a_{i}|x^{n})=n)
この設定の下では, 記号列x^{n}が生成される確率は
\begin{align*}p_{X^{n}}(x^{n})=\prod_{i=1}^{|\mathcal{X}|}p_{X}(a_{i})^{N(a_{i}|x^{n})}\end{align*}
とかくことができます. ここで, 天下り的ですが以下のような確率変数を考えます:
\begin{align*}-\frac{1}{n}\log p_{X^{n}}(X^{n})\end{align*}
これは自己情報量(information content)をnで割ったものです. 自己情報量とは, 確率が高いほど小さく, 低いほど大きくなるため, よく「驚き具合」を定量化するとも言われます. とにかく, 自己情報量を計算してみると,
\begin{align*}-\frac{1}{n}\log p_{X^{n}}(X^{n})=-\sum_{i=1}^{|\mathcal{X}|}\frac{N(a_{i}|X^{n})}{n}\log p_{X}(a_{i})\end{align*}
を得ます. nが十分に大きいとき, 大数の法則により\frac{N(a_{i}|X^{n})}{n}\approx p_{X}(a_{i})が言えるため(a_{i}を固定したときの確率変数\delta_{a_{i}}(X_{s})の算術平均は\frac{N(a_{i}|X^{n})}{n}で, 期待値は\mathbb{E}[\delta_{a_{i}}(X_{s})]=p_{X}(a_{i})), nが十分に大きいとき,
\begin{align*}-\frac{1}{n}\log p_{X^{n}}(X^{n})\approx-\sum_{i=1}^{|\mathcal{X}|}p_{X}(a_{i})\log p_{X}(a_{i})=H(X)\end{align*}
が言えます.
これまでの議論から, nが十分大きければx^{n}はほぼ確実に典型系列であると言うことができます. 先ほどの例では「aが64回, cが32回, b, dが16回」という記号列は典型系列であり, 「bが128回」という記号列は非典型系列であったのです.
典型系列が満たす重要な性質をまとめておきます.
これらの性質はとても興味深いです. 性質1は先ほども述べたように, nが十分大きければx^{n}はほぼ確実に典型系列であることを言っています. 性質2は典型系列の個数はnが十分に大きいとき|T_{\delta}^{n}(X)|\approx2^{nH(X)}であることを述べており, 性質3はnが十分に大きいときp_{X^{n}}(x^{n})\approx2^{-nH(X)}であることを述べています. すなわち, 「nが十分に大きい極限では, X^{n}の確率分布はT_{\delta}^{n}(X)上の一様分布に収束する」ということがわかります. この性質を漸近的等分配性(asymptotic equipartition property; AEP)といいます.
性質1の証明
確率変数列-\log p_{X}(X_{1}),\dots,-\log p_{X}(X_{n})に対して大数の法則を適用すると, 任意の\epsilon\in(0,1), \delta>0に対して, あるn_{0}が存在して, 任意のn>n_{0}に対して以下が成り立ちます:
\begin{align*}\mathrm{Pr}\left[\left|-\frac{1}{n}\sum_{i=1}^{n}\log p_{X}(X_{i})-\mathbb{E}_{X}[-\log p_{X}(X)]\right|\leq\delta\right]\geq1-\epsilon\end{align*}
ここで, -\frac{1}{n}\sum_{i=1}^{n}\log p_{X}(X_{i})=-\frac{1}{n}\log p_{X^{n}}(X^{n})および, \mathbb{E}_{X}[-\log p_{X}(X)]=-\sum_{x\in\mathcal{X}}p_{X}(x)\log p_{X}(x)=H(X)なので題意は成り立ちます. (証明終了)
性質3の証明
これは, 典型系列の定義:
\begin{align*}\left|-\frac{1}{n}\log p_{X^{n}}(x^{n})-H(X)\right|\leq\delta\end{align*}
を直接変形することで得られます. (証明終了)
性質2の証明
上限は以下の不等式より従います:
\begin{align*}2^{-n(H(X)+\delta)}|T_{\delta}^{n}(X)|=\sum_{x^{n}\in\ T_{\delta}^{n}(X)}2^{-n(H(X)+\delta)}\leq\sum_{x^{n}\in\ T_{\delta}^{n}(X)}p_{X^{n}}(x^{n})\leq1\end{align*}
最初の不等号には性質3を用いました. 下限は以下の不等式より従います:
\begin{align*}2^{-n(H(X)-\delta)}|T_{\delta}^{X^{n}}|=\sum_{x^{n}\in\ T_{\delta}^{X^{n}}}2^{-n(H(X)-\delta)}\geq\sum_{x^{n}\in\ T_{\delta}^{X^{n}}}p_{X^{n}}(x^{n})=\mathrm{Pr}[x^{n}\in T_{\delta}^{X^{n}}]\geq1-\epsilon\end{align*}
最初の不等号に性質3を用い, 2番目の不等号に性質1を用いました. (証明終了)
性質2から, 典型集合のサイズは\approx2^{nH(X)}であり, 確率変数Xが一様でない限りすべての記号列の集合のサイズ2^{n\log|\mathcal{X}|}よりも指数関数的に小さいということがわかります. これらの性質を用いて, 以下のような圧縮プロトコルを考えることができます.
- 情報源が典型系列を出力したときだけ圧縮成功とし, それ以外を出力したときは圧縮失敗とする
- 典型集合上の写像f:T_{\delta}^{n}(X)\rightarrow\{0,1\}^{n(H(X)+\delta)}は典型系列を長さn(H(X)+\delta)のビット列に変換する
- 符号化として, 典型系列に対してはfを作用させ, 非典型系列はすべて0^{n}に写すものを考える
- 復号はf^{-1}である(fは可逆)
写像fは典型系列の記号列をビット列によってラベリングする写像と考えてよいです. このラベリングは一対一対応をするので写像fは可逆です. この圧縮プロトコルが失敗する確率はn\rightarrow\inftyで0になります. また, nが十分に大きいとき圧縮レートはH(x)となります. したがって, Shannonの情報源符号化定理の達成可能性を示すことができました. 最適性に関しては本記事では証明しませんが, Shannonエントロピーの性質を用いることで証明できます.
量子情報源と典型部分空間
古典の場合では情報源を「確率的に記号を出力するデバイス」として定義しました. これを量子の場合にも拡張すると, 量子情報源(quantum information source)とは「確率的に純粋状態を出力するデバイス」だと考えることができます. つまり, 確率a_{X}(x)で純粋状態\ket{\alpha_{x}}^{A}を出力する量子情報源はアンサンブル\{a_{X}(x),\ket{\alpha_{x}}^{A}\}_{x}だと考えるわけです. ここで, \{\ket{\alpha_{x}}^{A}\}_{x}は必ずしも正規直交系をなす必要はないことに注意が必要です. このアンサンブルに対応する密度演算子は\rho^{A}=\sum_{x}a_{X}(x)\ket{\alpha_{x}}\bra{\alpha_{x}}^{A}ですが, 密度演算子をこのようにランク1の射影演算子の凸結合に分解する方法は1通りではありません. 同じ密度演算子\rho^{A}を与える2つのアンサンブル\{a_{X}(x),\ket{\alpha_{x}}^{A}\}_{x}と\{b_{X}(x),\ket{\beta_{x}}^{A}\}_{x}はいかなる測定を用いても見分けることができないことを思い出すと, このようにアンサンブルで量子情報源を定義することは冗長であるということがわかります. したがって, ここでは量子情報源を密度演算子\rho^{A}によって定義することにします. また, 量子系Aと同型な参照系Rによる純粋化\ket{\rho}^{AR}を量子情報源として定義することもあります.
さて, この量子情報源\rho^{A}によるi.i.d.\rho_{n}^{A^{n}}:=(\rho^{A})^{\otimes n}を考えます. 密度演算子\rho^{A}を
\begin{align*}\rho^{A}=\sum_{x\in\mathcal{X}}p_{X}(x)\ket{\psi_{x}}\bra{\psi_{x}}^{A}\end{align*}
と固有値分解すると, i.i.d.は
\begin{align*}\rho_{n}^{A^{n}}&=(\rho^{A})^{\otimes n}=\sum_{x_{1}\in\mathcal{X}}\cdots\sum_{x_{n}\in\mathcal{X}}p_{X_{1}}(x_{1})\cdots p_{X_{n}}(x_{n})\ket{\psi_{x_{1}}}\bra{\psi_{x_{1}}}^{A_{1}}\otimes\cdots\otimes\ket{\psi_{x_{n}}}\bra{\psi_{x_{n}}}^{A_{n}} \\ &=\sum_{x^{n}\in\mathcal{X}^{n}}p_{X^{n}}(x^{n})\ket{\psi_{x^{n}}}\bra{\psi_{x^{n}}}^{A^{n}}\end{align*}
と書くことができます. ここで,
\begin{align*}p_{X^{n}}(x^{n})=\prod_{m=1}^{n}p_{X_{m}}(x_{m}),\quad \ket{\psi_{x^{n}}}=\bigotimes_{m=1}^{n}\ket{\psi_{x_{m}}}^{A_{m}}\end{align*}
です. 古典の場合のi.i.d.p_{X^{n}}(x^{n})に対して典型系列の性質を用いると, nが十分に大きければ, ほぼ確実にx^{n}\in T_{\delta}^{n}(X)であり, p_{X^{n}}(x^{n})\approx2^{-nH(X)}であることがわかります. さらにp_{X}(x)は\rho^{A}の固有値であるため, H(X)はvon NeumannエントロピーH(A)_{\rho}に等しいです. よって, nが十分大きいとき
\begin{align*}\rho^{A^{n}}\approx2^{-nH(A)_{\rho}}\sum_{x^{n}\in T_{\delta}^{n}(X)}\ket{\psi_{x^{n}}}\bra{\psi_{x^{n}}}^{A^{n}}\end{align*}
が成り立ちます. 以上を踏まえ, 古典の場合の典型系列を量子情報の場合にも拡張することができます.
\{\ket{\psi_{x}}^{A}\}_{x}は正規直交系をなすので\sum_{x^{n}\in T_{\delta}^{n}(X)}\ket{\psi_{x^{n}}}\bra{\psi_{x^{n}}}^{A^{n}}は射影演算子になります. この射影演算子を\Pi_{\delta}^{A^{n}}(\rho)と書き, 典型射影演算子(typical projector)とよびます. このように定義した典型部分空間に対しても古典情報源の典型系列と同じような性質が成り立ちます.
これらの性質は古典情報源の典型系列が満たす性質を用いることで容易に示すことができます. 具体的には, 性質1は\mathrm{Tr}[\rho_{n}^{A^{n}}\Pi_{\delta}^{A^{n}}(\rho)]=\mathrm{Pr}[x^{n}\in T_{\delta}^{n}(X)]であること, 性質2は\mathrm{Tr}[\Pi_{\delta}^{A^{n}}(\rho)]=|T_{\delta}^{n}(X)|であることから従います. \Pi_{\delta}^{A^{n}}(\rho)\rho_{n}^{A^{n}}\Pi_{\delta}^{A^{n}}(\rho)=\sum_{x^{n}\in T_{\delta}^{n}(X)}p_{X^{n}}(x^{n})\ket{\psi_{x^{n}}}\bra{\psi_{x^{n}}}であることから, 性質3は\forall x^{n}\in T_{\delta}^{n}(X),\ 2^{-n(H(A)_{\rho}+\delta)}\leq p_{X^{n}}(x^{n})\leq2^{-n(H(A)_{\rho}-\delta)}と同値であることがわかります. これは古典情報源の場合と全く同じです. これらの性質を, 古典情報源の場合との対応から量子漸近的等分配性(quantum asymptotic equipartition property; QAEP)とよびます.
量子情報源の圧縮を議論する前に, 古典情報源の典型系列と量子情報源の典型部分集合の違いを簡単な例を通してみてみましょう. 確率1/2で状態\ket{0}, 確率1/2で状態\ket{+}を出力する情報源によるi.i.d.を考えます. まず, この情報源を古典的に扱います. すなわち, 確率1/2で記号0を, 確率1/2で記号+を出力する古典情報源を考えます. この情報源のエントロピーは1なので, 典型系列のサイズは\approx2^{n}となります. 次に, この情報源を量子情報源として扱います. すなわち, 密度演算子
\begin{align*}\rho=\frac{1}{2}\ket{+}\bra{+}+\frac{1}{2}\ket{0}\bra{0}=\begin{pmatrix}\frac{3}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4}\end{pmatrix}\end{align*}
を考えます. \rhoを固有値分解すると, 正規直交系\{\ket{\psi_{0}},\ket{\psi_{1}}\}を用いて
\begin{align*}\rho=\cos^{2}(\pi/8)\ket{\psi_{0}}\bra{\psi_{0}}+\sin^{2}(\pi/8)\ket{\psi_{1}}\bra{\psi_{1}}\end{align*}
となります. \rhoのvon Neumannエントロピーは確率分布\{\cos^{2}(\pi/8),\sin^{2}(\pi/8)\}のShannonエントロピーと等しく, これは約0.6になります. したがって, 典型部分空間の次元は\approx2^{0.6n}となります. このサイズの違いは\ket{0}と\ket{+}が非直交であることに起因します. この結果から, 量子情報源を与えるアンサンブル\{a_{X}(x),\ket{\alpha_{x}}\}_{x}については, その量子性を無視して単に古典情報源\{a_{X}(x)\}_{x}の圧縮を考えるよりも, このアンサンブルに対応する密度演算子の典型部分空間への圧縮を考えたほうがよいレートで圧縮できることがあるということがわかります.
Shumacherの量子情報源符号化定理
ここまでの議論から, 量子情報源の圧縮限界がvon Neumannエントロピーになるということがなんとなく想像できるかと思います. まずは, 量子情報源の圧縮をきちんと定義しておきましょう. 量子情報源の場合は, 符号化は量子チャネル\mathcal{E}^{A^{n}\rightarrow C}, 復号は量子チャネル\mathcal{D}^{C\rightarrow A^{n}}となります. 圧縮率を特徴づけるのはd_{C}:=\dim\mathcal{H}^{C}です.
さて, ここまででSchumacherの量子情報源符号化定理を述べる準備ができました.
証明
まずは, 圧縮レートH(A)_{\rho}を達成する符号化と復号を構成することでR(\rho)\leq H(A)_{\rho}を示します. 表記を簡単にするため密度演算子\rho^{A}の(n,\delta)-典型部分空間をT_{\delta}と書くことにします. また, T_{\delta}への典型射影演算子を\Pi_{\delta}^{A^{n}}と書きます. 古典情報源の圧縮で用いた写像fを用いて, 線形演算子
\begin{align*}V^{A^{n}\rightarrow C}:=\sum_{x^{n}\in T_{\delta}^{n}(X)}\ket{f(x^{n})}^{C}\bra{x^{n}}^{A^{n}}\end{align*}を定義します. この線形演算子は
(V^{A^{n}\rightarrow C})^{\dagger}V^{A^{n}\rightarrow C}=\Pi_{\delta}^{A^{n}}を満たします. 符号化として, まず典型射影演算子による射影測定
\{\Pi_{\delta}^{A^{n}},I^{A^{n}}-\Pi_{\delta}^{A^{n}}\}を行います. 前者が得られた場合は圧縮成功で, 続けて線形演算子
V^{A^{n}\rightarrow C}を作用させます. 後者が得られた場合は圧縮失敗で, 測定後の状態を無視して
C上の固定された状態
\tau^{C}を生成します. これを1つの量子チャネルとして書くと
\begin{align*}\mathcal{E}_{n}^{A^{n}\rightarrow C}(\zeta^{A^{n}})=V^{A^{n}\rightarrow C}(\Pi_{\delta}^{A^{n}}\zeta^{A^{n}}\Pi_{\delta}^{A^{n}})(V^{A^{n}\rightarrow C})^{\dagger}+\mathrm{Tr}[(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\zeta^{A^{n}}]\tau^{C}\end{align*}となります. さらに, 復号を
\begin{align*}\mathcal{D}_{n}^{C\rightarrow A^{n}}(\xi^{C})=(V^{A^{n}\rightarrow C})^{\dagger}\xi^{C}V^{A^{n}\rightarrow C}\end{align*}と定義します. 符号化と復号を施した後の状態は
\begin{align*}\mathcal{D}_{n}^{C\rightarrow A^{n}}\circ\mathcal{E}_{n}^{A^{n}\rightarrow C}(\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}})&=\Pi_{\delta}^{A^{n}}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}\Pi_{\delta}^{A^{n}} \\ &+p_{\mathrm{atyp}}(V^{A^{n}\rightarrow C})^{\dagger}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}V^{A^{n}\rightarrow C}\end{align*}となります. ここで,
p_{\mathrm{atyp}}=\mathrm{Tr}[(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}]とおきました. 典型部分空間の性質から, 任意の
\epsilon\in(0,1)に対して, 十分大きい
nが存在して,
p_{\mathrm{atyp}}\leq\epsilonとなります. この状態と初めの状態のトレース距離を考えます. まず三角不等式から
\begin{align*}
&\left\|\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}-\mathcal{D}_{n}^{C\rightarrow A^{n}}\circ\mathcal{E}_{n}^{A^{n}\rightarrow C}(\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}})\right\|_{1} \\ &\leq\left\|\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}-\Pi_{\delta}^{A^{n}}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}\Pi_{\delta}^{A^{n}}\right\|_{1}+p_{\mathrm{atyp}}\left\|(V^{A^{n}\rightarrow C})^{\dagger}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}V^{A^{n}\rightarrow C}\right\|_{1}
\end{align*}
が言えます. 第一項に関して以下のように評価します:
\begin{align*}
&\left\|\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}-\Pi_{\delta}^{A^{n}}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}\Pi_{\delta}^{A^{n}}\right\|_{1} \\ &=\left\|(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}+\Pi_{\delta}^{A^{n}}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\right\|_{1} \\ &\leq\left\|(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}\right\|_{1}+\left\|\Pi_{\delta}^{A^{n}}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\right\|_{1} \\ &=\left\|(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\right\|_{1} \\ &\qquad\qquad+\left\|\Pi_{\delta}^{A^{n}}\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\right\|_{1} \\ &\leq\left\|(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\right\|_{2}\left(\left\|\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\right\|_{2}+\left\|\Pi_{\delta}^{A^{n}}\sqrt{\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}}\right\|_{2}\right) \\ &\leq2\sqrt{\mathrm{Tr}\left[(I^{A^{n}}-\Pi_{\delta}^{A^{n}})\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}\right]} \\ &\leq2\sqrt{\epsilon}\end{align*}
4行目から5行目ではHölderの不等式を用いました. 第二項に関しては
\begin{align*}p_{\mathrm{atyp}}\left\|(V^{A^{n}\rightarrow C})^{\dagger}\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}V^{A^{n}\rightarrow C}\right\|_{1}\leq\epsilon\end{align*}
が成り立ちます. したがって,
\begin{align*}\epsilon_{n}(\mathcal{E}, \mathcal{D}|\rho)\leq\sqrt{\epsilon}+\frac{\epsilon}{2}\end{align*}
つまり, \lim_{n\rightarrow\infty}\epsilon_{n}(\mathcal{E}, \mathcal{D}|\rho)=0が成り立ちます. 以上よりこの圧縮プロトコルによって量子情報源を典型部分空間T_{\delta}に圧縮できることがわかりました. 典型部分空間の性質より\dim T_{\delta}\leq2^{n(H(A)_{\rho}+\delta)}で, n\rightarrow\inftyの極限で\delta\rightarrow0と取れるのでH(A)_{\rho}は達成可能な量子圧縮レートであることが証明できました.
次に, どのような圧縮プロトコルについても圧縮レートがH(A)_{\rho}を下回ることはないことを示すことで, R(\rho)\geq H(A)_{\rho}を証明します. 圧縮レートがH(A)_{\rho}よりも\delta_{n}\geq0だけ小さくなるような符号化と復号の組\{(\mathcal{E}_{n}^{A^{n}\rightarrow C},\mathcal{D}_{n}^{C\rightarrow A^{n}})\}_{n}が存在すると仮定します. 符号化後と復号後の状態をそれぞれ
\begin{align*}\rho_{\mathrm{enc}}^{CR^{n}}:=\mathcal{E}_{n}^{A^{n}\rightarrow C}(\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}),\ \rho_{\mathrm{dec}}^{A^{n}R^{n}}:=\mathcal{D}_{n}^{C\rightarrow A^{n}}\circ\mathcal{E}_{n}^{A^{n}\rightarrow C}(\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}})\end{align*}
とおきます. また, このプロトコルの復元エラーは\lim_{n\rightarrow\infty}\epsilon_{n}=0なる\epsilon_{n}によって,
\begin{align*}\epsilon_{n}(\mathcal{E}, \mathcal{D}|\rho)=\frac{1}{2}\left\|\ket{\rho_{n}}\bra{\rho_{n}}^{A^{n}R^{n}}-\rho_{\mathrm{dec}}^{A^{n}R^{n}}\right\|_{1}\leq\epsilon_{n}\end{align*}
と抑えられると仮定します. ここで, これらの状態の量子相互情報量を考えます. まず, 一般の量子状態\sigma^{AB}についてI(A:B)_{\sigma}\leq2\min\{\log d_{A},\log d_{B}\}が成り立つことと, d_{C}\leq\dim\mathcal{H}^{A^{n}}=\dim\mathcal{H}^{R^{n}}が成り立つことから,
\begin{align*}I(C:R^{n})_{\rho_{\mathrm{enc}}}\leq2\log d_{C}=2n(H(A)_{\rho}-\delta_{n})\end{align*}
が言えます. さらに, 量子相互情報量が任意の量子チャネルの下で非増加であるという性質(単調性(monotonicity))を用いることで
\begin{align*}I(A^{n}:R^{n})_{\rho_{\mathrm{dec}}}\leq I(C:R^{n})_{\rho_{\mathrm{enc}}}\leq2n(H(A)_{\rho}-\delta_{n})\end{align*}
がわかります. H(R^{n})_{\rho_{\mathrm{dec}}}=H(R^{n})_{\rho_{n}}という関係に注意すると,
\begin{align*}&|I(A^{n}:R^{n})_{\ket{\rho_{n}}\bra{\rho_{n}}}-I(A^{n}:R^{n})_{\rho_{\mathrm{dec}}}| \\ &=|H(R^{n})_{\rho_{n}}-H(R^{n}|A^{n})_{\ket{\rho_{n}}\bra{\rho_{n}}}-H(R^{n})_{\rho_{\mathrm{dec}}}+H(R^{n}|A^{n})_{\rho_{\mathrm{dec}}}| \\ &=|H(R^{n}|A^{n})_{\rho_{\mathrm{dec}}}-H(R^{n}|A^{n})_{\ket{\rho_{n}\bra{\rho_{n}}}}| \\ &\leq2n\epsilon_{n}\log d_{R}+g(\epsilon_{n})\end{align*}
が成り立つことがわかります. ただし, g(x)=(1+x)\log(1+x)-x\log xです. 最後の不等号では条件付き量子エントロピーの連続性(Alicki-Fannes-Winterの不等式)を用いました. 一方で,
\begin{align*}I(A^{n}:R^{n})_{\ket{\rho_{n}}\bra{\rho_{n}}}&=H(A^{n})_{\rho_{n}}+H(R^{n})_{\rho_{n}}-H(A^{n}R^{n})_{\ket{\rho_{n}}\bra{\rho_{n}}} \\ &=H(A^{n})_{\rho_{n}}+H(R^{n})_{\rho_{n}} \\ &=2H(A^{n})_{\rho_{n}} \\ &=2nH(A)_{\rho}\end{align*}
が成り立ちます. したがって, 2nH(A)_{\rho}-I(A^{n}:R^{n})_{\rho_{\mathrm{dec}}}\leq2n\epsilon_{n}\log d_{R}+g(\epsilon_{n}), つまり
\begin{align*}I(A^{n}:R^{n})_{\rho_{\mathrm{dec}}}\geq2nH(A)_{\rho}-2n\epsilon_{n}\log d_{R}-g(\epsilon_{n})\end{align*}
がわかります. 以上より2nH(A)_{\rho}-2n\epsilon_{n}\log d_{R}-g(\epsilon_{n})\leq2n(H(A)_{\rho}-\delta_{n}), つまり
\begin{align*}\delta_{n}\leq\epsilon_{n}\log d_{R}+\frac{g(\epsilon_{n})}{2n}\xrightarrow{n\rightarrow\infty}0\end{align*}
が成り立ちます. したがって, 漸近的にエラーが0になるという条件の下では, 圧縮レートはH(A)_{\rho}以上でなければならないことがわかります. つまり, R\geq H(A)_{\rho}です.(証明終了)
Schumacherの量子情報源符号化定理によって, 量子情報源も古典情報源と同じように圧縮・解凍できることが明らかになりました. つまり, 量子情報をメモリに保存したいときは圧縮してから保存して, 利用するときに解凍すればよいし, 量子情報を送信するときは, 送信者が圧縮してから送信して, 受信者が解凍すればよいということです.
おわりに
本記事ではデータ圧縮のコンセプトから始め, 古典情報源の典型系列やShannonの情報源符号化定理を解説するとともに, Schumacherの量子情報源符号化定理を解説しました. この定理の証明では, i.i.d.が満たす典型部分空間の性質である量子漸近的等分配性が重要な役割を果たすことがわかりました. この定理は, von Neumannエントロピーに量子情報源の圧縮限界という操作的な意味を与えたという点だけでなく, 量子情報通信の理論を切り拓いた点でも重要な結果だと言えます. 実際, エンタングルメント濃縮や古典通信路容量定理の証明においても典型部分空間の性質が重要になります.
参考文献
- 中田芳史. 量子情報理論―情報から物理現象の理解まで―. 朝倉書店, 2024.
- Wilde, Mark M. From classical to quantum Shannon theory. arXiv preprint arXiv:1106.1445, 2011.
Discussion