めもめも

このブログに記載の内容は個人の見解であり、必ずしも所属組織の立場、戦略、意見を代表するものではありません。

量子エントロピー(フォン・ノイマンエントロピー)の性質を古典エントロピー(シャノンエントロピー)と比較して味わう試み

エントロピーの定義

・古典エントロピー(シャノンエントロピー)

X を確率分布 P(X=x_i) = p_i に従う確率変数として:

  \displaystyle H(X) = -\sum_{i}p_i\log p_i

・量子エントロピー(フォン・ノイマンエントロピー)

X を密度行列 \displaystyle\rho = \sum_i p_i{\mid i\rangle}{\langle i\mid} で記述される状態として:

  \displaystyle S(X) = -{\rm Tr}(\rho\log\rho) = -\sum_ip_i\log p_ì

・味わいたいポイント

量子エントロピーは、混合状態の量子状態が持つ「統計的な不確定性」に対する古典エントロピーを計算している。量子論的な不確定性は計算には含まれておらず、たとえば、純粋状態 \displaystyle {\mid\phi\rangle}= \frac{1}{\sqrt{2}}({\mid 0\rangle}+{\mid 1\rangle}) の量子エントロピーは 0 になる。

ちなみに、上記の純粋状態はの密度行列は、z 軸方向のスピン固有状態 {\mid 0\rangle},\,{\mid 1\rangle} を基底にすると、

 \displaystyle \rho = \frac{1}{2}\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}

となるが、仮に、z 軸方向のスピンについて非選択測定(測定だけして結果は確認しない)を行ったとすると、非対角成分が消えて、次の状態に変化する。

 \displaystyle \rho' = \frac{1}{2}\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}

これは、量子論的な不確定性を統計的な不確定性へと変化させる操作であり、この操作により、量子エントロピーは増加する。

  S(\rho)  = 0\ \Rightarrow\ S(\rho') = 1

より一般に、密度行列 \rho に対して、その非対角成分を 0 に置き換えたものを \rho_D とすると、

  S(\rho_D) \ge S(\rho) --- (1)

が成立する。(証明は、[1805.11965] A Mini-Introduction To Information Theory の 「3.3 Concavity」、もしくは、QCQI の Theorem 11.9 を参照)

条件付きエントロピー

・古典情報での定義

 \displaystyle H(X\mid Y) = -\sum_{i} p(y_i) \sum_j p(x_j\mid y_i)\log p(x_j\mid y_i)

これは、Y=y_iY の値が決まった場合の X のエントロピーをすべての Y の値について平均したもの。次のように変形すると、XY の同時確率分布に対するエントロピーを用いて書き直すことができる。

  \displaystyle H(X\mid Y) = -\sum_{i,\,j}p(x_j\mid y_i)p(y_i) \log \frac{p(x_j,\, y_i)}{p(y_i)}
  \displaystyle = -\sum_{i,\,j}p(x_j,\,y_i)\log p(x_j,\,y_i)+\sum_{i,\,j}p(x_j,\,y_i)\log p(y_i)
  \displaystyle = -\sum_{i,\,j}p(x_j,\,y_i)\log p(x_j,\,y_i)+\sum_{i}p(y_i)\log p(y_i) = H(X,\,Y)-H(Y)

この最後の表式は、同時分布  (X,\,Y) が持つ情報量から、 Y のサンプルを得た時の平均的な情報量の減少量と見ることができる。

・量子情報での定義

 \displaystyle S(X\mid Y) = S(XY) - S(Y) = -{\rm Tr}(\rho_{XY}\log \rho_{XY}) + {\rm Tr}(\rho_Y\log \rho_Y)

ここに、 \rho_{XY} は系 X と系 Y を結合した系の密度行列で、\rho_Y は系 X の状態をトレースアウトした密度行列

 \displaystyle \rho_Y = {\rm Tr}_X\,\rho_{XY}

である。

・味わいたいポイント

量子系においては、「条件付き確率」が定義できないため、系 XY と系 Y のエントロピーの差として形式的に定義されている。この場合も、「系 XY が持つ情報量から、Y の情報量を除いた残り」と表面的に解釈はできるが、系 XY と系 Y の関係は、古典情報における関係とは大きく異なる。(なぜなら、量子系には、同時分布の概念がないから。)

たとえば、系 XY が純粋状態  \displaystyle {\mid XY \rangle} = \frac{1}{\sqrt{2}}({\mid 0\rangle}\otimes{\mid 0\rangle}+{\mid 1\rangle}\otimes{\mid 1\rangle}) である場合、S(XY) = 0 であるが、一方、系 X の状態をトレースアウトすると、密度行列

 \displaystyle \rho_Y={\rm Tr}_X\,\rho_{XY}=\frac{1}{2}({\mid 0\rangle}{\langle 0\mid}+{\mid 1\rangle}{\langle 1\mid})

は混合状態となり、S(Y) = 1 となる。つまり、

 S(X\mid Y) = 0 - 1 = -1

であり、条件付きエントロピーは負の値となる。これは、古典的な条件付きエントロピーではあり得ない現象である。

系 XY と系 Y のこのような関係は、「混合状態 Y を状態 X により Purify したものが状態 XY」と見ることもできて、特に XY がエンタングルしている場合(X と Y の直積では書けない状態の場合)に、状態 Y が混合状態となり、条件付きエントロピーは負になる。(ここから、エンタングルメントが何か特別な役割を持っているような気になるが・・・・その実体は????)

Purification に関する補足

一般に、XY が純粋状態 \rho_{XY} である時、X(\rho_X = {\rm Tr_Y}\rho_{XY})と Y(\rho_Y = {\rm Tr_X}\rho_{XY})はどちらも混合状態となり得るが、なんとこの時、

 S(X) = S(Y)

が成立する。すなわち、共通の純粋状態から得られる部分系の統計的な不確定性は、かならず一致する。

この事実は、合成系 XY について、シュミット分解が適用できることから成り立つ。すなわち、

 \displaystyle {\mid XY\rangle} = \sum_i \sqrt{p_i}{\mid i_X\rangle}\otimes{\mid i_Y\rangle}

として、

 \displaystyle\rho_X = \sum_i p_i {\mid i_X\rangle}{\langle i_X\mid}

 \displaystyle\rho_Y = \sum_i p_i {\mid i_Y\rangle}{\langle i_Y\mid}

となる事から、

 \displaystyle S(\rho_X) = S(\rho_Y) = -\sum_i p_i\log p_i

が成立する。

・味わいたいポイント

いや・・・なんというか・・・味わい深いですよね。。。。シュミット分解は、純粋に線形空間の数学的な性質なのに、それがダイレクトに効いてこんなことになろうとは。。。。

相対エントロピー(KL ダイバージェンス)

・古典情報での定義

確率変数 X について、2種類の確率分布 p(x_i),\,q(x_i) がある時、これらの相対エントロピーが次で定義される。

  \displaystyle H(p || q) = \sum_i p(x_i)\log p(x_i) - p(x_i)\log q(x_i)

これは、2つの確率分布がどの程度「似ているか」を表す尺度で、非負の値を取り、p と q が一致する場合に限り 0 になる。

・量子情報での定義

系 X の2種類の状態(密度行列)\rho,\,\sigma について、これらの相対エントロピーが次で定義される。

  \displaystyle S(\rho||\sigma) = {\rm Tr}(\rho\log\rho)-{\rm Tr}(\rho\log\sigma)

これは、古典的な定義にあわせて形式的に定義したものであるが、結果的に \rho\sigma の類似度を表す指標となっている。つまり、非負の値を取り、\rho\sigma が一致する場合に限り 0 になる。

 \displaystyle  S(\rho||\sigma)\ge 0

これを「クラインの不等式」と呼ぶ。

・味わいたいポイント

クラインの不等式は、(個人的には・・・)その証明が味わい深いので、ここでは、証明そのものを紹介する。

まず、\rho\sigma を同時に対角化する基底が存在する場合を考える。この時、

 \displaystyle \rho = \sum_i p_i {\mid i\rangle}{\langle i\mid}

 \displaystyle \sigma = \sum_i q_i {\mid i\rangle}{\langle i\mid} --- (2)
 
として、

 \displaystyle  S(\rho||\sigma) = \sum_i p_i(\log p_i-\log q_i)

となり、これは古典的な相対エントロピーと同じ形式になっており、 S(\rho||\sigma)\ge 0 が成立する。

\rho\sigma を同時に対角化する基底が存在しない場合は、\sigma を (2) のように対角化する基底を用いて、

  \displaystyle p_i = {\langle i \mid} \rho {\mid i\rangle}

 \displaystyle\rho_D =\sum_i p_i {\mid i\rangle}{\langle i\mid}

と置く。この時、 {\langle i \mid} \rho {\mid i\rangle} =  {\langle i \mid} \rho_D {\mid i\rangle} が成り立つことに注意すると、

 \displaystyle S(\rho||\sigma)-S(\rho_D||\sigma) = {\rm Tr}(\rho\log\rho-\rho\log\sigma-\rho_D\log\rho_D+\rho_D\log\sigma)
  \displaystyle = -S(\rho)+S(\rho_D) - \sum_i({\langle i\mid}\rho{\mid i\rangle}-{\langle i\mid}\rho_D{\mid i\rangle})\log q_i\because {\langle j \mid}\log\sigma{\mid i\rangle} = \log q_i\delta_{ij}
  \displaystyle = -S(\rho)+S(\rho_D)

すなわち、

 \displaystyle S(\rho||\sigma)  = S(\rho_D||\sigma) + S(\rho_D) - S(\rho)

が成り立つ。先の結果より S(\rho_D||\sigma) \ge 0 であり、さらに、(1) より S(\rho_D)-S(\rho)\ge 0 であることから、\displaystyle S(\rho||\sigma)\ge 0 が得られる。■

この証明の味わい深いところは、

  \displaystyle S(\rho||\sigma) \ge S(\rho_D||\sigma)

が示されている部分で、密度行列 \rho において、\sigma の固有状態についての射影測定を行って非対角成分を落とすことで、\sigma との類似度が高まるという事実。\rho\rho_D は、状態 \mid i\rangle を与える確率は等しいにもかかわらず、非対角成分を持つ \rho は、より強く \sigma から区別できることが示唆されている。つまり、\rho\rho_D にはできない「何か」ができる可能性を持っている(はず)。

相互情報量

・古典情報での定義

 H(X:Y) = H(X) + H(Y) - H(X,\,Y)

これは、X と Y を個別に観測した場合の情報量と、同時に観測した場合の情報量の差を示す。この値は、X, Y の同時分布 p(x,\,y) と、X, Y が独立と仮定した分布 p(x)p(y) の相対エントロピーに一致しており、

  H( p(x,\, y) || p(x)p(y) ) = H(X:Y)

が成り立つ。したがって、相互情報量は非負の値をとり、X と Y が独立で、p(x,\,y)=p(x)p(y) となる場合に限り 0 になる。

・量子情報での定義

 S(X:Y) = S(X) + S(Y) - S(XY)

条件付きエントロピーと同様に、古典情報での定義を形式的に拡張したものであるが、古典の場合と同様に、\rho_{XY}\sigma = \rho_X\otimes \rho_Y の相対エントロピーに一致する。

 S(\rho_{XY}||\sigma) = S(X:Y)

したがって、非負の値をとり、XY が直積状態で、\rho_{XY} = \rho_X\otimes \rho_Y となる場合に限り 0 になる。この事実は、

  S(XY) \le S(X) + S(Y)

と書き直すことができて、量子エントロピーの「Subadditivity」と呼ばれる。

・味わいたいポイント

まず、相対エントロピーと相互情報量の関係を示しておく。

  S(\rho_{XY}||\sigma) = - S(XY) - {\rm Tr}(\rho_{XY}\log(\rho_X\otimes\rho_Y))

であり、さらに、

 \displaystyle \rho_X = \sum_i p_i{\mid i\rangle}{\langle i\mid}

 \displaystyle \rho_Y = \sum_i q_i{\mid i\rangle}{\langle i\mid}

として、

 \displaystyle \rho_X\otimes\rho_Y = \sum_{i,\,j}p_iq_j{\mid i\rangle}{\langle i\mid} \otimes {\mid i\rangle}{\langle i\mid}

より、

 \displaystyle \log \rho_X\otimes\rho_Y = \sum_{i,\,j}(\log p_i+\log q_j){\mid i\rangle}{\langle i\mid} \otimes {\mid j\rangle}{\langle j\mid}

であることから、

 \displaystyle {\rm Tr}(\rho_{XY}\log(\rho_X\otimes\rho_Y)) = \sum_{i,\,j}{\langle i\mid}\otimes{\langle j\mid}\rho_{XY}{\mid i\rangle}\otimes{\mid j\rangle}(\log p_i+\log q_j)

  \displaystyle = \sum_{i}{\langle i\mid}\rho_X{\mid i \rangle}\log p_i + \sum_{j}{\langle j\mid}\rho_Y{\mid i \rangle}\log q_j

   \displaystyle = \sum_{i}p_i\log p_i + \sum_{j}q_j\log q_j = - S(X) - S(Y)

となる。したがって、

  0 \le S(\rho_{XY}||\sigma) = - S(XY) + S(X) + S(Y) = S(X:Y)

が得られる。■

さらに、相互情報量は、次の三角不等式も満たす。

  S(XY) \ge |S(X)-S(Y)|

この関係は、先に示した Purification に関する性質を使って証明することができる。

系 R を加えて XY を Purifiy した純粋状態を RXY とすると、「Purification に関する補足」に示した事実を用いて、

  S(RX) = S(Y),\,S(R)=S(XY)

が成立する。一方、系 R と系 X に Subadditivity を適用すると、

  S(RX) \le S(R) + S(X)

これらをあわせると、

  S(Y) \le S(XY) + S(X)

より、

  S(XY) \ge S(Y) - S(X)

が得られる。X と Y の対称性より、 S(XY) \ge S(X) - S(Y) も言えるので、前述の三角不等式が成り立つ。■

このように、第3の系 R を用いた Purification により、ある性質が示されるというのは、量子情報に固有の非常におもしろい特徴。ちなみに、Witten の Review では、三角不等式の等号成立条件として、XY が純粋状態でS(XY)=0,\, S(X)=S(Y) となる場合が示されているが、これは十分条件であって、必要条件ではない。等号成立の必要十分条件については、かなーーり複雑な議論があるようだが・・・(すいません。まだよくわかりません。)

エントロピーの Concavity

古典エントロピーでは、複数の確率分布 p_i(x) の混合分布 \displaystyle \sum_i p_i q_i(x) について、次の関係(Concavity)が成り立つ。(個々の q_i を座標軸上の点とみなして、関数 S(q) が上に凸であることを意味する。)

  \displaystyle H\left(\sum_i p_i q_i(x)\right) \ge \sum_i p_i H(q_i)

これの量子エントロピー版として、複数の密度行列 \rho_i を混合した状態 \displaystyle \sum_i p_i\rho_i について、次の関係(Concavity)が成り立つ。

  \displaystyle S\left(\sum_i p_i \rho_i\right) \ge \sum_i p_i S(\rho_i)

・味わいたいポイント

量子版の証明では、相互情報量と同じく、新たな系とエンタングルさせる手法が用いられる。具体的には、\rho_i が記述する系を A として、新たに系 B の正規直交系 {\mid i\rangle} を用意して、系 AB における次の状態を考える。

 \displaystyle \rho_{AB} = \sum_i p_i\rho_i\otimes{\mid i\rangle}{\langle i\mid}

この時、A、もしくは、B をトレースアウトすることで、次の関係が得られる。

 \displaystyle \rho_A = \sum_i p_i\rho_i

 \displaystyle \rho_B = \sum_i p_i {\mid i\rangle}{\langle i\mid}

つまり、

 \displaystyle S(A) = S\left(\sum_i p_i\rho_i\right)

 \displaystyle S(B) = H(p_i)

一方、系 AB の量子エントロピーは、次のように計算される。今、\sigma_i = \rho_i\otimes{\mid i\rangle}{\langle i\mid} を正規直交系で分解して、

 \displaystyle \sigma_i = \sum_j \lambda_i^j{\mid e_i^j \rangle}{\langle e_i^j \mid}

として、

 \displaystyle S(AB) = S\left(\sum_{i,\,j}p_i\lambda_i^j {\mid e_i^j \rangle}{\langle e_i^j \mid}\right) = -\sum_{i,\,j}p_i\lambda_i^j\log p_i\lambda_i^j

  \displaystyle = -\sum_ip_i\log p_i - \sum_ip_i\left(\sum_j\lambda_i^j\log \lambda_i^j\right)

  \displaystyle = S(B) + \sum_i p_i S(\sigma_i) = S(B) + \sum_ip_i S(\rho_i)

この結果に、Subadditivity S(AB) \le S(A) + S(B) を適用すると、

 \displaystyle \sum_ip_i S(\rho_i) \le S(A) = S\left(\sum_i p_i\rho_i\right)

が得られる。■

いやぁ。こんな証明、どうやったら思いつくんだ。。。。ちなみに、Subadditivity は相互情報量が非負であることと同値なので、上記の結果は、

 \displaystyle S(A:B) = S(A)+S(B)-S(AB)= S\left(\sum_i p_i\rho_i\right) - \sum_ip_i S(\rho_i)\ge 0

とも書ける。

混合状態のエントロピー

エントロピーの Concavity は、混合状態のエントロピーの下限を与える不等式と見ることができる。一方、上限を与える不等式もあり、結果として、次が成り立つ。

  \displaystyle \sum_i p_i S(\rho_i) \le S\left(\sum_i p_i \rho_i\right) \le \sum_i p_i S(\rho_i) + H(p_i)

※ここの証明は一旦省略(QCQI Theorem 11.10 を参照)

Strong Subadditivity

古典の相対エントロピーでは、2種類の同時分布 p(x,\,y),\, q(x,\,y) について、次の関係が成り立つ。

 H(p(x,\,y)|| q(x,\,y)) \ge H(p(x)||q(x))

つまり、Y の分布の事を忘れると、p(X,\,Y)q(X,\,Y) はより区別が付き難くなる。相対エントロピーの単調性と呼ぶ。

証明は次の通り。

 \displaystyle H(p(x,\,y)|| q(x,\,y)) - H(p(x)||q(x)) = \sum_{x,\,y}p(x,\,y)\log\frac{p(x,\,y)}{q(x,\,y)} -  \sum_{x,\,y}p(x,\,y)\log\frac{p(x)}{q(x)}

  =  \displaystyle \sum_{x}p(x)\sum_y p(y | x)\log\frac{p(y | x)}{q(y|x)} = E_x[H(p(y|x) || q(y|x))] \ge 0

同様のことが、量子エントロピーでも成立する。

  S(\rho_{AB}||\sigma_{AB}) \ge S(\rho_A || \sigma_A)

証明は一旦省略して、この関係を認めると、相互情報量の単調性、および、Strong subadditivity が導かれる。具体的には次の通り。

状態 \rho_{ABC} を持つ系 ABC に対して、A と BC を分離した系 \sigma_{ABC} = \rho_A\otimes\rho_{BC} を考える。

この時、

 \sigma_{AB} = {\rm Tr}_C\sigma_{ABC} = \rho_A\otimes\rho_B

が成り立つ。今、系 ABC と系 AB のそれぞれで相対エントロピーを計算すると、相互情報量と相対エントロピーの関係

 S(\rho_{XY}||\rho_X\otimes \rho_Y) = S(X:Y)

を用いて、次の結果が得られる。

 S(\rho_{ABC}||\sigma_{ABC}) = S(\rho_{ABC}||\rho_A\otimes\rho_{BC}) = S(A:BC)

 S(\rho_{AB}||\sigma_{AB}) = S(\rho_{AB}||\rho_A\otimes\rho_{B}) = S(A:B)

したがって、相対エントロピーの単調性

 S(\rho_{ABC}||\sigma_{ABC})\ge S(\rho_{AB}||\sigma_{AB})

を用いて、

  S(A:BC) \ge S(A:B)

が成り立つ。これが相互情報量の単調性となる。

さらに、相互情報量の定義に戻って、量子エントロピーで書き直すと次が得られる。

 S(BC) - S(ABC) \ge S(B) - S(AB)

これを量子エントロピーの Strong subsadditivity と呼ぶ。このままでは意味がわかりにくいが、ここで、BCD を Purify した系 ABCD を考えると、

 S(AB) = S(CD),\,S(ABC) = S(D)

が成り立つので、これを用いて書き換えると、

 S(BC) + S(DC) \ge S(B) + S(D)

となる。つまり、C とエンタングルした2つの系 B, D は C をトレースアウトすると、系全体として、エントロピーが「減少」する。

逆に言うと、B と D に C をエンタングルさせると、一般には、それぞれのエントロピーが減少する可能性がある(Purify すれば 0 にできる)が、B と D の両方のエントロピーを減少させることはできないことを示唆している。

うーーーん。不思議。

Strong Subadditivity の corollary

先の結果、

 S(BC) + S(DC) \ge S(B) + S(D)

は、量子論的には不思議というものの、実は、古典的には当たり前の不等式。なぜなら、古典的には周辺確率を取ることで、必ずエントロピーは減少するので、

  H(B,\,C) \ge H(B),\ H(D,\,C) \ge H(D)

となるから。つまり、Strong Subadditivity は、量子エントロピーに古典的な振る舞いを強制する仕組みとも言える。実際、Strong Subadditivity の直接の Corollary として、古典エントロピーと同様の以下の事実が成り立つ。

  S(A\mid BC) \le S(A \mid B) ⇒ 条件を追加するとエントロピーは減少する

  S(A:B) \le S(A : BC) ⇒ 系の一部を捨てると相互情報量は減少する

 系 AB に量子操作を適用したものを A'B' として、 S(A' : B') \le S(A : B) ⇒ 量子操作を行うと相互情報量は減少する