「EMアルゴリズムが幾何学的に説明できる」と聞いた驚きが情報幾何に興味を持ったきっかけということで、そこのところを綺麗に整理してみます。議論の元ネタは、「情報幾何学の新展開」の第12章です。
幾何を用いない(普通の)EMアルゴリズムの説明は、こちらを参照ください。
確率分布が構成する空間
観測可能な変数 と観測できない変数(Latent variable) を持つ確率分布について、考えうるすべての分布 を集めた空間 を用意します。
この中で特に、パラメータ で特徴づけられたモデルの分布 を集めると、これは、空間 の部分空間 を構成します。これを「モデル空間」と呼びます。
一方、観測データ が与えられた場合、この観測データが得られる確率が 1 になる(この観測データにオーバーフィッティングした)確率分布が構成できます。
ここに、 は、 を満たす任意の関数です。
このような をすべて集めたものは、やはり、空間 の部分空間 となります。これを「データ空間」と呼びます。
最短距離を用いた推定方法
Latent variableを持たないモデルでは、観測データの確率を 1 にする分布は1つにきまるので、これは、 上の1点 を表します。そこで、 からモデル空間 に何らかの意味で「正射影」して得られる 上の点を推定分布として採用することが可能になります。「正射影」の意味(つまり、空間 に導入する接続)のとり方によって、推定方法が変わることになります。
一方、今の場合は、Latent variableがあるために、観測データに対応する分布は1つに決まらず、部分空間 を構成しました。そこで、データ空間 とモデル空間 の「最短距離」を実現する2点を見つけ出して、空間 側の点を推定分布として採用するという方法が考えられます。
ここで特に「距離」として、データ空間上の点からモデル空間上の点に対するKLダイバージェンスを採用します。
上記を および の関数(汎関数)と見なして、これを最小にする を推定パラメータとして採用します。
実は、これによって得られる は下記の確率を極大にします。すなわち、EMアルゴリズムと同じ最尤推定になっていることが証明されます。(証明は後ほど。)
emアルゴリズム
「emアルゴリズム」とは、EMアルゴリズムの幾何学バージョンで次のような繰り返し操作になります。
はじめにモデル空間 の一点 を任意に選択して、データ空間 上で、ここへのKLダイバージェンスが最小になる点を探します。
――― (1)
から上記の への対応を「e-射影」と呼びます。
続いて、モデル空間 上で、 からのKLダイバージェンスが最小になる点を探します。
――― (2)
から上記の への対応を「m-射影」と呼びます。
を新たに として、上記の「e-射影」と「m-射影」の操作を繰り返します。それぞれの射影でKLダイバージェンスは単調に減少していくので、最終的にデータ空間 とモデル空間 の間のKLダイバージェンスを極小にする点の組に収束します。
EMアルゴリズムとの対応
(1)(2)の計算を実際に行ってみると、それぞれ、EMアルゴリズムの操作、すなわち、事後分布
の計算(Eステップ)と、事後分布の下での対数尤度の期待値
の最大化(Mステップ)に一致することが分かります。
従って、emアルゴリズムは、EMアルゴリズムと同じ結果(最尤推定)を導くことが証明されます。
それでは、(1)(2)を実際に計算してみます。まずは(1)です。
束縛条件 を考慮して、ラグランジュの未定乗数項を加えて の変分を取ります。
上記が任意の に対して 0 になることから、
――― (3)
さらに束縛条件より、
これから決まる を(3)に代入して、
これは、EMアルゴリズムにおけるEステップ(事後分布の計算)と同じ計算になります。
続いて、上記で決まる を用いて (2) を計算します。
――― (4)
したがって、(4)を最小にする を求めることは、
を最大にする を求めることに他ならず、EMアルゴリズムにおけるMステップ(事後分布の下での対数尤度の期待値の最大化)と同じことになります。