「PRML 4.3.6 Canonical link functionの説明」は数式がごちゃごちゃして本質が見えにくいので、数式をシンプルにしたバージョンを計算しておきます。(やっている中身は同じです。)
まず、先の記事では、GLMを次のように定義しました。
――――――――
一般に、目的変数 の確率分布がパラメータ と特徴変数 の関数 として決まるモデルを考えます。その中でも特に、ある1変数関数 を用いて、
ここに、
と書けるモデルのことを GLM (Generalized Linear Model)と呼びます。
――――――――
ここで、 は、変数 の定義を定数倍する自由度を示しているだけなので、簡単に とします。また、 は変数 で積分するときの測度 とみなせるので、積分する際は測度 を使う約束の元に確率分布の定義からは落としてしまいます。ついでに の定義を少し変えると、先の表式は、ここまで簡単になります。( と を結ぶ関数 は使わずに、暗黙に は の関数と理解することにします。)
, ―― (1)
―― (2)
ここで、 の両辺を で微分すると、
したがって、
―― (3)
(2)を考慮すると、 は、 の関数となります。つまり、次の関係が成り立ちます。
―― (4)
さらに、(1)(2)で定義されるGLMにおいて、トレーニングセット が与えられた時の尤度関数は、次になります。
従って、誤差関数 の勾配は次のように計算されます。
(∵(3))
ここで、 が恒等関数になる場合、つまり、(4)より、 となる場合を考えると、 より、次が成立します。
2項分類のGLM
に対するベルヌーイ分布 を取って、 の期待値 がある 1変数関数(Activation) で次のように表されると仮定します。
これは、2項分類のGLMを与えます。なぜなら、次の関係が成り立つからです。
ここに、
またこの場合は、(3)より、
従って、確かに、
という関係が成立することが分かります。( は の関数であることに注意。)
ここで特に、 として恒等関数を選択すると、 はロジスティクス関数に一致します。