演習問題 2.7

演習2.7の解答です。

ベルヌーイ試行を繰り返す場合に、事後分布の期待値が、事前分布の期待値とパラメータの最尤推定量 \mu_{ML} の間の値になるという事実を確認します。

ベイズ的には、事前分布と尤度関数を掛け合わせて事後分布を求めているので、事後分布は事前分布と尤度関数の妥協点のような意味合いを持つ、と覚えておけば良いかと思います。
Figure2.3を良く理解しましょう。

ベルヌーイ分布に従う確率変数 x があった時、その繰り返し試行の尤度関数(2.6)は、x=1 が出る回数 m を確率変数とすると、二項分布(2.9)になります。二項分布(2.9)は、(2.5)の尤度 p(\cal{D}|\mu) の変数を m に変更し、m について正規化したもので、実質同じことを表現しています。

この辺り、本文の(2.17)の説明などは混乱しがちかもしれませんが、ベイズ式の考え方をきちんと理解する上で大事な部分です。

(ベイスの公式) 事後分布 \propto 尤度 \times 事前分布

p(y|x) = \cfrac{p(x|y)p(y)}{p(x)} \propto p(x|y)p(y)

(2.17)を省略せずに書くと、

p(\mu|m,l,N,a,b) = \cfrac{p(m,l|N,\mu)p(\mu|a,b)}{p(m,l)} \propto p(m,l|N,\mu)p(\mu|a,b)

となります。

等式部分の両辺に p(m,l) をかけると、両辺共に同時分布 p(\mu,m,l|N,a,b) となって、ちゃんと計算が合いますね。

変数を比較すると、下記の対応関係になります。

観測されるデータ: m,lx
観測を説明するパラメータ: \muy

a,b はハイパーパラメータで、x でも y でもありません。

事後分布 p(\mu|m,l,N,a,b) には N を含めて書きましたが、N=m+l なので教科書の(2.17)では省略されています。

尤度 p(m,l|N,\mu) は(2.9)の二項分布 \rm{Bin}(m|N,\mu) のことです。(正確には二項分布の正規化項を外除いた部分)

m,l 両方を観測値とみなすと、やはり N は書かなくても分かるので、省略可能です。実際、先に(2.9)は(2.5)を書き直したものだと言いましたが、(2.5)では p(\cal{D}|\mu) のようにデータ変数 \cal{D} によって観測値を表現しています。

このように、確率の式では、自明な変数を省略したり( N など)、変数の書き方も一通りではなかったり( \cal{D}m,l など)するので、式の意味を良く解釈する必要があります。

前置きが長くなりましたが、下記解答。

prml exercise solution 2.7