演習2.36の解答です。
ガウス分布の分散の最尤解の逐次推定式を、直接の式変形とRobbins-Monro アルゴリズムの両方で求めて比較する問題。
問題を解くのは簡単ですが、本文の Robbins-Monro の解説が分かりにくいですね。
(2.129)ですが、図2.10と比較して考えると簡単です。
パラメータ が与えられた時に、条件付き確率
に従って、変数
が観測される状況を考えてください。図2.10でいうと、まずパラメータ
を決めると、
の観測値(青い点)が得られるという感じです。
この時、 の観測値(青い点)の出方は、
の条件付き期待値
(赤い曲線)に従います。
今、 と
の大規模データははないので、私たちはこの条件付き期待値
(赤い曲線)の形を知りません。もし大規模データがあれば、直接曲線をフィッティングできますが、今は逐次的にのみ
が観測されるといった状態です。
Robbins-Monroアルゴリズムで求めるのは、この の値が0になるようなパラメータ
の値です。
(というか、期待値が任意の値をとるようなパラメータを見つけるように簡単に拡張できます。
(Robbins and Monro, 1951))
(2.128)のように条件つき分散(青点のちらばり具合)が有限であるなら、(2.129)のような簡単な手続きで が求まります。
つまり、ある で
を観測してみて、0より大きければ
を小さく、小さければ大きくしてあげるだけです。もし
の観測の分散が無限に大きいならそれが無理なのもわかると思います。
で、問題はこれを最尤推定にどうあてはめるかですが、とにかく、0に持っていきたい関数が条件付き期待値になっていれば良いのです。
パラメータの最尤推定は、尤度関数をパラメータで微分して0とおくことで、尤度関数が最小値をとるようなパラメータを求める方法です。なので、尤度関数をパラメータで微分したもの(0にしたいもの:(2.133)左辺)が上で言う になりそうです。そして、それが条件付き期待値の形になっていれば良いのですが、(2.134)のようにちゃんとなってますよ、ということです。