演習問題 3.4

演習3.4の解答です。

入力データに独立したノイズが加わった場合の最小二乗法の問題。

線形モデルの入力ベクトル {\bf x} の各次元 x_i にノイズ \epsilon_i が加わったときの二乗和誤差について、その二乗和誤差のノイズ \epsilon_i についての期待値を取ったものを最小化することが、{\bf w} の正則化項を考慮した最小二乗法と同じ形式になることを示します。

最もシンプルな線形モデル y({\bf x},{\bf w}) = w_0 + \sum_{i=1}^{D}w_i x_i についての問題ですが、基底関数を用いた線形モデルでも同じ考え方が展開可能なことに注意してください。

この問題の意味を考えてみましょう。
簡単のため、入力が一次元 x_1 だけだったとします。
入力 x_1 にノイズ \epsilon_1 が加わると、そのノイズもパラメータ w_1 倍されて、誤差に含まれることになります。二乗誤差なので w_1^2 倍になります。ノイズの分布に関して二乗誤差の期待値を取ると、ノイズの平均はゼロなので、平均の影響は消えてしまうのですが、分散の影響は \sigma^2 \epsilon_1^2 として残ります。つまり、分散が大きいほど、二乗誤差が大きくなります。そのため、この二乗誤差を最小化しようとすると、w_1^2 を小さくする方向に力が働く(正則化)ことになります。

入力が多次元だったとしても、基本的な考えは同じです。ノイズの平均と共分散がゼロなので、ほとんどの項がうまく消えてしまいます。解答を参照ください。

入力がノイズで撹乱されるほど(分散 \sigma^2 が大きいほど)、二乗和誤差は増加します。また、撹乱されている入力データ点の数 N が多いほど、二乗和誤差も増加します。
この2つの積が、正則化パラメータ \lambda の役割を果たしています。

prml exercise solution 3.4