残差平方和から回帰係数の式を求める
データから回帰直線 y=\hat{\alpha} + \hat{\beta} x を最小二乗法によって求めた場合に、回帰係数 \hat{\alpha}, \hat{\beta}は次の式で表されます。
\hat{\beta} = r_{xy}\frac{s_{y}}{s_{x}}
\hat{\alpha} = \bar{y} – \hat{\beta}\bar{x_i}
r_{xy} : 相関係数
s_{x} : xの標準偏差, s_{y} : yの標準偏差,
今回は残差平方和の式からこの回帰係数の式を導出する過程をメモしていきます。
導出
まず、最小二乗法により回帰係数を求めるにあたり、残差平方和の式を用意します。
S(\hat{\alpha}, \hat{\beta}) = \sum^{n}_{i=1}(y_i – \hat{y})^2 = \sum^{n}_{i=1}(y_i – (\hat{\alpha} + \hat{\beta} x_i ))^2
この S(\hat{\alpha}, \hat{\beta}) が最小になる\hat{\alpha},\hat{\beta}を求めればよいので、 S(\hat{\alpha}, \hat{\beta}) をそれぞれ\hat{\alpha}, \hat{\beta}で偏微分した式を0と置いた式を求めます。
\frac{\partial S}{\partial \hat{\alpha}} = 2\times(-1)\times\sum^{n}_{i=1}(y_i – \hat{\alpha} – \hat{\beta} x_i ) =0 \\ \sum^{n}_{i=1}y_i = \sum^{n}_{i=1}\hat{\alpha} + \sum^{n}_{i=1}\hat{\beta}x_i \\ = n\hat{\alpha} + \hat{\beta}\sum^{n}_{i=1}x_i
両辺をnで割ると、
\frac{\sum^{n}_{i=1}y_i}{n} = \hat{\alpha} + \frac{\sum^{n}_{i=1}x_i}{n} \\ \bar{y} = \hat{\alpha} + \hat{\beta}\bar{x} \\ \hat{\alpha} = \bar{y} – \hat{\beta}\bar{x}
これで、\hat{\alpha}が求まりました。
次に\hat{\beta}を求めるため、Sを\hat{\beta}で偏微分し0とおきます。
\frac{\partial S}{\partial \hat{\beta}} = 2\times(-1)\times\sum^{n}_{i=1}(y_i – \hat{\alpha} – \hat{\beta} x_i ) x_i =0 \\ \sum^{n}_{i=1}x_i y_i = \sum^{n}_{i=1}\hat{\alpha} x_i + \sum^{n}_{i=1}\hat{\beta} x_i^2 \\ \sum^{n}_{i=1}x_i y_i = \hat{\alpha}\sum^{n}_{i=1}x_i + \hat{\beta}\sum^{n}_{i=1}x_i^2
両辺をnで割ると、
\frac{\sum^{n}_{i=1}x_iy_i}{n} = \hat{\alpha}\frac{\sum^{n}_{i=1}x_i}{n} + \hat{\beta}{\frac{\sum^{n}_{i=1}x_i^2}{n}} \\ \frac{\sum^{n}_{i=1}x_iy_i}{n} = \hat{\alpha}\bar{x} + \hat{\beta}{\frac{\sum^{n}_{i=1}x_i^2}{n}}
ここで、先に求めた\hat{\alpha} = \bar{y} – \hat{\beta}\bar{x}を代入して、
\frac{\sum^{n}_{i=1}x_iy_i}{n} = \bar{x}\bar{y} – \hat{\beta}\bar{x}^2 + \hat{\beta}{\frac{\sum^{n}_{i=1}x_i^2}{n}} \\ = \bar{x}\bar{y} + \hat{\beta}(\frac{\sum^{n}_{i=1}x_i^2}{n}-\bar{x}^2)
ここで、 \frac{\sum^{n}_{i=1}x_i^2}{n}-\bar{x}^2はxの分散を表すため、これをs_{xx}とおくと、
\frac{\sum^{n}_{i=1}x_iy_i}{n} = \bar{x}\bar{y} + \hat{\beta}s_{xx} \\ \frac{\sum^{n}_{i=1}x_iy_i }{n}- \bar{x}\bar{y}= \hat{\beta}s_{xx}
ここで\frac{\sum^{n}_{i=1}x_iy_i}{n} – \bar{x}\bar{y} は次のように変形できる。
\frac{\sum^{n}_{i=1}x_iy_i}{n} + \bar{x}\bar{y} – 2\bar{x}\bar{y} \\ = \frac{\sum^{n}_{i=1}x_iy_i}{n} + \frac{\sum^{n}_{i=1}\bar{x}\bar{y}}{n} – \frac{\sum^{n}_{i=1}x_i}{n}\bar{y} – \frac{\sum^{n}_{i=1}y_i}{n}\bar{x} = \frac{\sum^{n}_{i=1}(x_iy_i – x_i\bar{y} – \bar{x}y_i + \bar{x}\bar{y})}{n}
よって\frac{\sum^{n}_{i=1}x_iy_i}{n}- \bar{x}\bar{y} はx, yの共分散を表すため、これをs_{xy}とおくと、
s_{xy} = \hat{\beta}s_{xx} \\ \hat{\beta} = \frac{s_{xy}}{s_{xx}}=\frac{s_{xy}}{s_xs_y}\cdot \frac{s_y}{s_x}
ここで相関係数r_{xy} = \frac{s_{xy}}{s_{x}s_{y}}とおくと、
\hat{\beta} = r_{xy}\frac{s_y}{s_x}
よって、回帰係数は以下の式で求まることが分かりました。
\hat{\beta} = r_{xy}\frac{s_{y}}{s_{x}}
\hat{\alpha} = \bar{y} – \hat{\beta}\bar{x_i}