简单线性回归01
内容来源
线性回归分析导论 原书第5版 机械工业出版社
内容提要
简单线性回归模型
回归参数的最小二乘估计
简单线性回归模型
y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
其中
截距 β 0 \beta_0 β0 与斜率 β 1 \beta_1 β1 为未知常数
ε \varepsilon ε 为随机误差项。假设随机误差项的均值为 0 0 0 ,且方差 σ 2 \sigma^2 σ2 未知
此外,通常假设误差是不相关的,不相关意味着一个误差的值不取决于其他误差的值
方便起见,视回归变量 x x x 由数据分析师控制且测量误差可忽略,而视相应变量 y y y 为随机变量。
也就是说,对于每个 x x x 的可能值,存在一个 y y y 的概率分布,这一分布的均值为
E ( y ∣ x ) = β 0 + β 1 x E(y|x)=\beta_0+\beta_1x E(y∣x)=β0+β1x
方差为
V a r ( y ∣ x ) = V a r ( β 0 + β 1 x + ε ) = σ 2 Var(y|x)=Var(\beta_0+\beta_1x+\varepsilon)=\sigma^2 Var(y∣x)=Var(β0+β1x+ε)=σ2
回归参数的最小二乘估计
β 0 \beta_0 β0 与 β 1 \beta_1 β1 的估计
假设有 n n n 对数据 ( x i , y i ) (x_i,y_i) (xi,yi)
最小二乘准则为
S ( β 0 , β 1 ) = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 S(\beta_0,\beta_1)=\sum^n_{i=1}(y_i-\beta_0-\beta_1x_i)^2 S(β0,β1)=i=1∑n(yi−β0−β1xi)2
β 0 \beta_0 β0 和 β 1 \beta_1 β1 的最小二乘估计量分别为 β ^ 0 \hat{\beta}_0 β^0 和 β ^ 1 \hat{\beta}_1 β^1 ,则
∂ S ∂ β 0 ∣ β ^ 0 , β ^ 1 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) = 0 ∂ S ∂ β 1 ∣ β ^ 0 , β ^ 1 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) x i = 0 \frac{\partial S}{\partial\beta_0} \bigg|_{\hat{\beta}_0,\hat{\beta}_1}= -2\sum^n_{i=1}(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0\\ \frac{\partial S}{\partial\beta_1} \bigg|_{\hat{\beta}_0,\hat{\beta}_1}= -2\sum^n_{i=1}(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)x_i=0\\ ∂β0∂S β^0,β^1=−2i=1∑n(yi−β^0−β^1xi)=0∂β1∂S β^0,β^1=−2i=1∑n(yi−β^0−β^1xi)xi=0
化简
n β ^ 0 + β ^ 1 ∑ i = 1 n x i = ∑ i = 1 n y i β ^ 0 ∑ i = 1 n x i + β ^ 1 ∑ i = 1 n x i 2 = ∑ i = 1 n y i x i n\hat{\beta}_0+\hat{\beta}_1\sum^n_{i=1}x_i=\sum^n_{i=1}y_i\\ \hat{\beta}_0\sum^n_{i=1}x_i+\hat{\beta}_1\sum^n_{i=1}x^2_i =\sum^n_{i=1}y_ix_i nβ^0+β^1i=1∑nxi=i=1∑nyiβ^0i=1∑nxi+β^1i=1∑nxi2=i=1∑nyixi
解得
β ^ 0 = y ‾ − β ^ 1 x ‾ \hat{\beta}_0=\overline{y}-\hat{\beta}_1\overline{x} β^0=y−β^1x
以及
β ^ 1 = ∑ i = 1 n y i x i − ( ∑ i = 1 n y i ) ( ∑ i = 1 n x i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 n \hat{\beta}_1=\frac {\sum^n_{i=1}y_ix_i-\frac{(\sum^n_{i=1}y_i)(\sum^n_{i=1}x_i)}{n}} {\sum^n_{i=1}x^2_i-\frac{(\sum^n_{i=1}x_i)^2}{n}} β^1=∑i=1nxi2−n(∑i=1nxi)2∑i=1nyixi−n(∑i=1nyi)(∑i=1nxi)
上式中的分母为 x i x_i xi 的校正平方和,分子为 x i x_i xi 与 y i y_i yi 的校正叉积和,可以用更紧凑的记号表示为
S x x = ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 n = ∑ i = 1 n ( x i − x ‾ ) 2 S_{xx}=\sum^n_{i=1}x^2_i-\frac{(\sum^n_{i=1}x_i)^2}{n} =\sum^n_{i=1}(x_i-\overline{x})^2 Sxx=i=1∑nxi2−n(∑i=1nxi)2=i=1∑n(xi−x)2
S x y = ∑ i = 1 n y i x i − ( ∑ i = 1 n y i ) ( ∑ i = 1 n x i ) n = ∑ i = 1 n y i ( x i − x ‾ ) S_{xy}=\sum^n_{i=1}y_ix_i- \frac{(\sum^n_{i=1}y_i)(\sum^n_{i=1}x_i)}{n} =\sum^n_{i=1}y_i(x_i-\overline{x}) Sxy=i=1∑nyixi−n(∑i=1nyi)(∑i=1nxi)=i=1∑nyi(xi−x)
即
β ^ 1 = S x y S x x \hat{\beta}_1=\frac{S_{xy}}{S_{xx}} β^1=SxxSxy
所以简单回归分析模型拟合为 y ^ = β ^ 0 + β ^ 1 x \hat{y}=\hat{\beta}_0+\hat{\beta}_1x y^=β^0+β^1x
最小二乘估计量的性质
注意到, β ^ 0 \hat{\beta}_0 β^0 与 β ^ 1 \hat{\beta}_1 β^1 是观测值 y i y_i yi 的线性组合(注意力惊人!)
β ^ 1 = S x y S x x = ∑ i = 1 n c i y i β ^ 0 = ∑ i = 1 n ( 1 n − x ‾ c i ) y i \hat{\beta}_1=\frac{S_{xy}}{S_{xx}}=\sum^n_{i=1}c_iy_i\\ \hat{\beta}_0=\sum^n_{i=1}(\frac{1}{n}-\overline{x}c_i)y_i β^1=SxxSxy=i=1∑nciyiβ^0=i=1∑n(n1−xci)yi
其中 c i = ( x i − x ‾ ) / S x x c_i=(x_i-\overline{x})/S_{xx} ci=(xi−x)/Sxx
最小二乘估计量 β ^ 0 \hat{\beta}_0 β^0 与 β ^ 1 \hat{\beta}_1 β^1 是模型参数 β 0 \beta_0 β0 与 β 1 \beta_1 β1 的无偏估计量
E ( β ^ 1 ) = E ( ∑ i = 1 n c i y i ) = ∑ i = 1 n c i E ( y i ) = ∑ i = 1 n c i ( β 0 + β 1 x i ) = β 0 ∑ i = 1 n c i + β 1 ∑ i = 1 n c i x i \begin{align*} &E(\hat{\beta}_1)=E\bigg(\sum^n_{i=1}c_iy_i\bigg)\\ &=\sum^n_{i=1}c_iE(y_i)\\ &=\sum^n_{i=1}c_i(\beta_0+\beta_1x_i)\\ &=\beta_0\sum^n_{i=1}c_i+\beta_1\sum^n_{i=1}c_ix_i \end{align*} E(β^1)=E(i=1∑nciyi)=i=1∑nciE(yi)=i=1∑nci(β0+β1xi)=β0i=1∑nci+β1i=1∑ncixi
又 ∑ i = 1 n c i = 0 \sum^n_{i=1}c_i=0 ∑i=1nci=0 及 ∑ i = 1 n c i x i = 1 \sum^n_{i=1}c_ix_i=1 ∑i=1ncixi=1 ,所以
E ( β ^ 1 ) = β 1 E(\hat{\beta}_1)=\beta_1 E(β^1)=β1
同理可证
E ( β ^ 0 ) = β 0 E(\hat{\beta}_0)=\beta_0 E(β^0)=β0
方差
V a r ( β ^ 1 ) = V a r ( ∑ i = 1 n c i y i ) = ∑ i = 1 n c i 2 V a r ( y i ) = σ 2 ∑ i = 1 n c i 2 = σ 2 S x x \begin{align*} &Var(\hat{\beta}_1)=Var\bigg(\sum^n_{i=1}c_iy_i\bigg)\\ &=\sum^n_{i=1}c^2_iVar(y_i)\\ &=\sigma^2\sum^n_{i=1}c^2_i=\frac{\sigma^2}{S_{xx}} \end{align*} Var(β^1)=Var(i=1∑nciyi)=i=1∑nci2Var(yi)=σ2i=1∑nci2=Sxxσ2
V a r ( β ^ 0 ) = V a r ( y ‾ − β ^ 1 x ‾ ) = V a r ( y ‾ ) + x ‾ 2 V a r ( β ^ 1 ) − 2 x ‾ C o v ( y ‾ , β ^ 1 ) \begin{align*} &Var(\hat{\beta}_0)=Var(\overline{y}-\hat{\beta}_1\overline{x})\\ &=Var(\overline{y})+\overline{x}^2Var(\hat{\beta}_1) -2\overline{x}Cov(\overline{y},\hat{\beta}_1)\\ \end{align*} Var(β^0)=Var(y−β^1x)=Var(y)+x2Var(β^1)−2xCov(y,β^1)
因为 y ‾ \overline{y} y 的方差就是 σ 2 / n \sigma^2/n σ2/n ,下证 y ‾ \overline{y} y 与 β ^ 1 \hat{\beta}_1 β^1 之间的协方差为 0 0 0
C o v ( y ‾ , β ^ 1 ) = C o v ( ∑ y i n , ∑ c j y j ) = ∑ i ∑ j c i n C o v ( y i , y j ) \begin{align*} &Cov(\overline{y},\hat{\beta}_1)\\ &=Cov(\sum\frac{y_i}{n},\sum c_jy_j)\\ &=\sum_i\sum_j\frac{c_i}{n}Cov(y_i,y_j) \end{align*} Cov(y,β^1)=Cov(∑nyi,∑cjyj)=i∑j∑nciCov(yi,yj)
其中
C o v ( y i , y j ) = { 0 , i ≠ j σ 2 , i = j Cov(y_i,y_j)= \begin{cases} 0&,i\neq j\\ \sigma^2&,i=j \end{cases} Cov(yi,yj)={0σ2,i=j,i=j
所以
C o v ( y ‾ , β ^ 1 ) = σ 2 n ∑ c i = 0 Cov(\overline{y},\hat{\beta}_1)=\frac{\sigma^2}{n}\sum c_i=0 Cov(y,β^1)=nσ2∑ci=0
所以
V a r ( β ^ 0 ) = V a r ( y ‾ ) + x ‾ 2 V a r ( β ^ 1 ) = σ 2 ( 1 n + x ‾ 2 S x x ) Var(\hat{\beta}_0)=Var(\overline{y})+\overline{x}^2Var(\hat{\beta}_1) =\sigma^2\bigg(\frac{1}{n}+\frac{\overline{x}^2}{S_{xx}}\bigg) Var(β^0)=Var(y)+x2Var(β^1)=σ2(n1+Sxxx2)
最佳线性无偏估计量(BLUE)
根据高斯-马尔可夫定理,最小二乘估计量是无偏的,同时相比其他同为 y i y_i yi 线性组合的无偏估计量,最小二乘估计量的方差最小。
最小二乘拟合的性质
所有含有截距项 β 0 \beta_0 β0 的回归模型其残差之和恒为零
∑ i = 1 n ( y i − y ^ i ) = ∑ i = 1 n e i = 0 \sum^n_{i=1}(y_i-\hat{y}_i)=\sum^n_{i=1}e_i=0 i=1∑n(yi−y^i)=i=1∑nei=0
最小二乘回归直线总是穿过数据的中点 ( y ‾ , x ‾ ) (\overline{y},\overline{x}) (y,x)
以对应回归变量值为权重的残差之和恒等于零
∑ i = 1 n x i e i = 0 \sum^n_{i=1}x_ie_i=0 i=1∑nxiei=0
以对应拟合值为权重的残差之和恒等于零
∑ i = 1 n y ^ i e i = 0 \sum^n_{i=1}\hat{y}_ie_i=0 i=1∑ny^iei=0