多远线性回归

1 多元线性回归的数学描述

定义：多元线性回归

声明
$$
随机变量与，p个普通变量x_1,\cdots,x_p
$$
多元线性回归表示
$$
\begin{cases}
y=\beta_0+\beta_1x_1+\cdots+\beta_px_p+\varepsilon\
E(\varepsilon)=0,Var(\varepsilon)=\sigma^2<+\infin
\end{cases}
$$
样本方程组表示(矩阵向量)

$$
Y=X\beta+\varepsilon\
E(\varepsilon)=0,Var(\varepsilon)=\sigma^2I_n\
Y=\begin{bmatrix}
y_1\
\vdots\
y_n
\end{bmatrix},
X=\begin{bmatrix}
1 &x_{11} &\cdots &x_{1p}\
\vdots &\vdots &&\vdots\
1&x_{n1}&\cdots&x_{np}
\end{bmatrix},
\beta=\begin{bmatrix}
\beta_0\
\vdots\
\beta_p
\end{bmatrix},
\varepsilon=\begin{bmatrix}
\varepsilon_1\
\vdots\
\varepsilon_n
\end{bmatrix},
$$

假设检验与参数估计中的表示
$$
Y=X\beta+\varepsilon\
\varepsilon\sim N(0,\sigma^2I_n)\
$$

2 参数估计与统计性质

最小二乘法

残差平方和
$$
Q(\beta)=(Y-X\beta)^T(Y-X\beta)
$$
偏导数引理
$$
\frac{\partial(a^Tx)}{\partial x}=\frac{\partial (x^Ta)}{\partial x}=a\
\frac{\partial(x^TAx)}{\partial x}=2Ax
$$
求得参数
$$
\hat{\beta}=(X^TX)^{-1}X^TY
$$
p元线性回归方程为
$$
\hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_px_p
$$

定理：矩阵的数字特征

$E(Ax)=AE(x)$
$Var(Ax)=AVar(x)A^T,Cov(Ax,By)=ACov(x,y)B^T$

定理：矩阵的迹

$tr(A)=\sum a_{ij}$
$tr(A+B)=tr(A)+tr(B)$
$tr(AB)=tr(BA)$
$若A^2=A是对称幂等阵，则tr(A)=rank(A)$

定理：系数\beta性质

$E(\hat{\beta})=\beta,Var(\hat{\beta})=\sigma^2(X^TX)^{-1}$
协方差矩阵最小
$\hat{\beta}$是方差最小的线性无偏估计

定理：残差向量e与残差平方和Q的性质

$E(e)=0,Var(e)=\sigma^2[I_n-X(X^TX)^{-1}X^T], Cov(e,\hat{\beta})=0$
$E(Q)=(n-p-1)\sigma^2$

定理：相互独立

$$
Z_1=A\varepsilon+c,Z_2=B\varepsilon+d\
Z_1,Z_2相互独立的充要条件是AB^T=0
$$

定理：多元线性回归的性质

$\hat{\beta}\sim N(\beta,\sigma^2(X^TX)^{-1}$
$e\sim N(0,\sigma^2[I_n-X(X^TX)^{-1}X^T])$
$\hat{\beta},e相互独立,\hat{\beta},Q相互独立$
$\frac{Q}{\sigma^2}\sim \chi^2(n-p-1)$

3 显著性检验

定义：假设之间没有关系

$$
H_0:\beta_1=\cdots=\beta_p=0,H_1：\beta_1,\cdots,\beta_p不全为零
$$

显著性检验

使用$\frac{U}{Q}$的比值作为检验统计量，进行假设检验。
$$
L_{yy}=Q+U
$$

检验统计量
$$
F=\frac{\frac{U}{\sigma^2}/p}{\frac{Q}{\sigma^2}/(n-p-1)}=\frac{n-p-1}{p}\frac{U}{Q}\sim F(p,n-p-1)
$$
计算拒绝域
$$
W={F:F\geq F_{1-\alpha}(p,n-p-1)}
$$

4 单个回归系数的显著性检验与区间估计

单回归系数的显著性检验

假设
$$
H_{0i}:\beta_i=0,H_{1i}:\beta_i\not = 0
$$
检验统计量
$$
t_i=\frac{\hat{\beta}i-\beta_i}{\hat(\sigma)\sqrt{c{ii}}}\sim t(n-p-1)
$$
确定拒绝域
$$
W_i={t_i:|t_i|\geq t_{1-\frac{\alpha}{2}}(n-p-1)}
$$

单回归系数的区间估计

置信水平为1-\alpha的置信区间如下
$$
[\hat{\beta}i-\hat{\sigma}t{1-\frac{\alpha}{2}}(n-p-1)\sqrt{c_{ii}},\hat{\beta}i+\hat{\sigma}t{1-\frac{\alpha}{2}}(n-p-1)\sqrt{c_{ii}}]
$$