第17节 多元线性回归
多远线性回归
1 多元线性回归的数学描述
定义:多元线性回归
- 声明
$$
随机变量与,p个普通变量x_1,\cdots,x_p
$$ - 多元线性回归表示
$$
\begin{cases}
y=\beta_0+\beta_1x_1+\cdots+\beta_px_p+\varepsilon\
E(\varepsilon)=0,Var(\varepsilon)=\sigma^2<+\infin
\end{cases}
$$ - 样本方程组表示(矩阵向量)
$$
Y=X\beta+\varepsilon\
E(\varepsilon)=0,Var(\varepsilon)=\sigma^2I_n\
Y=\begin{bmatrix}
y_1\
\vdots\
y_n
\end{bmatrix},
X=\begin{bmatrix}
1 &x_{11} &\cdots &x_{1p}\
\vdots &\vdots &&\vdots\
1&x_{n1}&\cdots&x_{np}
\end{bmatrix},
\beta=\begin{bmatrix}
\beta_0\
\vdots\
\beta_p
\end{bmatrix},
\varepsilon=\begin{bmatrix}
\varepsilon_1\
\vdots\
\varepsilon_n
\end{bmatrix},
$$
- 假设检验与参数估计中的表示
$$
Y=X\beta+\varepsilon\
\varepsilon\sim N(0,\sigma^2I_n)\
$$
2 参数估计与统计性质
最小二乘法
- 残差平方和
$$
Q(\beta)=(Y-X\beta)^T(Y-X\beta)
$$ - 偏导数引理
$$
\frac{\partial(a^Tx)}{\partial x}=\frac{\partial (x^Ta)}{\partial x}=a\
\frac{\partial(x^TAx)}{\partial x}=2Ax
$$ - 求得参数
$$
\hat{\beta}=(X^TX)^{-1}X^TY
$$ - p元线性回归方程为
$$
\hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_px_p
$$
定理:矩阵的数字特征
- $E(Ax)=AE(x)$
- $Var(Ax)=AVar(x)A^T,Cov(Ax,By)=ACov(x,y)B^T$
定理:矩阵的迹
- $tr(A)=\sum a_{ij}$
- $tr(A+B)=tr(A)+tr(B)$
- $tr(AB)=tr(BA)$
- $若A^2=A是对称幂等阵,则tr(A)=rank(A)$
定理:系数\beta性质
- $E(\hat{\beta})=\beta,Var(\hat{\beta})=\sigma^2(X^TX)^{-1}$
- 协方差矩阵最小
- $\hat{\beta}$是方差最小的线性无偏估计
定理:残差向量e与残差平方和Q的性质
- $E(e)=0,Var(e)=\sigma^2[I_n-X(X^TX)^{-1}X^T], Cov(e,\hat{\beta})=0$
- $E(Q)=(n-p-1)\sigma^2$
定理:相互独立
$$
Z_1=A\varepsilon+c,Z_2=B\varepsilon+d\
Z_1,Z_2相互独立的充要条件是AB^T=0
$$
定理:多元线性回归的性质
- $\hat{\beta}\sim N(\beta,\sigma^2(X^TX)^{-1}$
- $e\sim N(0,\sigma^2[I_n-X(X^TX)^{-1}X^T])$
- $\hat{\beta},e相互独立,\hat{\beta},Q相互独立$
- $\frac{Q}{\sigma^2}\sim \chi^2(n-p-1)$
3 显著性检验
定义:假设之间没有关系
$$
H_0:\beta_1=\cdots=\beta_p=0,H_1:\beta_1,\cdots,\beta_p不全为零
$$
显著性检验
使用$\frac{U}{Q}$的比值作为检验统计量,进行假设检验。
$$
L_{yy}=Q+U
$$
检验统计量
$$
F=\frac{\frac{U}{\sigma^2}/p}{\frac{Q}{\sigma^2}/(n-p-1)}=\frac{n-p-1}{p}\frac{U}{Q}\sim F(p,n-p-1)
$$
计算拒绝域
$$
W={F:F\geq F_{1-\alpha}(p,n-p-1)}
$$
4 单个回归系数的显著性检验与区间估计
单回归系数的显著性检验
假设
$$
H_{0i}:\beta_i=0,H_{1i}:\beta_i\not = 0
$$
检验统计量
$$
t_i=\frac{\hat{\beta}i-\beta_i}{\hat(\sigma)\sqrt{c{ii}}}\sim t(n-p-1)
$$
确定拒绝域
$$
W_i={t_i:|t_i|\geq t_{1-\frac{\alpha}{2}}(n-p-1)}
$$
单回归系数的区间估计
置信水平为1-\alpha的置信区间如下
$$
[\hat{\beta}i-\hat{\sigma}t{1-\frac{\alpha}{2}}(n-p-1)\sqrt{c_{ii}},\hat{\beta}i+\hat{\sigma}t{1-\frac{\alpha}{2}}(n-p-1)\sqrt{c_{ii}}]
$$
5 预测控制
未涉及内容:
#可化为线性回归的曲线回归
#自变量选择与“最优”回归方程选择
#异常情况的诊断处理
状态转移方程
$$
f[n][m]=max{f[n-1][m-k]+pmf[n][k],0<k<m}
$$
$$
f[n][m]=\begin{cases}
pmf[1][m] & n=1 \
max{f[n-1][m-k]+pmf[n][k]} & n>1,0<k<m
\end{cases}
$$
$$
f[i][j]=\begin{cases}
f[i][j]=0 & i=j \
D[i][j]+min{f[i][k]+f[k][j]}&i\leq k<j
\end{cases}
$$
$$
\sum_{k=2}^n\sum_{i=2}^{n-k}\sum_{j=i+1}^{i-1}nij=O(n^3)
$$










