第18节 方差分析
方差分析
1 单因素试验方差分析
第三章假设检验,主要用来检验两个总体的均值和方差的关系。这里的方差分析,主要用来检验多个不同的因素的均值和方差的关系。
关于假设检验部分的内容的补充:
- 首先,假设随机变量总体符合某种分布,其均值、方差或者方差应该是已知的。
- 可以得到样本的一致最小方差无偏估计,估计总体的均值、方差或者其他参数。
- 可以给定一个置信水平,能够得到取值的一个分布区间,如果样本取值分布在这个区间中,表示检验可靠。
- 如果样本总体的均值、方差或者数据特征,本身的一致最小方差无偏估计的分布很难求,可以构造正太总体、正太统计量。检验水平—-对应总体均值、方差的统计量分布区间—-对应总体均值、方差构造的函数的统计量的分布区间。
定义:水平
- 因素:影响实验结果的原因
- 水平:实验中因素所处的不同状态。
模型构建1
问题重述
- 因素A有p个不同的水平,$A_1\cdots A_p$
- 每个水平$A_i$下总体$X_i$服从同方差的正太分布$N(\mu_i,\sigma^2)$,参数未知。
- 检验p个样本的均值$\mu_i$是否具有显著性差异
- 样本观察值,因素A下每个检验水平有$n_i$个观察值
统计模型
$$
x_{ij}=\mu_i+\varepsilon_{ij}
$$
其中$\mu_i$描述了因素水平的影响。$\varepsilon$描述了随机误差的影响$\varepsilon_{ij}\sim N(0,\sigma^2)$模型假设
$$
H_0:\mu_1=\mu_2=\mu_3,H_1:\mu不全相等
$$模型方差分析
$$
总离差平方和S_T=\sum_{i=1}^p\sum_{j-1}^{n_i}(x_{ij}-\overline{x})^2\
总均值\overline{x}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{n_i}x_{ij}\
组内离差平方和S_e=\sum_{i=1}^p\sum_{j-1}^{n_i}(x_{ij}-\overline{x}{i\cdot})^2\
组内均值\overline{x}{i\cdot}=\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\
组间离差平方和S_A=\sum_{i=1}^p\sum_{j-1}^{n_i}(\overline{x}{i\cdot}-\overline{x})^2=\sum{i=1}^pn_i(\overline{x}_{i\cdot}-\overline{x})^2\
离差平方和关系S_T=S_e+S_A
$$
其中$S_A,S_e$分别描述了,由因素不同水平引起的方差与由随机变量引起的方差。可以使用$\frac{S_A}{S_e}$作为检验统计量,表示组间因素水平对总体方差变化大小的贡献值,当其过大时,可以拒绝原假设,表示有影响。但是其分布是未知的。
模型构建2
- 统计模型2
$$
\mu=\frac{1}{n}\sum_{i=1}^pn_i\mu_i\
\alpha_i=\mu_i-\mu\
x_{ij}=\mu+\alpha_i+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离,与统计模型1的思想完全一致,但是能够简化计算过程。
- 模型假设
$$
H_0:\alpha_1=\cdots=\alpha_p=0
$$
- 模型2方差分析
$$
\overline{\varepsilon}{i\cdot}=\frac{1}{n{i\cdot}}\sum_{j=1}^{n_i}\varepsilon_{ij}\
\overline{\varepsilon}=\frac{1}{n}\sum_{i=1}^p\sum_{j-1}^{n_i}\varepsilon_{ij}\
S_A=\sum_{i=1}^pn_i(\alpha_i+\overline{\varepsilon}{i\cdot}-\overline{\varepsilon})^2\
S_e=\sum{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}_{i\cdot})^2
$$
通过模型2可以知道$S_e$依赖样本的随机误差,$S_A$依赖随机误差与因素的水平效应。
定理1:模型均值
$$
E(S_e)=(n-p)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pn_i\alpha_i^2
$$
定理2:模型分布
$$
\frac{S_e}{\sigma^2}\sim\chi^2(n-p),S_e,S_A相互独立。\
假设H_0成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)
$$
定理3:F检验
- 检验统计量
$$
F=\frac{S_A/(p-1)}{S_e/(n-p)}\sim F(p-1,n-p)
$$ - 拒绝域
$$
W={F:F\geq F_{1-\alpha}((p-1),(n-p)}
$$
重点:5.1.4表
2 双因素试验方差分析——无重复实验的方差分析
模型构建1
问题重述
- 因素A有p个不同的水平,$A_1\cdots A_p$
- 因素B有q个不同的水平,$B_1\cdots B_p$
- 共有pq=n个实验结果。$X_{ij}$服从同方差的正太分布$N(\mu_{ij},\sigma^2)$,参数未知。
- 检验n个样本的均值$\mu_{ij}$是否具有显著性差异
统计模型
$$
x_{ij}=\mu_{ij}+\varepsilon_{ij}
$$
其中$\mu_{ij}$描述了因素水平的影响。$\varepsilon$描述了随机误差的影响$\varepsilon_{ij}\sim N(0,\sigma^2)$模型假设
$$
H_01:\mu_{1\cdot}=\cdots=\mu_{p\cdot},H_11:\mu不全相等\
H_02:\mu_{\cdot1}=\cdots=\mu_{\cdot q},H_12:\mu不全相等\
$$模型方差分析
$$
总离差平方和S_T=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x})^2\
总均值\overline{x}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}x_{ij}\
组内离差平方和S_e=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x}{i\cdot}-\overline{x}{\cdot j}+\overline{x})^2\
组内均值\overline{x}{i\cdot}=\frac{1}{q}\sum{j=1}^{q}x_{ij}\
组内均值\overline{x}{\cdot j}=\frac{1}{p}\sum{j=1}^{q}x_{ij}\
组间离差平方和S_A=\sum_{i=1}^p\sum_{j=1}^{q}(\overline{x}{i\cdot}-\overline{x})^2=\sum{i=1}^pq(\overline{x}{i\cdot}-\overline{x})^2\
组间离差平方和S_B=\sum{i=1}^p\sum_{j=1}^{q}(\overline{x}{i\cdot}-\overline{x})^2=\sum{j=1}^qp(\overline{x}_{\cdot j}-\overline{x})^2\
离差平方和关系S_T=S_e+S_A+S_B
$$
其中$S_A,S_e$分别描述了,由因素不同水平引起的方差与由随机变量引起的方差。可以使用$\frac{S_A}{S_e}$作为检验统计量,表示组间因素水平对总体方差变化大小的贡献值,当其过大时,可以拒绝原假设,表示有影响。但是其分布是未知的。
模型构建2
- 统计模型2
$$
\mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\
\mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\
\mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\
\alpha_i=\mu_{i\cdot}-\mu\
\beta_j=\mu_{\cdot j}-\mu\
x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离,分成由因素A引起的均值变化,由因素B引起的均值变化,由其他因素带来的均值。与统计模型1的思想完全一致,但是能够简化计算过程。
- 模型假设
$$
H_01:\alpha_1=\cdots=\alpha_p=0\
H_02:\beta_1=\cdots=\beta_q=0
$$
- 模型2方差分析
$$
\overline{\varepsilon}{i\cdot}=\frac{1}{q}\sum{j=1}^{q}\varepsilon_{ij}\
\overline{\varepsilon}{\cdot j}=\frac{1}{p}\sum{j=1}^{p}\varepsilon_{ij}\
\overline{\varepsilon}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}\varepsilon_{ij}\
S_A=\sum_{i=1}^pq(\alpha_i+\overline{\varepsilon}{i\cdot}-\overline{\varepsilon})^2\
S_B=\sum{j=1}^qp(\beta_j+\overline{\varepsilon}{\cdot j}-\overline{\varepsilon})^2\
S_e=\sum{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}{i\cdot}-\overline{\varepsilon}{\cdot j}+\overline{\varepsilon})^2
$$
通过模型2可以知道$S_e$依赖样本的随机误差,$S_A$依赖随机误差与因素的水平效应。
定理1:模型均值
$$
E(S_e)=(p-1)(q-1)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pq\alpha_i^2\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qp\beta_j^2\
$$
定理2:模型分布
$$
\frac{S_e}{\sigma^2}\sim\chi^2((p-1)(q-1)),S_e,S_A相互独立。\
假设H_01成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\
假设H_02成立时,\frac{S_B}{\sigma^2}\sim\chi^2(q-1)
$$
定理3:F检验
- 检验统计量
$$
F_A=\frac{\overline{S}_A}{S_e}\sim F(p-1,(p-1)(q-1))\
F_B=\frac{\overline{S}_B}{S_e}\sim F(q-1,(p-1)(q-1))\
$$ - 拒绝域
$$
W_A={F_A:F_A\geq F_{1-\alpha}((p-1),(p-q)(q-1))}\
W_B={F_B:F_B\geq F_{1-\alpha}((q-1),(p-1)(q-1))}
$$
3 双因素实验方差分析——等重复试验的方差分析
在上述实验的每种组合下,重复试验,能够对A与B的交互作用进行检验。
模型构建
统计模型
$$
\mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\
\mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\
\mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\
\alpha_i=\mu_{i\cdot}-\mu\
\beta_j=\mu_{\cdot j}-\mu\
\delta_{ij}=(\mu_{ij}-\mu)-\alpha_i-\beta_j\
\sum_{i=1}^p\alpha_i=0,\sum_{j=1}^q=0,\sum_{i=1}^p\delta_{ij}=0,\sum_{j=1}^q\delta_{ij}=0\
最终模型:x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离,分成由因素A引起的均值变化,由因素B引起的均值变化,由AB交互作用引起的变化,由其他因素带来的均值。模型假设
$$
H_{01}:\alpha_1=\cdots=\alpha_p=0\
H_{02}:\beta_1=\cdots=\beta_q=0\
H_{03}:\delta_{ij}=0
$$方差分析1
这是通过统计量$\overline{x}$构建的离差分析
$$
\overline{x}=\frac{1}{pqr}\sum_{j=1}^q\sum_{k=1}^rx_{ijk}\
S_T=\sum_{i=1}^p\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x})^2\
组内离差平方和S_e=\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x}{ij\cdot})^2\
A组间离差平方和S_A=\sum{j=1}^q\sum_{k=1}^r(x_{i\cdot\cdot}-\overline{x})^2=qr\sum_{i=1}^p{\overline{x}{i\cdot\cdot}-\overline{x}}\
B组间离差平方和S_B=\sum{j=1}^q\sum_{k=1}^r(x_{\cdot j\cdot}-\overline{x})^2=pr\sum_{j=1}^q{\overline{x}{\cdot j\cdot}-\overline{x}}\
A\times B离差平方和S{A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\overline{x}{ij\cdot}-\overline{x}{i\cdot\cdot}-\overline{\cdot j\cdot}+\overline{x})^2
$$方差分析2
这个是通过统计量$\varepsilon$构建的离差平方和
$$
S_A=\sum_{i=1}^pqr(\alpha_i+\overline{\varepsilon}{i\cdot\cdot}-\overline{\varepsilon})^2\
S_B=\sum{j=1}^qpr(\beta_j+\overline{\varepsilon}{\cdot j\cdot}-\overline{\varepsilon})^2\
S{A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\delta_{ij}+\overline{\varepsilon}{ij\cdot}-\overline{\varepsilon}{i\cdot\cdot}-\overline{\varepsilon}{\cdot j\cdot}+\overline{\varepsilon})^2\
S_e=\sum{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}{i\cdot}-\overline{\varepsilon}{\cdot j}+\overline{\varepsilon})^2
$$
定理1:模型均值
$$
E(S_e)=pq(r-1)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pqr\alpha_i^2\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qpr\beta_j^2\
E(S_{A\times B})=(p-1)(q-1)\sigma^2+r\sum_{i=1}^p\sum_{j=1}^q\delta_{ij}^2
$$
定理2:模型分布
$$
\frac{S_e}{\sigma^2}\sim\chi^2(pq(r-1)),S_e,S_A相互独立。\
假设H_{01}成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\
假设H_{02}成立时,\frac{S_B}{\sigma^2}\sim\chi^2(q-1)\
假设H_{03}成立时,\frac{S_{A\times B}}{\sigma^2}\sim\chi^2((p-1)(q-1))
$$
定理3:F检验
- 检验统计量
$$
F_A=\frac{\overline{S}A}{S_e}\sim F(p-1,pq(r-1))\
F_B=\frac{\overline{S}B}{S_e}\sim F(q-1,pq(r-1))\
F{A\times B}=\frac{\overline{S}{A\times B}}{\overline{S}_e}\sim F((p-1)(q-r),pq(r-1))
$$ - 拒绝域
$$
W_A={F_A:F_A\geq F_{1-\alpha}((p-1),pq(r-1))}\
W_B={F_B:F_B\geq F_{1-\alpha}((q-1),pq(r-1))}\
W_{A\times B}={F_{A\times B}:F_{A\times B}\geq F_{1-\alpha}((p-1)(q-1),pq(r-1))}
$$
重点(考)
193 表5.1.4
201 表5.2.3
210 表5.2.8




