方差分析

1 单因素试验方差分析

第三章假设检验,主要用来检验两个总体的均值和方差的关系。这里的方差分析,主要用来检验多个不同的因素的均值和方差的关系。

关于假设检验部分的内容的补充:

  1. 首先,假设随机变量总体符合某种分布,其均值、方差或者方差应该是已知的。
  2. 可以得到样本的一致最小方差无偏估计,估计总体的均值、方差或者其他参数。
  3. 可以给定一个置信水平,能够得到取值的一个分布区间,如果样本取值分布在这个区间中,表示检验可靠。
  4. 如果样本总体的均值、方差或者数据特征,本身的一致最小方差无偏估计的分布很难求,可以构造正太总体、正太统计量。检验水平—-对应总体均值、方差的统计量分布区间—-对应总体均值、方差构造的函数的统计量的分布区间。

定义:水平

  • 因素:影响实验结果的原因
  • 水平:实验中因素所处的不同状态。

模型构建1

  • 问题重述

    • 因素A有p个不同的水平,$A_1\cdots A_p$
    • 每个水平$A_i$下总体$X_i$服从同方差的正太分布$N(\mu_i,\sigma^2)$,参数未知。
    • 检验p个样本的均值$\mu_i$是否具有显著性差异
    • 样本观察值,因素A下每个检验水平有$n_i$个观察值
  • 统计模型
    $$
    x_{ij}=\mu_i+\varepsilon_{ij}
    $$
    其中$\mu_i$描述了因素水平的影响。$\varepsilon$描述了随机误差的影响$\varepsilon_{ij}\sim N(0,\sigma^2)$

  • 模型假设
    $$
    H_0:\mu_1=\mu_2=\mu_3,H_1:\mu不全相等
    $$

  • 模型方差分析

$$
总离差平方和S_T=\sum_{i=1}^p\sum_{j-1}^{n_i}(x_{ij}-\overline{x})^2\
总均值\overline{x}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{n_i}x_{ij}\
组内离差平方和S_e=\sum_{i=1}^p\sum_{j-1}^{n_i}(x_{ij}-\overline{x}{i\cdot})^2\
组内均值\overline{x}
{i\cdot}=\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\
组间离差平方和S_A=\sum_{i=1}^p\sum_{j-1}^{n_i}(\overline{x}{i\cdot}-\overline{x})^2=\sum{i=1}^pn_i(\overline{x}_{i\cdot}-\overline{x})^2\
离差平方和关系S_T=S_e+S_A
$$
其中$S_A,S_e$分别描述了,由因素不同水平引起的方差与由随机变量引起的方差。可以使用$\frac{S_A}{S_e}$作为检验统计量,表示组间因素水平对总体方差变化大小的贡献值,当其过大时,可以拒绝原假设,表示有影响。但是其分布是未知的。

模型构建2

  • 统计模型2

$$
\mu=\frac{1}{n}\sum_{i=1}^pn_i\mu_i\
\alpha_i=\mu_i-\mu\
x_{ij}=\mu+\alpha_i+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离,与统计模型1的思想完全一致,但是能够简化计算过程。

  • 模型假设

$$
H_0:\alpha_1=\cdots=\alpha_p=0
$$

  • 模型2方差分析

$$
\overline{\varepsilon}{i\cdot}=\frac{1}{n{i\cdot}}\sum_{j=1}^{n_i}\varepsilon_{ij}\
\overline{\varepsilon}=\frac{1}{n}\sum_{i=1}^p\sum_{j-1}^{n_i}\varepsilon_{ij}\
S_A=\sum_{i=1}^pn_i(\alpha_i+\overline{\varepsilon}{i\cdot}-\overline{\varepsilon})^2\
S_e=\sum
{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}_{i\cdot})^2
$$

通过模型2可以知道$S_e$依赖样本的随机误差,$S_A$依赖随机误差与因素的水平效应。

定理1:模型均值

$$
E(S_e)=(n-p)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pn_i\alpha_i^2
$$

定理2:模型分布

$$
\frac{S_e}{\sigma^2}\sim\chi^2(n-p),S_e,S_A相互独立。\
假设H_0成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)
$$

定理3:F检验

  • 检验统计量
    $$
    F=\frac{S_A/(p-1)}{S_e/(n-p)}\sim F(p-1,n-p)
    $$
  • 拒绝域
    $$
    W={F:F\geq F_{1-\alpha}((p-1),(n-p)}
    $$

重点:5.1.4表

2 双因素试验方差分析——无重复实验的方差分析

模型构建1

  • 问题重述

    • 因素A有p个不同的水平,$A_1\cdots A_p$
    • 因素B有q个不同的水平,$B_1\cdots B_p$
    • 共有pq=n个实验结果。$X_{ij}$服从同方差的正太分布$N(\mu_{ij},\sigma^2)$,参数未知。
    • 检验n个样本的均值$\mu_{ij}$是否具有显著性差异
  • 统计模型
    $$
    x_{ij}=\mu_{ij}+\varepsilon_{ij}
    $$
    其中$\mu_{ij}$描述了因素水平的影响。$\varepsilon$描述了随机误差的影响$\varepsilon_{ij}\sim N(0,\sigma^2)$

  • 模型假设
    $$
    H_01:\mu_{1\cdot}=\cdots=\mu_{p\cdot},H_11:\mu不全相等\
    H_02:\mu_{\cdot1}=\cdots=\mu_{\cdot q},H_12:\mu不全相等\
    $$

  • 模型方差分析

$$
总离差平方和S_T=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x})^2\
总均值\overline{x}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}x_{ij}\
组内离差平方和S_e=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x}{i\cdot}-\overline{x}{\cdot j}+\overline{x})^2\
组内均值\overline{x}{i\cdot}=\frac{1}{q}\sum{j=1}^{q}x_{ij}\
组内均值\overline{x}{\cdot j}=\frac{1}{p}\sum{j=1}^{q}x_{ij}\
组间离差平方和S_A=\sum_{i=1}^p\sum_{j=1}^{q}(\overline{x}{i\cdot}-\overline{x})^2=\sum{i=1}^pq(\overline{x}{i\cdot}-\overline{x})^2\
组间离差平方和S_B=\sum
{i=1}^p\sum_{j=1}^{q}(\overline{x}{i\cdot}-\overline{x})^2=\sum{j=1}^qp(\overline{x}_{\cdot j}-\overline{x})^2\
离差平方和关系S_T=S_e+S_A+S_B
$$
其中$S_A,S_e$分别描述了,由因素不同水平引起的方差与由随机变量引起的方差。可以使用$\frac{S_A}{S_e}$作为检验统计量,表示组间因素水平对总体方差变化大小的贡献值,当其过大时,可以拒绝原假设,表示有影响。但是其分布是未知的。

模型构建2

  • 统计模型2

$$
\mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\
\mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\
\mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\
\alpha_i=\mu_{i\cdot}-\mu\
\beta_j=\mu_{\cdot j}-\mu\
x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离,分成由因素A引起的均值变化,由因素B引起的均值变化,由其他因素带来的均值。与统计模型1的思想完全一致,但是能够简化计算过程。

  • 模型假设

$$
H_01:\alpha_1=\cdots=\alpha_p=0\
H_02:\beta_1=\cdots=\beta_q=0
$$

  • 模型2方差分析

$$
\overline{\varepsilon}{i\cdot}=\frac{1}{q}\sum{j=1}^{q}\varepsilon_{ij}\
\overline{\varepsilon}{\cdot j}=\frac{1}{p}\sum{j=1}^{p}\varepsilon_{ij}\
\overline{\varepsilon}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}\varepsilon_{ij}\
S_A=\sum_{i=1}^pq(\alpha_i+\overline{\varepsilon}{i\cdot}-\overline{\varepsilon})^2\
S_B=\sum
{j=1}^qp(\beta_j+\overline{\varepsilon}{\cdot j}-\overline{\varepsilon})^2\
S_e=\sum
{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}{i\cdot}-\overline{\varepsilon}{\cdot j}+\overline{\varepsilon})^2
$$

通过模型2可以知道$S_e$依赖样本的随机误差,$S_A$依赖随机误差与因素的水平效应。

定理1:模型均值

$$
E(S_e)=(p-1)(q-1)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pq\alpha_i^2\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qp\beta_j^2\
$$

定理2:模型分布

$$
\frac{S_e}{\sigma^2}\sim\chi^2((p-1)(q-1)),S_e,S_A相互独立。\
假设H_01成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\
假设H_02成立时,\frac{S_B}{\sigma^2}\sim\chi^2(q-1)
$$

定理3:F检验

  • 检验统计量
    $$
    F_A=\frac{\overline{S}_A}{S_e}\sim F(p-1,(p-1)(q-1))\
    F_B=\frac{\overline{S}_B}{S_e}\sim F(q-1,(p-1)(q-1))\
    $$
  • 拒绝域
    $$
    W_A={F_A:F_A\geq F_{1-\alpha}((p-1),(p-q)(q-1))}\
    W_B={F_B:F_B\geq F_{1-\alpha}((q-1),(p-1)(q-1))}
    $$

3 双因素实验方差分析——等重复试验的方差分析

在上述实验的每种组合下,重复试验,能够对A与B的交互作用进行检验。

模型构建

  • 统计模型
    $$
    \mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\
    \mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\
    \mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\
    \alpha_i=\mu_{i\cdot}-\mu\
    \beta_j=\mu_{\cdot j}-\mu\
    \delta_{ij}=(\mu_{ij}-\mu)-\alpha_i-\beta_j\
    \sum_{i=1}^p\alpha_i=0,\sum_{j=1}^q=0,\sum_{i=1}^p\delta_{ij}=0,\sum_{j=1}^q\delta_{ij}=0\
    最终模型:x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
    $$
    将因素水平对总体方差的影响进一步分离,分成由因素A引起的均值变化,由因素B引起的均值变化,由AB交互作用引起的变化,由其他因素带来的均值。

  • 模型假设
    $$
    H_{01}:\alpha_1=\cdots=\alpha_p=0\
    H_{02}:\beta_1=\cdots=\beta_q=0\
    H_{03}:\delta_{ij}=0
    $$

  • 方差分析1

    这是通过统计量$\overline{x}$构建的离差分析
    $$
    \overline{x}=\frac{1}{pqr}\sum_{j=1}^q\sum_{k=1}^rx_{ijk}\
    S_T=\sum_{i=1}^p\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x})^2\
    组内离差平方和S_e=\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x}{ij\cdot})^2\
    A组间离差平方和S_A=\sum
    {j=1}^q\sum_{k=1}^r(x_{i\cdot\cdot}-\overline{x})^2=qr\sum_{i=1}^p{\overline{x}{i\cdot\cdot}-\overline{x}}\
    B组间离差平方和S_B=\sum
    {j=1}^q\sum_{k=1}^r(x_{\cdot j\cdot}-\overline{x})^2=pr\sum_{j=1}^q{\overline{x}{\cdot j\cdot}-\overline{x}}\
    A\times B离差平方和S
    {A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\overline{x}{ij\cdot}-\overline{x}{i\cdot\cdot}-\overline{\cdot j\cdot}+\overline{x})^2
    $$

  • 方差分析2

    这个是通过统计量$\varepsilon$构建的离差平方和
    $$
    S_A=\sum_{i=1}^pqr(\alpha_i+\overline{\varepsilon}{i\cdot\cdot}-\overline{\varepsilon})^2\
    S_B=\sum
    {j=1}^qpr(\beta_j+\overline{\varepsilon}{\cdot j\cdot}-\overline{\varepsilon})^2\
    S
    {A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\delta_{ij}+\overline{\varepsilon}{ij\cdot}-\overline{\varepsilon}{i\cdot\cdot}-\overline{\varepsilon}{\cdot j\cdot}+\overline{\varepsilon})^2\
    S_e=\sum
    {i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}{i\cdot}-\overline{\varepsilon}{\cdot j}+\overline{\varepsilon})^2
    $$

定理1:模型均值

$$
E(S_e)=pq(r-1)\sigma^2\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pqr\alpha_i^2\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qpr\beta_j^2\
E(S_{A\times B})=(p-1)(q-1)\sigma^2+r\sum_{i=1}^p\sum_{j=1}^q\delta_{ij}^2
$$

定理2:模型分布

$$
\frac{S_e}{\sigma^2}\sim\chi^2(pq(r-1)),S_e,S_A相互独立。\
假设H_{01}成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\
假设H_{02}成立时,\frac{S_B}{\sigma^2}\sim\chi^2(q-1)\
假设H_{03}成立时,\frac{S_{A\times B}}{\sigma^2}\sim\chi^2((p-1)(q-1))
$$

定理3:F检验

  • 检验统计量
    $$
    F_A=\frac{\overline{S}A}{S_e}\sim F(p-1,pq(r-1))\
    F_B=\frac{\overline{S}B}{S_e}\sim F(q-1,pq(r-1))\
    F
    {A\times B}=\frac{\overline{S}
    {A\times B}}{\overline{S}_e}\sim F((p-1)(q-r),pq(r-1))
    $$
  • 拒绝域
    $$
    W_A={F_A:F_A\geq F_{1-\alpha}((p-1),pq(r-1))}\
    W_B={F_B:F_B\geq F_{1-\alpha}((q-1),pq(r-1))}\
    W_{A\times B}={F_{A\times B}:F_{A\times B}\geq F_{1-\alpha}((p-1)(q-1),pq(r-1))}
    $$

重点(考)
193 表5.1.4
201 表5.2.3
210 表5.2.8