统计量

知识梳理:A类随机变量,具有数字特征,通过概率计算估计量。B类样本多个,具有统计特征,通过样本计算统计量。

知识梳理2:关于一维的讨论已经没有必要了。样本永远是高维变量。所以要考虑联合分布函数、联合分布列、联合概率密度、边缘分布列、边缘概率密度、边缘分布函数。

1 统计量

定义:统计量

$X_1,X_2,\dotsm,X_n$来自总体的简单样本。样本函数$T(X_1,X_2,\dotsm)$不包含任何未知的参数,称为统计量。

2 常用统计量

公式:样本均值(样本1阶原点矩)

$$
\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i
$$

公式:样本方差

$$
S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2
$$

公式:样本标准差

$$
S = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}
$$

公式:k阶原点矩

$$
A_k = \frac{1}{n}\sum_{i=1}^nX_i^k
$$

公式:k阶中心矩

$$
B_k = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k
$$

理解:样本统计量与随机变量特征(总体数据特征)的关系(重要)

这里将样本的统计量当做一个新的随机变量,求随机变量的数据特征。并得到样本统计量的数据特征与总体随机变量的数据特征的关系。

这里讨论的对象有两个:样本的统计量——随机变量的数据特征。分别称为样本的均值$\overline{X}$方差$S^2$ 与 随机变量(总体)的均值$E$方差$D/Var$。

两者是完全不同的概念。前者针对样本,是统计量,由样本的观察值求的的统计值。后者针对随机变量,是数据特征,由概率(分布律或者概率密度)给出的估计值。

公式:样本与总体关系

$$
E(\overline{X})=E(X)\
D(\overline{X})=\frac{1}{n}D(X) \
E(S^2)=Var(X)
$$

关于$S^2$中的$n-1$的讨论

与有偏估计和无偏估计有关,具体的证明,在浏览器数学的收藏夹里有。
样本的统计量是对总体的估计。
这里的n-1是自由度。

3 顺序统计量

定义:顺序统计量

把$X_1,X_2,\dotsm,X_n$的观察值$x_1,x_2,\dotsm$从小到大排列记作$x_{(1)},x_{(2)},\dotsm,x_{(n)}$,满足$x_{(1)}\leq x_{(2)}\leq \dotsm\leq x_{(n)}$。$X_{(k)}$称为顺序统计量。

公式:$X_{(1)}$

$$
F_{x_{(1)}}(t)=1-(1-F(t))^n \
P_{x_{(1)}}=n(1-F(t))^{n-1}(F’(t))
$$

公式:$X_{(n)}$

$$
F_{x_{(n)}}(t)=F^n(t)\
P_{x_{(n)}}=nF^{n-1}(t)(F’(t))
$$

公式:极差

$$
R=x_{(n)}-x_{(1)}
$$

公式:中位数

$$
m_{0.5}=\begin{cases}
X(\frac{n+1}{2}) & n|2=1 \
\frac{1}{2}(X_{\frac{n}{2}}+X_{\frac{n}{2}+1}) & n|2=0
\end{cases}
$$

公式:均匀分布的顺序统计量

  • 均匀分布
    $$
    X\sim U(a,b) \
    $$
  • 均匀分布密度函数
    $$
    f(x)=\begin{cases}
    \frac{1}{b-a}& a\leq x \leq b \
    0 & else\
    \end{cases} \
    $$
  • 均匀分布分布函数
    $$
    F(t)=\begin{cases}
    \frac{t}{b-a} & a\leq x \leq b\
    0 & x \leq a\
    1 & x \geq b
    \end{cases}
    $$
  • 均匀分布$X_{(1)}$分布函数与密度函数
    $$

$$

  • 均匀分布$X_{(n)}$分布函数与密度函数
    $$
    F_{x_{(n)}}(t)=F^n(t)=\begin{cases}
    \frac{t^n}{(b-a)^n} & a\leq x \leq b \
    0 & x \leq a\
    1 & x \geq b
    \end{cases}\
    P_{x_{(1)}}=nF^{n-1}(t)(F’(t))=\begin{cases}
    \frac{nt^{n-1}}{(b-a)^n} & a\leq x \leq b \
    0 & else
    \end{cases}
    $$

4 充分统计量

第一个考点。需要了解联合分布,条件分布。

定义:充分统计量

总体分布族为$(P_\theta:\theta\in \Theta)$,$X_1,X_2,\dotsm,X_n$来自总体的简单样本。
样本函数$T(X_1,X_2,\dotsm)$不包含任何未知的参数,称为统计量。
如果给定$T(X_1,X_2,\dotsm)=t$的条件下
样本的条件分布函数$F_\theta(x_1,x_2,\dotsm|t)$与参数$\theta$无关,或者条件分布列、条件概率密度与$p(x_1,x_2,\dotsm|t)$都与$\theta$无关
则称函数T为参数$\theta$的充分统计量

定理:因子分解(Fisher-Neyman准则)

  • 声明
    $$
    总体分布族(P_\theta:\theta\in \Theta)\
    t=T(x)是\theta一个统计量\
    p(x,\theta)是样本的联合分布列或联合密度函数
    $$
  • 条件
    $$
    存在一个实值函数g(t,\theta) \
    存在一个不依赖参数\theta的实值函数h(x) \
    使得样本X_1,X_2,\dotsm,X_n的联合分布列p(x,\theta)的分解式为:\
    p(x;\theta)=g(t,\theta)h(x)
    $$
  • 结论
    $$
    T(x)是\theta的一个充分统计量
    $$

充分统计量的维数,一般与未知参数的维数一致。(可能)

5 经验分布函数

定义:经验分布函数

经验频数$v_n(x)$表示$n$次重复独立观测中事件${X\leq x}$发生的次数。

经验频数服从二项分布$B(n,F(x))$

频率$\frac{V_n(x)}{n}$近似分布函数$F(x)$

设样本$x_1,x_2,\dotsm,x_n$的顺序统计量$x_{(1)},x_{(2)},\dotsm,x_{(n)}$,定义函数
$$
F_n(x)=\frac{v_n(x)}{n}=\begin{cases}
0 & x<x_{(1)} \
\frac{k}{n} & x_(k)\leq x < x_{(k+1)} \
1 & x \geq x_{(n)}
\end{cases}

$$
称为X的经验分布函数。它是顺序统计量的函数。

性质

  • $F_n(x)$是x的分段函数。
  • 经验分布函数的数学期望就是真正的分布函数。
    $$
    E(F_n(x))=F(x)
    $$

定理:Glivenko定理(一致收敛定理)

当$n\rightarrow \infin$时,经验分布函数$F_n(x)$一致收敛于总体的分布函数F(x)
$$
P{\lim\limits_{n\rightarrow \infin}}\sup_{(-\infin,+\infin)}|F_n(x)-F(x)=0|=1
$$

定义:课上的定义

经验频数$V_n(x)$
$$
F_n(x)=P(X\leq x)=\frac{V_n(x)}{n}=
\begin{cases}
0 & x<2 \
\frac{1}{4} & x<3 \
\frac{1}{2} & x<4 \
\frac{3}{4} & x<5 \
1 & x\geq 5
\end{cases}
$$
则随机变量X服从经验分布,记作:$\overline{X}\sim F(x)$

仅有这一种方法给出了总体的分布估计,其他地方都在估计概率