第3节 统计量
统计量
知识梳理:A类随机变量,具有数字特征,通过概率计算估计量。B类样本多个,具有统计特征,通过样本计算统计量。
知识梳理2:关于一维的讨论已经没有必要了。样本永远是高维变量。所以要考虑联合分布函数、联合分布列、联合概率密度、边缘分布列、边缘概率密度、边缘分布函数。
1 统计量
定义:统计量
$X_1,X_2,\dotsm,X_n$来自总体的简单样本。样本函数$T(X_1,X_2,\dotsm)$不包含任何未知的参数,称为统计量。
2 常用统计量
公式:样本均值(样本1阶原点矩)
$$
\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i
$$
公式:样本方差
$$
S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2
$$
公式:样本标准差
$$
S = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}
$$
公式:k阶原点矩
$$
A_k = \frac{1}{n}\sum_{i=1}^nX_i^k
$$
公式:k阶中心矩
$$
B_k = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k
$$
理解:样本统计量与随机变量特征(总体数据特征)的关系(重要)
这里将样本的统计量当做一个新的随机变量,求随机变量的数据特征。并得到样本统计量的数据特征与总体随机变量的数据特征的关系。
这里讨论的对象有两个:样本的统计量——随机变量的数据特征。分别称为样本的均值$\overline{X}$方差$S^2$ 与 随机变量(总体)的均值$E$方差$D/Var$。
两者是完全不同的概念。前者针对样本,是统计量,由样本的观察值求的的统计值。后者针对随机变量,是数据特征,由概率(分布律或者概率密度)给出的估计值。
公式:样本与总体关系
$$
E(\overline{X})=E(X)\
D(\overline{X})=\frac{1}{n}D(X) \
E(S^2)=Var(X)
$$
关于$S^2$中的$n-1$的讨论
与有偏估计和无偏估计有关,具体的证明,在浏览器数学的收藏夹里有。
样本的统计量是对总体的估计。
这里的n-1是自由度。
3 顺序统计量
定义:顺序统计量
把$X_1,X_2,\dotsm,X_n$的观察值$x_1,x_2,\dotsm$从小到大排列记作$x_{(1)},x_{(2)},\dotsm,x_{(n)}$,满足$x_{(1)}\leq x_{(2)}\leq \dotsm\leq x_{(n)}$。$X_{(k)}$称为顺序统计量。
公式:$X_{(1)}$
$$
F_{x_{(1)}}(t)=1-(1-F(t))^n \
P_{x_{(1)}}=n(1-F(t))^{n-1}(F’(t))
$$
公式:$X_{(n)}$
$$
F_{x_{(n)}}(t)=F^n(t)\
P_{x_{(n)}}=nF^{n-1}(t)(F’(t))
$$
公式:极差
$$
R=x_{(n)}-x_{(1)}
$$
公式:中位数
$$
m_{0.5}=\begin{cases}
X(\frac{n+1}{2}) & n|2=1 \
\frac{1}{2}(X_{\frac{n}{2}}+X_{\frac{n}{2}+1}) & n|2=0
\end{cases}
$$
公式:均匀分布的顺序统计量
- 均匀分布
$$
X\sim U(a,b) \
$$ - 均匀分布密度函数
$$
f(x)=\begin{cases}
\frac{1}{b-a}& a\leq x \leq b \
0 & else\
\end{cases} \
$$ - 均匀分布分布函数
$$
F(t)=\begin{cases}
\frac{t}{b-a} & a\leq x \leq b\
0 & x \leq a\
1 & x \geq b
\end{cases}
$$ - 均匀分布$X_{(1)}$分布函数与密度函数
$$
$$
- 均匀分布$X_{(n)}$分布函数与密度函数
$$
F_{x_{(n)}}(t)=F^n(t)=\begin{cases}
\frac{t^n}{(b-a)^n} & a\leq x \leq b \
0 & x \leq a\
1 & x \geq b
\end{cases}\
P_{x_{(1)}}=nF^{n-1}(t)(F’(t))=\begin{cases}
\frac{nt^{n-1}}{(b-a)^n} & a\leq x \leq b \
0 & else
\end{cases}
$$
4 充分统计量
第一个考点。需要了解联合分布,条件分布。
定义:充分统计量
总体分布族为$(P_\theta:\theta\in \Theta)$,$X_1,X_2,\dotsm,X_n$来自总体的简单样本。
样本函数$T(X_1,X_2,\dotsm)$不包含任何未知的参数,称为统计量。
如果给定$T(X_1,X_2,\dotsm)=t$的条件下
样本的条件分布函数$F_\theta(x_1,x_2,\dotsm|t)$与参数$\theta$无关,或者条件分布列、条件概率密度与$p(x_1,x_2,\dotsm|t)$都与$\theta$无关
则称函数T为参数$\theta$的充分统计量。
定理:因子分解(Fisher-Neyman准则)
- 声明
$$
总体分布族(P_\theta:\theta\in \Theta)\
t=T(x)是\theta一个统计量\
p(x,\theta)是样本的联合分布列或联合密度函数
$$ - 条件
$$
存在一个实值函数g(t,\theta) \
存在一个不依赖参数\theta的实值函数h(x) \
使得样本X_1,X_2,\dotsm,X_n的联合分布列p(x,\theta)的分解式为:\
p(x;\theta)=g(t,\theta)h(x)
$$ - 结论
$$
T(x)是\theta的一个充分统计量
$$
充分统计量的维数,一般与未知参数的维数一致。(可能)
5 经验分布函数
定义:经验分布函数
经验频数$v_n(x)$表示$n$次重复独立观测中事件${X\leq x}$发生的次数。
经验频数服从二项分布$B(n,F(x))$
频率$\frac{V_n(x)}{n}$近似分布函数$F(x)$
设样本$x_1,x_2,\dotsm,x_n$的顺序统计量$x_{(1)},x_{(2)},\dotsm,x_{(n)}$,定义函数
$$
F_n(x)=\frac{v_n(x)}{n}=\begin{cases}
0 & x<x_{(1)} \
\frac{k}{n} & x_(k)\leq x < x_{(k+1)} \
1 & x \geq x_{(n)}
\end{cases}
$$
称为X的经验分布函数。它是顺序统计量的函数。
性质
- $F_n(x)$是x的分段函数。
- 经验分布函数的数学期望就是真正的分布函数。
$$
E(F_n(x))=F(x)
$$
定理:Glivenko定理(一致收敛定理)
当$n\rightarrow \infin$时,经验分布函数$F_n(x)$一致收敛于总体的分布函数F(x)
$$
P{\lim\limits_{n\rightarrow \infin}}\sup_{(-\infin,+\infin)}|F_n(x)-F(x)=0|=1
$$
定义:课上的定义
经验频数$V_n(x)$
$$
F_n(x)=P(X\leq x)=\frac{V_n(x)}{n}=
\begin{cases}
0 & x<2 \
\frac{1}{4} & x<3 \
\frac{1}{2} & x<4 \
\frac{3}{4} & x<5 \
1 & x\geq 5
\end{cases}
$$
则随机变量X服从经验分布,记作:$\overline{X}\sim F(x)$
仅有这一种方法给出了总体的分布估计,其他地方都在估计概率










