第5节 参数点估计
参数的点估计
1 参数及其估计
假设存在$p(x,\theta)$总体分布簇。将与总体有关的待估计的量看成参数,包括$\theta$和与$\theta$的函数$q(\theta)$。例如总体的数学期望$E(X)$与方差$Var(X)$。
可以将总体的期望和方差看做总体的本身的一种属性。
定义:参数估计
用于估计参数$\theta$ 或 $q(\theta)$
样本的统计量$T(X_1,X_2,\dotsm,X_n)$
称为估计量或估计值。构造统计量$T(x_1,x_2,\dotsm,x_n)$作为参数$q(\theta)$的估计。
$$
\hat{q}(x_1,x_2,\dotsm,x_n)=T(x_1,x_2,\dotsm,x_n)
$$
2 频率替换原理
定义:频率估计
n次重复独立实验,每次实验中有m个可能的结果$v_1,v_2,\dotsm,v_i$。每个结果的概率为$p_i$。用$n_i$表示n次独立重复实验中$D_i$发生的次数,则联合分布概率为:
$$
p(n_1,n_2,\dotsm,n_m)=\frac{n!}{n_1!n_2!\dotsm n_m!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}
$$
$\hat{p}=\frac{n_i}{n}$是$p_i$的频率估计。
概率=频率。前者是形式计算、估计量;后者是统计计算、统计量。
形式计算:可以计算均值方差,包含未知数。统计量:基于样本能够计算均值、方差。二者可以建立方程。
补充:组合排列公式
$$
A_n^m=n(n-1)\dotsm(n-m+1)=\frac{n!}{(n-m)!}\
C_n^m=\frac{A_n^m}{m!}=\frac{n!}{(n-m)!m!}
$$
对于以上高维多项分布可以从一下方面理解
$$
p=C_n^{n_1}p_1*C_{n-n_1}^{n_2}p_2\dotsm C_{n-n_1-\dotsm-n_{m-1}}^{n_m}p_m\
=\frac{n!(n-n_1)!\dotsm(n-n_1-\dotsm-n_{m-1})!}{(n_1!n_2!\dotsm n_m!)(n-n_1)!(n-n_1-\dotsm-n_{m-1})!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}\
=\frac{n!}{n_1!n_2!\dotsm n_m!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}
$$
理解:
每一个$p_i$可以用多个参数$\theta_i$表征。每一个$p_i$又可以通过频率替换的方法来表示。可以建立方程,使用频率替换的方法计算位置参数$\theta_i$。这个过程称为频率替换的参数估计。
步骤:
- 概率的参数表示:
$$
\begin{cases}
p_1 = h_1(\theta_1,\dotsm,\theta_s)\
\dotsm \
p_m = h_m(\theta_1,\dotsm,\theta_s)
\end{cases}
$$ - 反解方程组得:
$$
q(\theta)=g(p_1,\dotsm,p_m)
$$
- 频率替换原理得:
$$
q(\theta)=g(\frac{n_1}{n},\dotsm,\frac{n_m}{n})
$$
3 矩估计
定义:矩估计
总体分布族${p(x;\theta):\theta\in\Theta}$
参数$\theta=(\theta_1,\dotsm,\theta_s)$
样本的k阶原点矩$A_k=\frac{1}{n}\sum_{i=1}^nx_i^k,k=1,2,\dotsm$
总体的r阶原点矩$\mu_r=E_\theta(|X|^r)$
由大数定律可知,若总体距存在,则样本矩依概率收敛于响应的总体矩。可以使用样本矩估计总体矩。
理解
每一个r阶原点矩$u_r$可以用多个参数$\theta_i$表征。每一个$u_r$又可以通过样本原点矩替换的方法来表示。可以建立方程,使用样本原点矩计算参数$\theta_i$。这个过程称为矩估计。
矩估计、频率估计通常不唯一。这个时候往往涉及到多重不同的估计评优。可以同时用一阶原点矩、二阶中心距、二阶原点矩来表示泊松分布的$\lambda$。
步骤
- 矩估计方程
$$
\begin{cases}
u_1 = g_1(\theta_1,\dotsm,\theta_s)\
\dotsm \
u_r = g_r(\theta_1,\dotsm,\theta_s)
\end{cases}
$$ - 反解方程组得:
$$
q(\theta)=h(u_1,\dotsm,u_r)
$$ - 频率替换原理得:
$$
q(\theta)=g(A_1,\dotsm,A_r)
$$
4 极大似然估计
定义:极大似然估计
参数空间$\Theta$,似然函数:
$$
L(\theta,x_1,\dotsm,x_n)=L(\theta,x)=L(\theta)= {\Pi_{i=1}^n} p(x_i;\theta)
$$
$\theta=\hat{\theta}$时取最大值,极大似然函数MLE:
$$
L(\hat{\theta})=sup{L(\theta)}
$$
我们不关注最大值是多少,我们只关心似然函数取最大值的时候,自变量、参数$\theta$的取值是多少。$\ln L(\theta)$是对数似然函数,最大值具有相同的$\hat{\theta}$。对于多个$\theta_i$可以得到似然方程组:
$$
\frac{\partial\ln L(\theta)}{\partial\theta_i}=0
$$
理解
在给定样本观察值的条件下,用使这组样本观察值出现概率最大的$\hat{\theta}$作为$\theta$的的估计。
在样本的实验中出现了一种情况。这总情况可以用带参数的联合概率计算公式表示。在参数范围取参数的一个值使得本次实验的情况达到最大值。
题型总结
对参数的估计:使用样本统计量构建估计量。
求$\theta$的极大似然估计
步骤:
- 确定似然函数
- 确定对数似然函数
- 求解偏导数
- 建立似然方程组(需要综合所有已知条件,减少参数)偏导等于零(单调函数求最大值,极值函数求最大值)
说明:
- 高维未知参数。可能存在多个未知数求极大似然函数,分别求偏导,建立极大似然方程组。
- 未知数的函数。可能对未知数组成的函数感兴趣。可以分别求相关的高维极大似然函数的解,然后联立得到函数。搞清楚谁是未知数谁是已知数。
求$q(\theta)$的估计
步骤:
- 总体特征(概率、总体矩、概率参数)表示$q(\theta)$
- 样本特征替换总体特征。使用频率替换概率、使用样本矩替换总体矩、使用参数的极大似然函数替换某个参数。
- 解得$q(\theta)$










