参数的点估计

1 参数及其估计

假设存在$p(x,\theta)$总体分布簇。将与总体有关的待估计的量看成参数,包括$\theta$和与$\theta$的函数$q(\theta)$。例如总体的数学期望$E(X)$与方差$Var(X)$。

可以将总体的期望和方差看做总体的本身的一种属性。

定义:参数估计

用于估计参数$\theta$ 或 $q(\theta)$
样本的统计量$T(X_1,X_2,\dotsm,X_n)$
称为估计量或估计值。构造统计量$T(x_1,x_2,\dotsm,x_n)$作为参数$q(\theta)$的估计。
$$
\hat{q}(x_1,x_2,\dotsm,x_n)=T(x_1,x_2,\dotsm,x_n)
$$

2 频率替换原理

定义:频率估计

n次重复独立实验,每次实验中有m个可能的结果$v_1,v_2,\dotsm,v_i$。每个结果的概率为$p_i$。用$n_i$表示n次独立重复实验中$D_i$发生的次数,则联合分布概率为:
$$
p(n_1,n_2,\dotsm,n_m)=\frac{n!}{n_1!n_2!\dotsm n_m!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}
$$
$\hat{p}=\frac{n_i}{n}$是$p_i$的频率估计。

概率=频率。前者是形式计算、估计量;后者是统计计算、统计量。

形式计算:可以计算均值方差,包含未知数。统计量:基于样本能够计算均值、方差。二者可以建立方程。

补充:组合排列公式

$$
A_n^m=n(n-1)\dotsm(n-m+1)=\frac{n!}{(n-m)!}\
C_n^m=\frac{A_n^m}{m!}=\frac{n!}{(n-m)!m!}
$$
对于以上高维多项分布可以从一下方面理解
$$
p=C_n^{n_1}p_1*C_{n-n_1}^{n_2}p_2\dotsm C_{n-n_1-\dotsm-n_{m-1}}^{n_m}p_m\
=\frac{n!(n-n_1)!\dotsm(n-n_1-\dotsm-n_{m-1})!}{(n_1!n_2!\dotsm n_m!)(n-n_1)!(n-n_1-\dotsm-n_{m-1})!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}\
=\frac{n!}{n_1!n_2!\dotsm n_m!}p_1^{n_1}p_2^{n_2}\dotsm p_m^{n_m}
$$

理解:

每一个$p_i$可以用多个参数$\theta_i$表征。每一个$p_i$又可以通过频率替换的方法来表示。可以建立方程,使用频率替换的方法计算位置参数$\theta_i$。这个过程称为频率替换的参数估计。

步骤:

  • 概率的参数表示:
    $$
    \begin{cases}
    p_1 = h_1(\theta_1,\dotsm,\theta_s)\
    \dotsm \
    p_m = h_m(\theta_1,\dotsm,\theta_s)
    \end{cases}
    $$
  • 反解方程组得:
    $$
    q(\theta)=g(p_1,\dotsm,p_m)

$$

  • 频率替换原理得:
    $$
    q(\theta)=g(\frac{n_1}{n},\dotsm,\frac{n_m}{n})
    $$

3 矩估计

定义:矩估计

总体分布族${p(x;\theta):\theta\in\Theta}$

参数$\theta=(\theta_1,\dotsm,\theta_s)$

样本的k阶原点矩$A_k=\frac{1}{n}\sum_{i=1}^nx_i^k,k=1,2,\dotsm$

总体的r阶原点矩$\mu_r=E_\theta(|X|^r)$

由大数定律可知,若总体距存在,则样本矩依概率收敛于响应的总体矩。可以使用样本矩估计总体矩。

理解

每一个r阶原点矩$u_r$可以用多个参数$\theta_i$表征。每一个$u_r$又可以通过样本原点矩替换的方法来表示。可以建立方程,使用样本原点矩计算参数$\theta_i$。这个过程称为矩估计。

矩估计、频率估计通常不唯一。这个时候往往涉及到多重不同的估计评优。可以同时用一阶原点矩、二阶中心距、二阶原点矩来表示泊松分布的$\lambda$。

步骤

  • 矩估计方程
    $$
    \begin{cases}
    u_1 = g_1(\theta_1,\dotsm,\theta_s)\
    \dotsm \
    u_r = g_r(\theta_1,\dotsm,\theta_s)
    \end{cases}
    $$
  • 反解方程组得:
    $$
    q(\theta)=h(u_1,\dotsm,u_r)
    $$
  • 频率替换原理得:
    $$
    q(\theta)=g(A_1,\dotsm,A_r)
    $$

4 极大似然估计

定义:极大似然估计

参数空间$\Theta$,似然函数

$$
L(\theta,x_1,\dotsm,x_n)=L(\theta,x)=L(\theta)= {\Pi_{i=1}^n} p(x_i;\theta)
$$

$\theta=\hat{\theta}$时取最大值,极大似然函数MLE

$$
L(\hat{\theta})=sup{L(\theta)}
$$

我们不关注最大值是多少,我们只关心似然函数取最大值的时候,自变量、参数$\theta$的取值是多少。$\ln L(\theta)$是对数似然函数,最大值具有相同的$\hat{\theta}$。对于多个$\theta_i$可以得到似然方程组

$$
\frac{\partial\ln L(\theta)}{\partial\theta_i}=0
$$

理解

在给定样本观察值的条件下,用使这组样本观察值出现概率最大的$\hat{\theta}$作为$\theta$的的估计。

在样本的实验中出现了一种情况。这总情况可以用带参数的联合概率计算公式表示。在参数范围取参数的一个值使得本次实验的情况达到最大值。

题型总结

对参数的估计:使用样本统计量构建估计量。

求$\theta$的极大似然估计

步骤:

  • 确定似然函数
  • 确定对数似然函数
  • 求解偏导数
  • 建立似然方程组(需要综合所有已知条件,减少参数)偏导等于零(单调函数求最大值,极值函数求最大值)

说明:

  • 高维未知参数。可能存在多个未知数求极大似然函数,分别求偏导,建立极大似然方程组。
  • 未知数的函数。可能对未知数组成的函数感兴趣。可以分别求相关的高维极大似然函数的解,然后联立得到函数。搞清楚谁是未知数谁是已知数。

求$q(\theta)$的估计

步骤:

  • 总体特征(概率、总体矩、概率参数)表示$q(\theta)$
  • 样本特征替换总体特征。使用频率替换概率、使用样本矩替换总体矩、使用参数的极大似然函数替换某个参数。
  • 解得$q(\theta)$