主成分分析

1 总体主成分分析

概述

多元统计分析,解释多元变量的各项指标之间的相关关系。对多元总体,协方差矩阵和相关矩阵是反映各个指标之间相关程度的统计特征。

主成分分析是一种通过将为方法把多像相关指标化为少数几个不相关的综合指标的多元数据处理技术。

数学模型

描述了压缩的目的,和基本的方法。

  1. 总体特征
    $$
    p元总体x=(x_1,\cdots,x_n)’\
    E(x)=\mu,Var(x)=\Sigma=(\sigma_{ij})\
    $$

  2. 维度压缩

压缩为一维
$$
y_1=\mu’x\
var(y_1)=\mu’\Sigma\mu
$$

  1. 标准化

$$
\mu’\mu=1的条件下,选择合适的\mu使Var(y_1)=\mu’\Sigma\mu 最大
$$

定理1

给出了上述数学模型的一个解的定理

  • 条件

$$
协方差矩阵\Sigma,特征值\lambda_1,\cdots,\lambda_p\geq 0\
单位正交向量a_1,\cdots,a_p\
$$

  • 结论
    $$
    在\mu’\mu=1的条件下,\mu’\Sigma\mu在\mu=a_1处取的最大值\lambda_1\
    在\mu’\mu=1和\mu’a_i=0(i=1,\cdots,k)的条件下,\ \mu’\Sigma\mu在\mu=a_k处取的最大值\lambda_1
    $$

求解步骤

根据定理完成主城分析的过程

  1. 从x的协方差矩阵$\Sigma$出发,求出特征值,从大到小排序$\lambda_1\geq\lambda_2\geq\cdots\geq 0$
  2. 求解特征值的单位正交特征向量$a_1,\cdots,a_p$
  3. 可以获得x的p个主成分,$y_k=a’_kx,Var(y_k)=\lambda_k$,其中$a_k$称为x的第k个主轴

性质1:主成分的变换

$$
主成分y=(y_1,\cdots,y_p)’是对x的正交变换。\
若\Gamma=(a_1,\cdots,a_p)=\begin{bmatrix}
a_{11}& \cdots&a_{p1}\
\vdots& & \vdots\
a_{p_1}&\cdots&a_{pp}
\end{bmatrix}\
则\Gamma\Gamma’=1,y=\Gamma’x
$$

性质2:相似对角化

$$
Var(y)=\Gamma’\Sigma\Gamma=diag(\lambda_1,\cdots,\lambda_p)
$$

性质3:矩阵的迹(对角元素之和)

$$
tr(\Sigma)=\sum_{i=1}^p\sigma_{ij}=\sum_{i=1}^p\lambda_i
$$

性质4:累计方差贡献率

$$
\frac{\lambda_1+\cdots+\lambda_k}{\lambda_1+\cdots+\lambda_p}
$$

2 主成分的进一步分析

定义:前k个主成分对原始分量的贡献率

$$
Cov(x_j,y_i)=\lambda_Ia_{ij}\
\rho(x_j,y_i)=\frac{Cov(x_i,y_i)}{\sqrt{Var(x_i)Var(y_i)}}=\sqrt{\frac{\lambda_i}{\sigma_{jj}}}a_{ij}
$$

$$
\sum_{i=1}^k\rho^2(x_j,y_i)=\sum_{i=1}^k\frac{\lambda_i}{\sigma_{jj}}a_{ij}^2
$$

定义:原始变量对主成分的影响

$$
y_i=a’ix
$$
$a
{ik}$反映了x对y的直接影响,称y_i在第k个原始变量x_k上的载荷

3 从相关矩阵触发求主成分

对原始数据进行标准化

$$
x_j^=\frac{x_j-\mu_j}{\sqrt{\sigma_{jj}}},j=1,\cdots,p\
x^
=(x_1^,\cdots,x_p^)\
x^的协方差矩阵R是x的相关矩阵\
y^
=(\Gamma^)’x^=\Gamma^y^
$$

性质1:主成分特征

$$
E(y^)=0,Var(y^)=\Lambda=diag(\lambda_1^,\cdots,\lambda_p^)
$$

性质2:矩阵的迹

$$
\sum_{i=1}^p=tr(\Lambda)=tr(R)=p
$$

性质3:累计方差贡献率

$$
y_i^的方差共享率\lambda^/p\
累计方差贡献率\frac{\lambda_1^+\cdots+\lambda_k^}{p}
$$

性质4:相关系数

$$
\rho(x_j^,y_i^)=\sqrt{\lambda_i^}a_{ij}^
$$

性质5:主成分对原始数据贡献率

$$
\rho^2_{j}=\sum_{i=1}^k\rho^2(x_j^,y_i^)=\sum_{i=1}^k(a_ij^)^2\lambda_i^
$$

4 样本的主成分分析(例题)