主成分分析(Principal Component Analysis, PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
在实际生活中,为了全面的分析问题,往往提出很多相关的变量因素,因为每个变量都在不同程度上反映了这个课题的某些信息。
指标/变量:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称作指标,在多元统计分析中也称为变量。
主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量大小成为第一主成分,第二主成分等;
主成分与原始变量之间的关系:
1. 主成分保留了原始变量的绝大多数信息;
2. 主成分的个数大大少于原始变量的数目(变量太多会增加计算量和分析问题的复杂性);
3. 各主成分之间互不相关;
4. 每个主成分都是原始变量的线性组合;
简单来说,主成分分析类似于降维,就是使用一定的方法把原来的 m 个变量线性拟合为 n 个新的综合指标(m<=n);
PCA核心思想:1. 降维(合并重复信息,但不损失重要信息);
2. 得到新的综合指标;
即对于一个群体,找到使这个群体之间的个体区分度最大的维度;(就是旋转坐标轴了~)
对于新的综合指标:1. 是原指标的线性组合;
2. 新指标之间的信息不重合 → 互不相关,即协方差=0;
3. 按“重要性”排序 → “重要性/信息量”通过方差衡量;
1. 线