1500字范文 > 数学建模——主成分分析入门及SPSS使用

数学建模——主成分分析入门及SPSS使用

时间：2023-03-01 20:32:11

概述

 主成分分析是由Pearson于1901年提出，再由Hotelling于1933年推广的一种多变量统计方法。主成分分析的目的是用较少的变量解释原来资料中的大部分变异，将相关性很高的变量转化为彼此互不独立或者不相关的变量。选出比原始变量少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析是一种降维方法。

（图源百度）

 成分的保留：Kaiser主张将特征值小于1的成分放弃，只保留特征值大于1的成分。

 成功标准：能用不超过3~5个成分，解释变异的80%就算成功。

可以看到自变量x_2，x_3的方差为0，对于x_2而言，始终保持为0，没有变化程度，上述表达式完全可以用：y=ax_1+cx_3+d来替代，即x_2失去了变量存在的意义。而对于x_3而言，虽然其数值始终很大，但方差也为0，完全可以用一个常量¬d’’来替代。

这样的两个变量在对y进行表示的过程中其实并没发挥作用，只要使用y=ax_1+c即可表示上述式子。我们将x_2,x_3被淘汰的过程的原理认为是：方差淘汰变量。当然，方差为0这是一个极端的情况，在方差很小的情况下，即数据的整体变化很小，我们也可以认为这个变量没有存在的必要，将其淘汰。

设因变量和自变量存在函数关系：y=ax_1+bx_2+d，假如对应数据②如下：

引入变量z_1,z_2，我们进行这样的线性变换：z_1=x_1+x_2; z_2=x_1-x_2，得到下面的数据表：

我们上述的操作实际是对x_1和x_2进行了一组线性变换，对于变换后的结果z_2也可以被淘汰（原因不再重复，见上）。而假如我们的线性变换改变为：

那么上述的变换用矩阵表示则为：

则上述的线性变化本质上是进行了下面的图像变换：

原图：

变换后：

可以看到，变换之后的结果：z_2变化为0，主要的变化体现在横轴的z_1上。上述的两个例子说明了主成分分析的基本思想：将原先众多具有相关性的指标重新进行线性组合，以代替原先的指标。在图像上即体现为将图像进行一定的旋转变换。而为什么不进行上面的z_1=x_1+x_2; z_2=x_1-x_2？因为这种变换转换到x轴上后个点之间的距离发生了拉伸，具体的理由下面慢慢解释；

假设以x_1为横轴，以x_2为纵轴，有下面图像所示的图形：

可以发现数据点是以x_1方向分布的，在x_2的方向上数据变化并不明显，那么我们根据方差淘汰的思想即可将变量x_2淘汰，只保留x_1；

假如是下图所展示的情况：

椭圆中有一个长轴和一个短轴，称为主轴。在长轴方向，数据的变化明显较大，而短轴方向变化则较小

如果沿着长轴方向设定一个新的坐标系，则新产生的两个变量和原始变量间存在一定的数学换算关系，同时这两个新变量之间彼此不相关，而且长轴变量携带了大部分的数据变化信息，而短轴变量只携带了一小部分变化的信息(变异)

此时，只需要用长轴方向的变量就可以代表原来两个变量的信息，即将短轴方向上的数据抛弃。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大，降维也就越合理。

（3）在上述的分析中，我们反复提到“数据的变化”，那么如何衡量一组数据的变化大小？自然地，我们联想到了用方差来进行衡量。而主成分分析就是要通过不断的线性组合产生新的变量，使这组变量的方差达到最大。

数学原理分析

设有n个样本,p个指标，则可以构成大小为n×p的样本矩阵x:

假设我们想找一组新的变量：Y_1,Y_2,…,Y_m (m<p)来替代原来的p个指标，且他们满足：

系数u_ij的确定要满足

Y_i与Y_j相互线性无关（(i≠j),i=1,2,…,m,j=1,2,…,m）