1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 主成分分析法(数学建模)教授先生

主成分分析法(数学建模)教授先生

时间:2023-06-08 21:14:55

相关推荐

主成分分析法(数学建模)教授先生

通过学习数学建模老哥的视频

主成分分析法是 可以建立一条或多条关系式将变量个数尽可能减少,但仍然能(差不多,存在一些误差)表示出这样的关系式。

比如上述图中,分布在y1直线两侧的点可以近似看成 y1直线上一连串的点,这样就实现了降维,(降低维度用1个变量表示2个变量)

多维变成低维(多个变量变成较少的变量

F1=ax+by(a,b为未知常数)就是其中的一条关系式,F1就是其中的一个主成分,称为第一主成分(方差最大,尽可能包含所有数据关系)若%80以上数据关系能用他表示,则够了。如果少于%80,可以多写第二主成分F2=cx+dy(c,d为未知常数)。

如果不够,还可以有第3第4......第n主成分,累计方差贡献率大于%80即可,这个值越大越好。越大表示关系越强。

累计方差贡献率:是所有公因子引起的变异占总变异比例。

并且F1已有的信息就不再出现在F2中,主成分之间互不相关,方差依次递减,F1和 F2,F3.......Fn间没有关系,

看到这里你大概明白了什么是主成分分析法,就是用少的变量去表示多个变量间的关系式子。

下面例题和模型大概内容是具体分析如何去求将多个数据(变量)表示成较少变量的式子,并且分析他们间关系是否联系紧密

数学模型和例题

我们目的是由上图转化成下图上的公式,图一的ABCD...G的变量尽可能的转化为主成分 F1,F2到Fn,n<6(A到G的个数)

上图第一列表示人均GDP ,第二列表示财政收入...为降维前的6个变量,降维后变成F

第一行表示 北京,第二行表示天津,是样本。(x1,x2到xp)不发生变化

模型大致如上,a11......ap1为常系数,是需要我们求的(是协方差后续可以通过SPSS软件求解),x1到xp为样本(北京,天津..辽宁),F1到Fp为 第一主成分到第p主成分,并且要求p<=6(北京到辽宁有6个样本,这样才能实现降维的目的)

在使用主成分分析法前可以进行判断用KMO或者Bartlet’s方法判断是否能够用主成分分析,

KMO要求计算得到的数据>0.5,Bartlett's要求得到数据<0.05,两者满足其中之一都可推荐用主成分分析法。可以自己再查一下这两个方法。不深究。

每个主成分要求所有变量系数的平方和等于1(规则,这样子才能使方差可比较)

这里是采用了归一化的方法,也叫数据的标准化。

标准化方法:

我们先来了解什么是协方差

关联博客1:深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵_aaronwu2的博客-CSDN博客_主成分分析标准化

关联博客2:(75条消息) 深入理解协方差(图文详解)_暴躁的野生猿的博客-CSDN博客_协方差

大概意思是说有这样的计算公式,(随机变量x-x的均值)*(随机变量y-y的均值),统计多组数据后计算平均值,这样一个值,若值为正,则变化趋势相同,若值为负,变化趋势相反

关联博客3:(75条消息) 什么是协方差,怎么计算?为什么需要协方差?_Nani_xiao的博客-CSDN博客_协方差

var是方差,cov是协方差,他们区别在于分子的第二个括号内的数

协方差矩阵对角线上的元素为每一当前列元素的方差 cov(x,x)=var(x)表示方差

cov(y,x)表示第一列和第二列数据元素(第一维度和第二维度)的协方差矩阵

cov(x,y)表示第二列和第一列数据元素(第一维度和第二维度)的协方差矩阵

cov(y,x)=cov(x,y)从公式和定义上看他们值是相等的

关联博客4:数据降维:主成分分析法(PCA)_离陌lm的博客-CSDN博客_主成分分析降维

2.步骤详解

2.1 获取数据

假设现有一组数据,有m条数据,每条数据都有n个评价指标,构成了m*n的原始数据矩阵,即为X,每个变量对应的数据记为X1,X2,X3......Xn。

2.2 数据中心化 (标准化)

不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

在这里我们采用零均值法(z-score)对数据进行处理,得到均值为0,标准差为1的服从标准正态分布的数据。

其中,表示第j个指标的样本均值,

表示第j个指标的标准差,仍记中心化后数据矩阵为X。

2.3 求协方差矩阵

对中心化后数据求其协方差矩阵,记为R,则

或者另一种方法:

2.4计算协方差矩阵的特征值和特征向量

通过求协方差矩阵的特征方程:

解得其特征值有

对应的特征向量依次为:

2.5 确定主成分个数

设定一个贡献率阈值,即前p个主成分特征值的累计贡献率高于该值时即可认为这p个主成分可以表示原来n个变量,一般取0.8,0.85,0.9,0.95,0.99等。

2.6 计算主成分

在得到了主成分个数后,就可以利用前p个特征值对应的特征向量对主成分(降维后的数据)进行计算。

看了那么多资料不知道你们还没有

我总结一下就是 上图的贝塔(或者说x的系数a)的值是协方差矩阵的特征值向量,

我们可以用过科学计算软件SPSS来计算,这样的数据图,首先将他们输入到表格中,将他们标准化(归一化)

然后得到以下标准化的数据(右边)

降维度

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。