1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 学习笔记-主成分分析法

学习笔记-主成分分析法

时间:2020-08-23 06:26:27

相关推荐

学习笔记-主成分分析法

定义

主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。

数据降维的作用

降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

降维具有如下一些优点:

1.使得数据集更易使用;

2.降低算法的计算开销;

3.去除噪声;

4.使得结果容易理解。

基本流程

补充总结

PCA的数学思想:

根据p个特征的线性组合,得到一个新的特征z,使得该特征的方差最大,该特征即为主成分。

再次寻找p个特征的线性组合,得到新的特征,该特征与之前得到的主成分线性无关,且方差最大。

其余要点:

如果每个主成分的贡献率都相差不多,则不建议使用PCA。因为它一定程度上舍弃了部分信息,来提高整体的计算效率。

对于降维形成的主成分,我们经常无法找到其在实际情况中所对应的特征,即主成分的解释其含义一般带有模糊性,不像原始变量的含义那么清楚确切,这也是PCA的缺陷所在。

PCA不可用于评价类模型。可用于聚类、回归,如回归分析解决多重共线性。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。