1500字范文 > 主成分回归之后预测_回归分析之主成分回归

主成分回归之后预测_回归分析之主成分回归

时间：2022-05-08 12:14:28

主成分回归就是把去除常数项的设计矩阵做了一个正交变换，也就是说新的自变量就是原来自变量的线性组合。是对普通最小二乘法估计的一种改进，其参数估计是有偏估计。

主成分分析是用降维的思想，在实际操作中，正交旋转变换往往会使得在损失的信息很少的情况下，自变量的个数大大减少，较少的自变量往往是我们需要的，因此它的作用也就不言而喻。

上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。

我们设原始的自变量有

个。这样的话每一个样本就会有

个参数，分别记为

，那么对应的样本就是

。按照多元回归的惯例，我们假设

。那么这样的话，进行正交变换之后就会使得样本

变成一个新的样本

。数学上写就是下面的意思。

这个时候，如果我们记

，就会有

。

显然，这个变换是有了，但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为

，那么实际上就有

，也就是说

。而我们说过，在典则形式中，我们的

取的实际上是

的特征向量的组合(想想为什么)，所以这样的话对应的

就是一个对角阵，对角阵上则是特征根。但是上一节我们知道，特征根一般我们不希望它太小。因此很重要的地方就是我们要让样本的方差尽量的大。因为对角阵上的元素实际上也就对应了每一个样本的方差。所以大的话就可以保证特征根比较大。

第二个倒是也比较明显：使得之间相互无关。这个原因也很简单，因为样本的每一个指标其实也就对应了回归的自变量，而回归的自变量之间存在关系也就是多重共线性的含义。因此为了去除多重共线性，自然需要这个要求。

所以我们自然是需要人工添加一些条件，让这些要求能够得到满足。对于第一个条件，要注意到的是我们的根本是做了一个正交线性变换，所以如果要让样本的方差尽量的大，在实际的情况下就是在主成分中，使得方差最大的几个主成分得以保留，而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度，因此如果依然将自变量全部保留，那么达不到减少自变量的目的。

结合第二个条件的要求，我们就可以得到下面这个约束条件使得

是所有

线性组合中方差最大者，

是所有

，性组合中与

不相关的方差最大者，

是所有

线性组合中与

不相关的方差最大者，以此类推。

另外再加上两个正交矩阵所对应的要求，就是(1)

(2)

作者：学弱猹

主成分的理论性质

我希望你没有忘记之前我们的内容，页没有忘记什么是主成分。我这里把主成分回归的表示放在这里。

并且有

。

那么主成分有什么比较好的性质呢？在介绍它之前，我们首先需要引入下面这个性质。

Proposition 1:

设

，并设

的特征根为

，

为对应的标准正交特征向量。那么对于任意的向量

都有

在这之前，我们首先需要介绍矩阵的谱分解。我们知道对于一个特征对

(一个特征根与其对应的特征向量)，有

。因此在这里我们就有

，这样的话，如果我们把

个等式拼在一起，就有

，然后记得

是正交矩阵，所以左右乘上

就可以得到

，写开就是

那么根据这个结果，如果你要计算它的Rayleigh商(也就是

，正好数值线性代数也在学这个2333)，那么左右显然要乘上对应的东西，所以有

。虽然

是任意向量，但是注意到这里

是一系列的正交向量。所以我们可以设

，那么代回去就会有

你看上去感觉挺麻烦的，但是你只看乘式的左边两个，你会发现只要

中的

不同，你的这一项就是0。所以实际上只会保留一个

，同理类似的右边也只会保留一个

。最后容易得到这个乘式的结果就是

类似的可以得到

，这样的话你计算的结果其实就是

，这已经很明显了，每一个

其实就是对应特征值

的权重，也就是说这个式子实际上可以写成

的形式，并且还有

的结论。所以这样的话，最大最小值也自然不难得到就是

。

这个命题也是高等代数里的一个很重要的结论。根据矩阵的谱分解，你也不难得到下面的结论

在做了正交变换后，设计矩阵等就会有很好的性质，我们往下看。

Proposition 2:

这是上面性质的直接推论。

Proposition 3:

这也很容易，注意到

，也就是说矩阵

是相似的。而相似变换是不改变特征根的。

当然了，也就是因为这个，所以相当于可以得到

，也就是说

其实可以用来衡量方差的比例(就是说，

越大，因为和是一定的，所以相当于它在和式中的比例越大，那么自然是说它占方差和的比例越大，我们理解为是它所具有的信息很多)。因此我们称

为第

个主成分

的方差贡献率，而称

为主成分

的累积贡献率。

Proposition 4:

与

的相关系数为

你应该没忘记相关系数的公式

。那么注意到

，所以上面的式子就是

。根据矩阵的谱分解，我们可以得到

代入即可。

为什么我们需要

？很简单，因为虽然这样回归可以降维，但是其原本的解释意义就消失了。但是，如果这个相关系数很大那说明什么？就说明

的意义很大程度上可以被

解释。因此它的绝对值大小就刻画了这个主成分的主要意义以及来源。

事实上，通过上面的解释，我们有理由相信它有和之前的方差贡献率相似的性质。那么我们观察一下。首先根据这个结论我们可以得到

，那么我们对它求和，就可以得到

接下来，注意到矩阵的谱分解

，所以实际上如果我们来观察一下它的第

元，就会有

。有没有发现这就和那个和式一模一样了？所以我们就可以得到下面这个结论。

Proposition 5:

因此，我们可以实际上使用

来衡量前

个主成分对原始变量

的方差贡献率。它就反映了提取的主成分反映原始变量的程度。

最后还有一个很有趣的结论

Proposition 6:

这就是Proposition 4的直接推论。

主成分回归的理论性质

之前我们主要关注的是主成分本身，而之后我们更多会关注回归，也就是回归所对应的一些统计性质。因为这里又会涉及到较多的标记，所以我们会简要重述一下主成分回归的背景。

我们知道原始回归模型为

，其中

是中心标准化之后的设计矩阵。那么显然相关阵就是

。并且我们会设

的特征根为

，对应正交化的标准特征向量为

。我们记

，令

，就会得到典则形式

。

你应该已经熟悉

，而

的对角阵又正好衡量了每一个主成分在多次实验中取值的变化大小(想想为什么？不熟悉的看看第A节的最后)。所以如果某一个特征值很小，就说明对应的主成分的变化很小，那就和常数项没区别了。所以若

，那么只需要把

从模型中剔除掉(也就是直接让估计值为0)，对前

个系数用最小二乘，最后，我们对矩阵分块

，

都是取对应的前

个分块，就可以得到最后的估计

简要重新说了一遍，我们开始介绍它的相关理论部分。

Proposition 7:

这里我们注意到上面的公式

因为

实际上是

取了前

列，因此容易得到

，所以代回去就会有

(别忘了特征值和对应特征向量是给

的)

虽然表达式挺复杂，但是我们关注一下中间的部分。注意到

，再把左右两个矩阵相乘可得

所以右边再乘一个

，就可以得到最后我们的结果。

接下来的性质一定程度上揭示了它与岭回归的相似性。

Proposition 8:

若

，那么

这很简单，根据上面的表达式可以得到

，而注意到范数的正交不变性(这个技巧我们上一节才用过)，我们有

这个不等式的成因是

显然会给

带来更多的分量，而这显然会使得长度增加。

通过这个性质可以知道，和岭估计类似，主成分估计也是一种压缩估计。同样的，因为这个，所以我们还可以知道下面的性质。

Proposition 9:

是有偏估计

最后的性质是有关于均方误差的，和岭回归类似。也奠定了它的应用价值。

Proposition 10:

当设计阵病态时，适当选择

可以使得

我们在上一节介绍过

的多元表示，这里我们应用一下，首先注意到新的估计的

中，最后的几个估计量是被人工设置为0的，所以我们有

。

我们注意上一节的公式

，所以在这里，我们容易得到

(估计值没有

这个分量，但是真值当然是有

的)

因为设计阵病态的时候，

很大，这就会导致第二项变成负的，因此这就足够说明结论了。当然了，这个结论一定程度上也说明了，如果设计阵性质很好，那么主成分回归不一定会有良好的效果。

实例分析(一)SPSS操作

y表示民航客运量(万人)，x1表示国民收入(亿元)，x2表示民用汽车拥有量(万辆)，x3表示铁路客运量(万人)，x4表示民航航线里程，x5表示来华旅游入境人数(万人)。根据《中国统计年鉴》获得1997-统计数据，如下表所示：

上文来源于：学弱猹：回归分析|笔记整理(A)——岭回归，主成分回归(上)主成分回归 - 搜索结果 - 知乎

输出结果8.1 中 Importance of components 部分第一行是5 个主成分的标准差，即主成分所对应的特征值的算术平方根 (k=1, 2, …, p)；第二行是各主成分方差所占的比例，反映了主成分所能解释数据变异的比例，也就是包含原数据的信息比例；第三行是累积比例。第一个主成分Comp.1的方差百分比为79.826%，含有原始5个变量近80%的信息量；前两个主成分累积百分比为98.468%，几乎包含了5个变量的全部信息，因此取两个主成分已经足够。

由以上输出结果可知，标准化后的y(记为 )对两个主成分做普通最小二乘估计，得到主成分的回归方程为：

由于主成分是标准化后自变量的线性组合，如果想要得到y* 关于标准化后的五个自变量的回归方程，只需分别将下面两个式子：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。