1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 主成分回归之后预测_回归分析之主成分回归

主成分回归之后预测_回归分析之主成分回归

时间:2022-05-08 12:14:28

相关推荐

主成分回归之后预测_回归分析之主成分回归

主成分回归就是把去除常数项的设计矩阵做了一个正交变换,也就是说新的自变量就是原来自变量的线性组合。是对普通最小二乘法估计的一种改进,其参数估计是有偏估计。

主成分分析是用降维的思想,在实际操作中,正交旋转变换往往会使得在损失的信息很少的情况下,自变量的个数大大减少,较少的自变量往往是我们需要的,因此它的作用也就不言而喻。

上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。

我们设原始的自变量有

个。这样的话每一个样本就会有

个参数,分别记为

,那么对应的样本就是

。按照多元回归的惯例,我们假设

。那么这样的话,进行正交变换之后就会使得样本

变成一个新的样本

。数学上写就是下面的意思。

这个时候,如果我们记

,就会有

显然,这个变换是有了,但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为

,那么实际上就有

,也就是说

。而我们说过,在典则形式中,我们的

取的实际上是

的特征向量的组合(想想为什么),所以这样的话对应的

就是一个对角阵,对角阵上则是特征根。但是上一节我们知道,特征根一般我们不希望它太小。因此很重要的地方就是我们要让样本的方差尽量的大。因为对角阵上的元素实际上也就对应了每一个样本的方差。所以大的话就可以保证特征根比较大。

第二个倒是也比较明显:使得 之间相互无关。这个原因也很简单,因为样本的每一个指标其实也就对应了回归的自变量,而回归的自变量之间存在关系也就是多重共线性的含义。因此为了去除多重共线性,自然需要这个要求。

所以我们自然是需要人工添加一些条件,让这些要求能够得到满足。对于第一个条件,要注意到的是我们的根本是做了一个正交线性变换,所以如果要让样本的方差尽量的大,在实际的情况下就是在主成分中,使得方差最大的几个主成分得以保留,而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度,因此如果依然将自变量全部保留,那么达不到减少自变量的目的。

结合第二个条件的要求,我们就可以得到下面这个约束条件使得

是所有

线性组合中方差最大者,

是所有

,性组合中与

不相关的方差最大者,

是所有

线性组合中与

不相关的方差最大者,以此类推。

另外再加上两个正交矩阵所对应的要求,就是(1)

(2)

作者:学弱猹

主成分的理论性质

我希望你没有忘记之前我们的内容,页没有忘记什么是主成分。我这里把主成分回归的表示放在这里。

并且有

那么主成分有什么比较好的性质呢?在介绍它之前,我们首先需要引入下面这个性质。

Proposition 1:

,并设

的特征根为

为对应的标准正交特征向量。那么对于任意的向量

都有

,

在这之前,我们首先需要介绍矩阵的谱分解。我们知道对于一个特征对

(一个特征根与其对应的特征向量),有

。因此在这里我们就有

,这样的话,如果我们把

个等式拼在一起,就有

,然后记得

是正交矩阵,所以左右乘上

就可以得到

,写开就是

=

那么根据这个结果,如果你要计算它的Rayleigh商(也就是

,正好数值线性代数也在学这个2333),那么左右显然要乘上对应的东西,所以有

。虽然

是任意向量,但是注意到这里

是一系列的正交向量。所以我们可以设

,那么代回去就会有

你看上去感觉挺麻烦的,但是你只看乘式的左边两个,你会发现只要

中的

不同,你的这一项就是0。所以实际上只会保留一个

,同理类似的右边也只会保留一个

。最后容易得到这个乘式的结果就是

类似的可以得到

,这样的话你计算的结果其实就是

,这已经很明显了,每一个

其实就是对应特征值

的权重,也就是说这个式子实际上可以写成

的形式,并且还有

的结论。所以这样的话,最大最小值也自然不难得到就是

这个命题也是高等代数里的一个很重要的结论。根据矩阵的谱分解,你也不难得到下面的结论

在做了正交变换后,设计矩阵等就会有很好的性质,我们往下看。

Proposition 2:

这是上面性质的直接推论。

Proposition 3:

这也很容易,注意到

,也就是说矩阵

是相似的。而相似变换是不改变特征根的。

当然了,也就是因为这个,所以相当于可以得到

,也就是说

其实可以用来衡量方差的比例(就是说,

越大,因为和是一定的,所以相当于它在和式中的比例越大,那么自然是说它占方差和的比例越大,我们理解为是它所具有的信息很多)。因此我们称

为第

个主成分

的方差贡献率,而称

为主成分

的累积贡献率。

Proposition 4:

的相关系数为

你应该没忘记相关系数的公式

。那么注意到

,所以上面的式子就是

。根据矩阵的谱分解,我们可以得到

代入即可。

为什么我们需要

?很简单,因为虽然这样回归可以降维,但是其原本的解释意义就消失了。但是,如果这个相关系数很大那说明什么?就说明

的意义很大程度上可以被

解释。因此它的绝对值大小就刻画了这个主成分的主要意义以及来源。

事实上,通过上面的解释,我们有理由相信它有和之前的方差贡献率相似的性质。那么我们观察一下。首先根据这个结论我们可以得到

,那么我们对它求和,就可以得到

接下来,注意到矩阵的谱分解

,所以实际上如果我们来观察一下它的第

元,就会有

。有没有发现这就和那个和式一模一样了?所以我们就可以得到下面这个结论。

Proposition 5:

因此,我们可以实际上使用

来衡量前

个主成分对原始变量

的方差贡献率。它就反映了提取的主成分反映原始变量的程度。

最后还有一个很有趣的结论

Proposition 6:

这就是Proposition 4的直接推论。

主成分回归的理论性质

之前我们主要关注的是主成分本身,而之后我们更多会关注回归,也就是回归所对应的一些统计性质。因为这里又会涉及到较多的标记,所以我们会简要重述一下主成分回归的背景。

我们知道原始回归模型为

,其中

是中心标准化之后的设计矩阵。那么显然相关阵就是

。并且我们会设

的特征根为

,对应正交化的标准特征向量为

。我们记

,令

,就会得到典则形式

你应该已经熟悉

,而

的对角阵又正好衡量了每一个主成分在多次实验中取值的变化大小(想想为什么?不熟悉的看看第A节的最后)。所以如果某一个特征值很小,就说明对应的主成分的变化很小,那就和常数项没区别了。所以若

,那么只需要把

从模型中剔除掉(也就是直接让估计值为0),对前

个系数用最小二乘,最后,我们对矩阵分块

都是取对应的前

个分块,就可以得到最后的估计

简要重新说了一遍,我们开始介绍它的相关理论部分。

Proposition 7:

这里我们注意到上面的公式

因为

实际上是

取了前

列,因此容易得到

,所以代回去就会有

(别忘了特征值和对应特征向量是给

的)

虽然表达式挺复杂,但是我们关注一下中间的部分。注意到

,再把左右两个矩阵相乘可得

所以右边再乘一个

,就可以得到最后我们的结果。

接下来的性质一定程度上揭示了它与岭回归的相似性。

Proposition 8:

,那么

这很简单,根据上面的表达式可以得到

,而注意到范数的正交不变性(这个技巧我们上一节才用过),我们有

这个不等式的成因是

显然会给

带来更多的分量,而这显然会使得长度增加。

通过这个性质可以知道,和岭估计类似,主成分估计也是一种压缩估计。同样的,因为这个,所以我们还可以知道下面的性质。

Proposition 9:

是有偏估计

最后的性质是有关于均方误差的,和岭回归类似。也奠定了它的应用价值。

Proposition 10:

当设计阵病态时,适当选择

可以使得

我们在上一节介绍过

的多元表示,这里我们应用一下,首先注意到新的估计的

中,最后的几个估计量是被人工设置为0的,所以我们有

我们注意上一节的公式

,所以在这里,我们容易得到

(估计值没有

这个分量,但是真值当然是有

的)

因为设计阵病态的时候,

很大,这就会导致第二项变成负的,因此这就足够说明结论了。当然了,这个结论一定程度上也说明了,如果设计阵性质很好,那么主成分回归不一定会有良好的效果。

实例分析(一)SPSS操作

y表示民航客运量(万人),x1表示国民收入(亿元),x2表示民用汽车拥有量(万辆),x3表示铁路客运量(万人),x4表示民航航线里程,x5表示来华旅游入境人数(万人)。根据《中国统计年鉴》获得1997-统计数据,如下表所示:

上文来源于:学弱猹:回归分析|笔记整理(A)——岭回归,主成分回归(上)​主成分回归 - 搜索结果 - 知乎​

输出结果8.1 中 Importance of components 部分第一行是5 个主成分的标准差,即主成分所对应的特征值的算术平方根 (k=1, 2, …, p);第二行是各主成分方差所占的比例,反映了主成分所能解释数据变异的比例,也就是包含原数据的信息比例;第三行是累积比例。第一个主成分Comp.1的方差百分比为79.826%,含有原始5个变量近80%的信息量;前两个主成分累积百分比为98.468%,几乎包含了5个变量的全部信息,因此取两个主成分已经足够。

由以上输出结果可知,标准化后的y(记为 )对两个主成分做普通最小二乘估计,得到主成分的回归方程为:

由于主成分是标准化后自变量的线性组合,如果想要得到y* 关于标准化后的五个自变量的回归方程,只需分别将下面两个式子:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。