主成分回归就是把去除常数项的设计矩阵做了一个正交变换,也就是说新的自变量就是原来自变量的线性组合。是对普通最小二乘法估计的一种改进,其参数估计是有偏估计。
主成分分析是用降维的思想,在实际操作中,正交旋转变换往往会使得在损失的信息很少的情况下,自变量的个数大大减少,较少的自变量往往是我们需要的,因此它的作用也就不言而喻。
上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。
我们设原始的自变量有
个。这样的话每一个样本就会有
个参数,分别记为
,那么对应的样本就是
。按照多元回归的惯例,我们假设
。那么这样的话,进行正交变换之后就会使得样本
变成一个新的样本
。数学上写就是下面的意思。
这个时候,如果我们记
,就会有
。
显然,这个变换是有了,但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为
,那么实际上就有
,也就是说
。而我们说过,在典则形式中,我们的
取的实际上是
的特征向量的组合(想想为什么),所以这样的话对应的
就是一个对角阵,对角阵上则是特征根。但是上一节我们知道,特征根一般我们不希望它太小。因此很重要的地方就是我们要让样本的方差尽量的大。因为对角阵上的元素实际上也就对应了每一个样本的方差。所以大的话就可以保证特征根比较大。
第二个倒是也比较明显:使得 之间相互无关。这个原因也很简单,因为样本的每一个指标其实也就对应了回归的自变量,而回归的自变量之间存在关系也就是多重共线性的含义。因此为了去除多重共线性,自然需要这个要求。
所以我们自然是需要人工添加一些条件,让这些要求能够得到满足。对于第一个条件,要注意到的是我们的根本是做了一个正交线性变换,所以如果要让样本的方差尽量的大,在实际的情况下就是在主成分中,使得方差最大的几个主成分得以保留,而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度,因此如果依然将自变量全部保留,那么达不到减少自变量的目的。
结合第二个条件的要求,我们就可以得到下面这个约束条件使得
是所有
线性组合中方差最大者,
是所有
,性组合中与
不相关的方差最大者,
是所有
线性组合中与
不相关的方差最大者,以此类推。
另外再加上两个正交矩阵所对应的要求,就是(1)
(2)
作者:学弱猹
主成分的理论性质
我希望你没有忘记之前我们的内容,页没有忘记什么是主成分。我这里把主成分回归的表示放在这里。
并且有
。
那么主成分有什么比较好的性质呢?在介绍它之前,我们首先需要引入下面这个性质。
Proposition 1:
设
,并设
的特征根为
,
为对应的标准正交特征向量。那么对于任意的向量
都有
,
在这之前,我们首先需要介绍矩阵的谱分解。我们知道对于一个特征对
(一个特征根与其对应的特征向量),有
。因此在这里我们就有
,这样的话,如果我们把
个等式拼在一起,就有
,然后记得
是正交矩阵,所以左右乘上
就可以得到
,写开就是
=
那么根据这个结果,如果你要计算它的Rayleigh商(也就是
,正好数值线性代数也在学这个2333),那么左右显然要乘上对应的东西,所以有
。虽然
是任意向量,但是注意到这里
是一系列的正交向量。所以我们可以设
,那么代回去就会有
你看上去感觉挺麻烦的,但是你只看乘式的左边两个,你会发现只要
中的
不同,你的这一项就是0。所以实际上只会保留一个
,同理类似的右边也只会保留一个
。最后容易得到这个乘式的结果就是
类似的可以得到
,这样的话你计算的结果其实就是
,这已经很明显了,每一个
其实就是对应特征值
的权重,也就是说这个式子实际上可以写成
的形式,并且还有
的结论。所以这样的话,最大最小值也自然不难得到就是
。
这个命题也是高等代数里的一个很重要的结论。根据矩阵的谱分解,你也不难得到下面的结论
在做了正交变换后,设计矩阵等就会有很好的性质,我们往下看。
Proposition 2:
这是上面性质的直接推论。
Proposition 3:
这也很容易,注意到
,也就是说矩阵
是相似的。而相似变换是不改变特征根的。
当然了,也就是因为这个,所以相当于可以得到
,也就是说
其实可以用来衡量方差的比例(就是说,
越大,因为和是一定的,所以相当于它在和式中的比例越大,那么自然是说它占方差和的比例越大,我们理解为是它所具有的信息很多)。因此我们称
为第
个主成分
的方差贡献率,而称
为主成分
的累积贡献率。
Proposition 4:
与
的相关系数为
你应该没忘记相关系数的公式
。那么注意到
,所以上面的式子就是
。根据矩阵的谱分解,我们可以得到
代入即可。
为什么我们需要
?很简单,因为虽然这样回归可以降维,但是其原本的解释意义就消失了。但是,如果这个相关系数很大那说明什么?就说明
的意义很大程度上可以被
解释。因此它的绝对值大小就刻画了这个主成分的主要意义以及来源。
事实上,通过上面的解释,我们有理由相信它有和之前的方差贡献率相似的性质。那么我们观察一下。首先根据这个结论我们可以得到
,那么我们对它求和,就可以得到
接下来,注意到矩阵的谱分解
,所以实际上如果我们来观察一下它的第
元,就会有
。有没有发现这就和那个和式一模一样了?所以我们就可以得到下面这个结论。
Proposition 5:
因此,我们可以实际上使用
来衡量前
个主成分对原始变量
的方差贡献率。它就反映了提取的主成分反映原始变量的程度。
最后还有一个很有趣的结论
Proposition 6:
这就是Proposition 4的直接推论。
主成分回归的理论性质
之前我们主要关注的是主成分本身,而之后我们更多会关注回归,也就是回归所对应的一些统计性质。因为这里又会涉及到较多的标记,所以我们会简要重述一下主成分回归的背景。
我们知道原始回归模型为
,其中
是中心标准化之后的设计矩阵。那么显然相关阵就是
。并且我们会设
的特征根为
,对应正交化的标准特征向量为
。我们记
,令
,就会得到典则形式
。
你应该已经熟悉
,而
的对角阵又正好衡量了每一个主成分在多次实验中取值的变化大小(想想为什么?不熟悉的看看第A节的最后)。所以如果某一个特征值很小,就说明对应的主成分的变化很小,那就和常数项没区别了。所以若
,那么只需要把
从模型中剔除掉(也就是直接让估计值为0),对前
个系数用最小二乘,最后,我们对矩阵分块
,
都是取对应的前
个分块,就可以得到最后的估计
简要重新说了一遍,我们开始介绍它的相关理论部分。
Proposition 7:
这里我们注意到上面的公式
因为
实际上是
取了前
列,因此容易得到
,所以代回去就会有
(别忘了特征值和对应特征向量是给
的)
虽然表达式挺复杂,但是我们关注一下中间的部分。注意到
,再把左右两个矩阵相乘可得
所以右边再乘一个
,就可以得到最后我们的结果。
接下来的性质一定程度上揭示了它与岭回归的相似性。
Proposition 8:
若
,那么
这很简单,根据上面的表达式可以得到
,而注意到范数的正交不变性(这个技巧我们上一节才用过),我们有
这个不等式的成因是
显然会给
带来更多的分量,而这显然会使得长度增加。
通过这个性质可以知道,和岭估计类似,主成分估计也是一种压缩估计。同样的,因为这个,所以我们还可以知道下面的性质。
Proposition 9:
是有偏估计
最后的性质是有关于均方误差的,和岭回归类似。也奠定了它的应用价值。
Proposition 10:
当设计阵病态时,适当选择
可以使得
我们在上一节介绍过
的多元表示,这里我们应用一下,首先注意到新的估计的
中,最后的几个估计量是被人工设置为0的,所以我们有
。
我们注意上一节的公式
,所以在这里,我们容易得到
(估计值没有
这个分量,但是真值当然是有
的)
因为设计阵病态的时候,
很大,这就会导致第二项变成负的,因此这就足够说明结论了。当然了,这个结论一定程度上也说明了,如果设计阵性质很好,那么主成分回归不一定会有良好的效果。
实例分析(一)SPSS操作
y表示民航客运量(万人),x1表示国民收入(亿元),x2表示民用汽车拥有量(万辆),x3表示铁路客运量(万人),x4表示民航航线里程,x5表示来华旅游入境人数(万人)。根据《中国统计年鉴》获得1997-统计数据,如下表所示:
上文来源于:学弱猹:回归分析|笔记整理(A)——岭回归,主成分回归(上)主成分回归 - 搜索结果 - 知乎
输出结果8.1 中 Importance of components 部分第一行是5 个主成分的标准差,即主成分所对应的特征值的算术平方根 (k=1, 2, …, p);第二行是各主成分方差所占的比例,反映了主成分所能解释数据变异的比例,也就是包含原数据的信息比例;第三行是累积比例。第一个主成分Comp.1的方差百分比为79.826%,含有原始5个变量近80%的信息量;前两个主成分累积百分比为98.468%,几乎包含了5个变量的全部信息,因此取两个主成分已经足够。
由以上输出结果可知,标准化后的y(记为 )对两个主成分做普通最小二乘估计,得到主成分的回归方程为:
由于主成分是标准化后自变量的线性组合,如果想要得到y* 关于标准化后的五个自变量的回归方程,只需分别将下面两个式子: