1500字范文 > python主成分分析实验报告_python进行主成分分析

python主成分分析实验报告_python进行主成分分析

时间：2022-05-09 08:00:29

数据：

序号

1.5

120

250

4.5

120

3.5

1.5

270

280

3.5

170

180

3.5

130

220

1.5

160

1.5

220

2.5

140

220

120

数据标准化：

-1.102513

-0.308130

-1.347755

-0.708447

-1.440017

-0.782175

-1.347755

-0.251384

-0.202502

0.639961

-0.269551

0.662740

1.260015

2.062098

0.404327

-1.622571

-0.202502

1.114007

-0.808653

0.662740

-1.440017

-0.782175

-0.404327

0.662740

-1.102513

-1.256220

0.539102

0.205678

1.485017

1.588052

-0.269551

1.119803

1.597518

1.114007

-0.539102

1.119803

0.360004

0.639961

-0.808653

1.119803

0.472505

1.114007

-0.134776

0.205678

-0.090001

-0.308130

2.021633

0.662740

0.922511

-0.782175

0.269551

-0.708447

0.247503

-0.782175

2.695510

1.119803

0.922511

0.165916

-0.134776

-0.251384

0.022500

-0.308130

0.673878

-0.708447

0.922511

-0.308130

-0.134776

-1.165509

-1.102513

-1.256220

-0.673878

-1.622571

-1.327515

-1.256220

-0.404327

1.119803

-0.202502

-0.308130

0.673878

-1.622571

数据标准化：也可以用sklearn包

from sklearn import preprocessing

#Z-Score标准化

#建立StandardScaler对象

zscore = preprocessing.StandardScaler()

# 标准化处理

data_zs = zscore.fit_transform(data)

注意：sklearn这种处理求标准差时分母为n，而我们下面的std计算时分母为n-1，Spss里的计算分母也为n-1。

sklearn降维：

pca=dp.PCA(n_components=2) #加载pca算法，设置降维后主成分数目为2

reduced_x=pca.fit_transform(x) #对原始数据进行降维，保存在reduced_x中

数据标准化代码：

import pandas as pd

import numpy as np

csv_data = pd.read_csv('C:/Users/admin/Desktop/.10.05/算法/主成分分析/data.csv') # 读取训练数据

csv_data=csv_data.drop('序号', axis=1) #去掉序号那一列

describe=csv_data.describe() # 对每一列数据进行统计，包括计数，均值，std，各个分位数等。

mean=describe.loc['mean']

std=describe.loc['std']

m=csv_data.index.size #行数

n=csv_data.columns.size #列数

column=csv_data.columns.values #['x1' 'x2' 'x3' 'x4']

#实现对数据框里的每个元素进行相关操作

for i in range(0,m):

for j in range(0,n):

csv_data.iloc[i,j]=(csv_data.iloc[i,j]-mean[j])/std[j] #第i行，第j列

print("标准化后的数据：\n",csv_data)

主成分分析：

import pandas as pd

import math

import numpy as np

from scipy import linalg

csv_data = pd.read_csv('C:/Users/admin/Desktop/.10.05/算法/主成分分析/data.csv') # 读取训练数据

csv_data=csv_data.drop('序号', axis=1) #去掉序号那一列

corr = csv_data.corr() #求变量之间的相关系数，判断是否可以进行主成分分析

print("原始数据:\n",csv_data)

print("\n相关系数矩阵：\n",corr)

describe=csv_data.describe() # 对每一列数据进行统计，包括计数，均值，std，各个分位数等。

mean=describe.loc['mean']

std=describe.loc['std']

a=list(csv_data['x1'])

x11=[]

for i in range(0,20):

x11.append((a[i]-mean['x1'])/std['x1'])

b=list(csv_data['x2'])

x22=[]

for i in range(0,20):

x22.append((b[i]-mean['x2'])/std['x2'])

c=list(csv_data['x3'])

x33=[]

for i in range(0,20):

x33.append((c[i]-mean['x3'])/std['x3'])

d=list(csv_data['x4'])

x44=[]

for i in range(0,20):

x44.append((d[i]-mean['x4'])/std['x4'])

arr=np.array([x11,x22,x33,x44]) #中心化后的数据

print("\n标准化后的数据：\n",arr.T)

M=corr.values #将相关系数转为矩阵

eig,vec=np.linalg.eig(M) #计算矩阵的特征值、特征向量。eig是list类型，vec是类型

per=[] #贡献率的计算

for i in range(0,4):

per.append(eig[i]/sum(eig))

print("\n相关系数矩阵的特征值：\n",eig)

# vec1=vec[[:]][:,[1,3,2,0]]

per=sorted(per,reverse=True) #贡献率排序(从大到小)

print("\n贡献率排序：\n",per)

print("\n累计贡献率：\n",np.array(per).cumsum()) #贡献率的累计计算

#定义单位正交化的函数

def gram_schmidt(A):

"""Gram-schmidt正交化"""

global Q #必须申明为全局变量，否则无法调用Q

Q=np.zeros_like(A)

cnt = 0

for a in A.T:

u = np.copy(a)

for i in range(0, cnt):

u -= np.dot(np.dot(Q[:, i].T, a), Q[:, i]) # 减去待求向量在已求向量上的投影