1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > python实现数据清洗(重复值+缺失值+异常值处理)

python实现数据清洗(重复值+缺失值+异常值处理)

时间:2020-10-23 10:05:50

相关推荐

python实现数据清洗(重复值+缺失值+异常值处理)

实现功能:

python实现数据清洗,对重复记录、缺失值、异常值进行检测,并对其进行处理。

实现代码:

# 导入需要的库import numpy as npimport pandas as pddef Read_data(file):dt = pd.read_csv(file)dt.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol','fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved','exercise_induced_angina','st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']data =dtpd.set_option('display.max_rows', None)pd.set_option('display.max_columns', None)pd.set_option('display.width', None)pd.set_option('display.unicode.ambiguous_as_wide', True)pd.set_option('display.unicode.east_asian_width', True)print(data.head())return datadef data_clean(data):# 数据清洗# 重复值处理print('存在' if any(data.duplicated()) else '不存在', '重复观测值')data.drop_duplicates()# 缺失值处理print(data.isnull())print(data.isnull().sum()) #检测每列中缺失值的数量print(data.isnull().T.sum()) #检测每行缺失值的数量print('不存在' if any(data.isnull()) else '存在', '缺失值')data.dropna() # 直接删除记录data.fillna(method='ffill') # 前向填充data.fillna(method='bfill') # 后向填充data.fillna(value=2) # 值填充data.fillna(value={'resting_blood_pressure': data['resting_blood_pressure'].mean()}) # 统计值填充# 异常值处理data1 = data['resting_blood_pressure']# 标准差监测xmean = data1.mean()xstd = data1.std()print('存在' if any(data1 > xmean + 2 * xstd) else '不存在', '上限异常值')print('存在' if any(data1 < xmean - 2 * xstd) else '不存在', '下限异常值')# 箱线图监测q1 = data1.quantile(0.25)q3 = data1.quantile(0.75)up = q3 + 1.5 * (q3 - q1)dw = q1 - 1.5 * (q3 - q1)print('存在' if any(data1 > up) else '不存在', '上限异常值')print('存在' if any(data1 < dw) else '不存在', '下限异常值')data1[data1 > up] = data1[data1 < up].max()data1[data1 < dw] = data1[data1 > dw].min()# print(data1)if __name__=="__main__":data1=Read_data("F:\数据杂坛\\0504\heartdisease\Heart-Disease-Data-Set-main\\UCI Heart Disease Dataset.csv")data_clean(data1)

实现效果:

喜欢记得点赞,在看,收藏,

关注V订阅号:数据杂坛,获取完整代码和效果,将持续更新!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。