作者 |俊欣
来源 |关于数据分析与可视化
大家好,今天小编来为大家介绍几个Pandas
读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定的格式。
我们大致会说到的方法有:
read_sql()
to_sql()
read_clipboard()
from_dict()
to_dict()
to_clipboard()
read_json()
to_json()
read_html()
to_html()
read_table()
read_csv()
to_csv()
read_excel()
to_excel()
read_xml()
to_xml()
read_pickle()
to_pickle()
read_sql()
与to_sql()
我们一般读取数据都是从数据库中来读取的,因此可以在read_sql()
方法中填入对应的sql
语句然后来读取我们想要的数据,
pd.read_sql(sql,con,index_col=None,coerce_float=True,params=None,parse_dates=None,columns=None,chunksize=None)
参数详解如下:
sql: SQL命令字符串
con: 连接SQL数据库的Engine,一般用SQLAlchemy或者是PyMysql之类的模块来建立
index_col:选择某一列作为Index
coerce_float:将数字形式的字符串直接以float型读入
parse_dates: 将某一列日期型字符串传唤为datatime型数据,可以直接提供需要转换的列名以默认的日期形式转换,或者也可以提供字典形式的列名和转换日期的格式,
我们用PyMysql
这个模块来连接数据库,并且读取数据库当中的数据,首先我们导入所需要的模块,并且建立起与数据库的连接
importpandasaspdfrompymysqlimport*conn=connect(host='localhost',port=3306,database='database_name',user='',password='',charset='utf8')
我们简单地写一条SQL
命令来读取数据库当中的数据,并且用read_sql()方法来读取数据
sql_cmd="SELECT*FROMtable_name"df=pd.read_sql(sql_cmd,conn)df.head()
上面提到read_sql()
方法当中parse_dates
参数可以对日期格式的数据进行处理,那我们来试一下其作用
sql_cmd_2="SELECT*FROMtest_date"df_1=pd.read_sql(sql_cmd_2,conn)df_1.head()
output
numberdate_columns01-11-1112-10-0123-11-10
我们来看一个各个列的数据类型
df_1.info()
output
<class'pandas.core.frame.DataFrame'>RangeIndex:3entries,0to2Datacolumns(total2columns):#ColumnNon-NullCountDtype----------------------------0number3non-nullint641date_columns3non-nullobjectdtypes:int64(1),object(1)memoryusage:176.0+bytes
正常默认情况下,date_columns
这一列也是被当做是String
类型的数据,要是我们通过parse_dates
参数将日期解析应用与该列
df_2=pd.read_sql(sql_cmd_2,conn,parse_dates="date_columns")df_2.info()
output
<class'pandas.core.frame.DataFrame'>RangeIndex:3entries,0to2Datacolumns(total2columns):#ColumnNon-NullCountDtype----------------------------0number3non-nullint641date_columns3non-nulldatetime64[ns]dtypes:datetime64[ns](1),int64(1)memoryusage:176.0bytes
就转换成了相对应的日期格式,当然我们还可以采用上面提到的另外一种格式
parse_dates={"date_column":{"format":"%d/%m/%y"}})
to_sql()
方法
我们来看一下to_sql()
方法,作用是将DataFrame
当中的数据存放到数据库当中,请看下面的示例代码,我们创建一个基于内存的SQLite
数据库
fromsqlalchemyimportcreate_engineengine=create_engine('sqlite://',echo=False)
然后我们创建一个用于测试的数据集,并且存放到该数据库当中,
df=pd.DataFrame({'num':[1,3,5]})df.to_sql('nums',con=engine)
查看一下是否存取成功了
engine.execute("SELECT*FROMnums").fetchall()
output
[(0,1),(1,3),(2,5)]
我们可以尝试着往里面添加数据
df2=pd.DataFrame({'num':[7,9,11]})df2.to_sql('nums',con=engine,if_exists='append')engine.execute("SELECT*FROMnums").fetchall()
output
[(0,1),(1,3),(2,5),(0,7),(1,9),(2,11)]
注意到上面的if_exists
参数上面填的是append
,意味着添加新数据进去,当然我们也可以将原有的数据替换掉,将append
替换成replace
df2.to_sql('nums',con=engine,if_exists='replace')engine.execute("SELECT*FROMnums").fetchall()
output
[(0,7),(1,9),(2,11)]
from_dict()
方法和to_dict()
方法
有时候我们的数据是以字典的形式存储的,有对应的键值对,我们如何根据字典当中的数据来创立DataFrame
,假设
a_dict={'学校':'清华大学','地理位置':'北京','排名':1}
一种方法是调用json_normalize()
方法,代码如下
df=pd.json_normalize(a_dict)
output
学校地理位置排名0清华大学北京1
当然我们直接调用pd.DataFrame()
方法也是可以的
df=pd.DataFrame(json_list,index=[0])
output
学校地理位置排名0清华大学北京1
当然我们还可以用from_dict()
方法,代码如下
df=pd.DataFrame.from_dict(a_dict,orient='index').T
output
学校地理位置排名0清华大学北京1
这里最值得注意的是orient
参数,用来指定字典当中的键是用来做行索引还是列索引,请看下面两个例子
data={'col_1':[1,2,3,4],'col_2':['A','B','C','D']}
我们将orient
参数设置为columns
,将当中的键当做是列名
df=pd.DataFrame.from_dict(data,orient='columns')
output
col_1col_201A12B23C34D
当然我们也可以将其作为是行索引,将orient
设置为是index
df=pd.DataFrame.from_dict(data,orient='index')
output
0123col_11234col_2ABCD
to_dict()
方法
语法如下:
df.to_dict(orient='dict')
针对orient
参数,一般可以填这几种形式
一种是默认的dict
,代码如下
df=pd.DataFrame({'shape':['square','circle','triangle'],'degrees':[360,360,180],'sides':[4,5,3]})df.to_dict(orient='dict')
output
{'shape':{0:'square',1:'circle',2:'triangle'},'degrees':{0:360,1:360,2:180},'sides':{0:4,1:5,2:3}}
也可以是list
,代码如下
df.to_dict(orient='list')
output
{'shape':['square','circle','triangle'],'degrees':[360,360,180],'sides':[4,5,3]}
除此之外,还有split
,代码如下
df.to_dict(orient='split')
output
{'index':[0,1,2],'columns':['shape','degrees','sides'],'data':[['square',360,4],['circle',360,5],['triangle',180,3]]}
还有records
,代码如下
df.to_dict(orient='records')
output
[{'shape':'square','degrees':360,'sides':4},{'shape':'circle','degrees':360,'sides':5},{'shape':'triangle','degrees':180,'sides':3}]
最后一种是index
,代码如下
df.to_dict(orient='index')
output
{0:{'shape':'square','degrees':360,'sides':4},1:{'shape':'circle','degrees':360,'sides':5},2:{'shape':'triangle','degrees':180,'sides':3}}
read_json()
方法和to_json()
方法
我们经常也会在实际工作与学习当中遇到需要去处理JSON
格式数据的情况,我们用Pandas
模块当中的read_json()
方法来进行处理,我们来看一下该方法中常用到的参数
orient:对应JSON字符串的格式主要有
split
: 格式类似于:{index: [index], columns: [columns], data: [values]}
例如我们的JSON字符串长这样
a='{"index":[1,2,3],"columns":["a","b"],"data":[[1,3],[2,8],[3,9]]}'df=pd.read_json(a,orient='split')
output
ab113228339
records
: 格式类似于:[{column: value}, ... , {column: value}]
例如我们的JSON字符串长这样
a='[{"name":"Tom","age":"18"},{"name":"Amy","age":"20"},{"name":"John","age":"17"}]'df_1=pd.read_json(a,orient='records')
output
nameage0Tom181Amy202John17
index
: 格式类似于:{index: {column: value}}
例如我们的JSON字符串长这样
a='{"index_1":{"name":"John","age":20},"index_2":{"name":"Tom","age":30},"index_3":{"name":"Jason","age":50}}'df_1=pd.read_json(a,orient='index')
output
nameageindex_1John20index_2Tom30index_3Jason50
columns
: 格式类似于:{column: {index: value}}
我们要是将上面的index
变成columns
,就变成
df_1=pd.read_json(a,orient='columns')
output
index_1index_2index_3nameJohnTomJasonage203050
values
: 数组
例如我们的JSON字符串长这样
v='[["a",1],["b",2],["c",3]]'df_1=pd.read_json(v,orient="values")
output
010a11b22c3
to_json()
方法
将DataFrame
数据对象输出成JSON
字符串,可以使用to_json()
方法来实现,其中orient
参数可以输出不同格式的字符串,用法和上面的大致相同,这里就不做过多的赘述
read_html()
方法和to_html()
方法
有时候我们需要抓取网页上面的一个表格信息,相比较使用Xpath
或者是Beautifulsoup
,我们可以使用pandas
当中已经封装好的函数read_html
来快速地进行获取,例如我们通过它来抓取菜鸟教程Python网站上面的一部分内容
url="/python/python-exceptions.html"dfs=pd.read_html(url,header=None,encoding='utf-8')
返回的是一个list
的DataFrame
对象
df=dfs[0]df.head()
output
异常名称描述0NaNNaN1BaseException所有异常的基类2SystemExit解释器请求退出3KeyboardInterrupt用户中断执行(通常是输入^C)4Exception常规错误的基类
当然read_html()
方法也支持读取HTML
形式的表格,我们先来生成一个类似这样的表格,通过to_html()
方法
df=pd.DataFrame(np.random.randn(3,3))df.to_html("test_1.html")
当然这个HTML
形式的表格长这个样子
然后我们再通过read_html
方法读取该文件,
dfs=pd.read_html("test_1.html")dfs[0]
read_csv()
方法和to_csv()
方法
read_csv()
方法
read_csv()
方法是最常被用到的pandas
读取数据的方法之一,其中我们经常用到的参数有
filepath_or_buffer: 数据输入的路径,可以是文件的路径的形式,例如
pd.read_csv('data.csv')
output
num1num2num3num401234161279211131518312101618
也可以是URL,如果访问该URL会返回一个文件的话
pd.read_csv("http://...../..../data.csv")
sep: 读取csv
文件时指定的分隔符,默认为逗号,需要注意的是:“csv文件的分隔符”要和“我们读取csv文件时指定的分隔符”保持一致
假设我们的数据集,csv
文件当中的分隔符从逗号改成了"\t",需要将sep
参数也做相应的设定
pd.read_csv('data.csv',sep='\t')
index_col: 我们在读取文件之后,可以指定某一列作为DataFrame
的索引
pd.read_csv('data.csv',index_col="num1")
output
num2num3num4num11234612791113151812101618
除了指定单个列,我们还可以指定多个列,例如
df=pd.read_csv("data.csv",index_col=["num1","num2"])
output
num3num4num1num21234612791113151812101618
usecols:如果数据集当中的列很多,而我们并不想要全部的列、而是只要指定的列就可以,就可以使用这个参数
pd.read_csv('data.csv',usecols=["列名1","列名2",....])
output
num1num16122111331210
除了指定列名之外,也可以通过索引来选择想要的列,示例代码如下
df=pd.read_csv("data.csv",usecols=[0,1,2])
output
num1num2num301231612721113153121016
另外usecols参数还有一个比较好玩的地方在于它能够接收一个函数,将列名作为参数传递到该函数中调用,要是满足条件的,就选中该列,反之则不选择该列
#选择列名的长度大于4的列pd.read_csv('girl.csv',usecols=lambdax:len(x)>4)
prefix: 当导入的数据没有header的时候,可以用来给列名添加前缀
df=pd.read_csv("data.csv",header=None)
output
01230num1num2num3num411234261279311131518412101618
如果我们将header
设为None,pandas
则会自动生成表头0, 1, 2, 3..., 然后我们设置prefix
参数为表头添加前缀
df=pd.read_csv("data.csv",prefix="test_",header=None)
output
test_0test_1test_2test_30num1num2num3num411234261279311131518412101618
skiprows: 过滤掉哪些行,参数当中填行的索引
代码如下:
df=pd.read_csv("data.csv",skiprows=[0,1])
output
61279011131518112101618
上面的代码过滤掉了前两行的数据,直接将第三行与第四行的数据输出,当然我们也可以看到第二行的数据被当成是了表头
nrows: 该参数设置一次性读入的文件行数,对于读取大文件时非常有用,比如 16G 内存的PC无法容纳几百G的大文件
代码如下:
df=pd.read_csv("data.csv",nrows=2)
output
num1num2num3num401234161279
to_csv()
方法
该方法主要是用于将DataFrame
写入csv
文件当中,示例代码如下
df.to_csv("文件名.csv",index=False)
我们还能够输出到zip
文件的格式,代码如下
df=pd.read_csv("data.csv")compression_opts=dict(method='zip',archive_name='output.csv')df.to_csv('output.zip',index=False,compression=compression_opts)
read_excel()
方法和to_excel()
方法
read_excel()
方法
要是我们的数据是存放在excel
当中就可以使用read_excel()
方法,该方法中的参数和上面提到的read_csv()
方法相差不多,这里就不做过多的赘述,我们直接来看代码
df=pd.read_excel("test.xlsx")
dtype: 该参数能够对指定某一列的数据类型加以设定
df=pd.read_excel("test.xlsx",dtype={'Name':str,'Value':float})
output
NameValue0name11.01name22.02name33.03name44.0
sheet_name: 对于读取excel
当中的哪一个sheet
当中的数据加以设定
df=pd.read_excel("test.xlsx",sheet_name="Sheet3")
output
NameValue0name1101name2102name3203name430
当然我们要是想一次性读取多个Sheet
当中的数据也是可以的,最后返回的数据是以dict
形式返回的
df=pd.read_excel("test.xlsx",sheet_name=["Sheet1","Sheet3"])
output
{'Sheet1':NameValue0name111name222name333name44,'Sheet3':NameValue0name1101name2102name3203name430}
例如我们只想要Sheet1
的数据,可以这么来做
df1.get("Sheet1")
output
NameValue0name111name222name333name44
to_excel()
方法
将DataFrame
对象写入Excel
表格,除此之外还有ExcelWriter()
方法也有着异曲同工的作用,代码如下
df1=pd.DataFrame([['A','B'],['C','D']],index=['Row1','Row2'],columns=['Col1','Col2'])df1.to_excel("output.xlsx")
当然我们还可以指定Sheet
的名称
df1.to_excel("output.xlsx",sheet_name='Sheet_Name_1_1_1')
有时候我们需要将多个DataFrame
数据集输出到一个Excel
当中的不同的Sheet
当中
df2=df1.copy()withpd.ExcelWriter('output.xlsx')aswriter:df1.to_excel(writer,sheet_name='Sheet_name_1_1_1')df2.to_excel(writer,sheet_name='Sheet_name_2_2_2')
我们还可以在现有的Sheet
的基础之上,再添加一个Sheet
df3=df1.copy()withpd.ExcelWriter('output.xlsx',mode="a",engine="openpyxl")aswriter:df3.to_excel(writer,sheet_name='Sheet_name_3_3_3')
我们可以生成至Excel
文件并且进行压缩包处理
withzipfile.ZipFile("output_excel.zip","w")aszf:withzf.open("output_excel.xlsx","w")asbuffer:withpd.ExcelWriter(buffer)aswriter:df1.to_excel(writer)
对于日期格式或者是日期时间格式的数据,也能够进行相应的处理
fromdatetimeimportdate,datetimedf=pd.DataFrame([[date(,1,10),date(,11,24)],[datetime(,1,10,23,33,4),datetime(,10,20,13,5,13)],],index=["Date","Datetime"],columns=["X","Y"],)withpd.ExcelWriter("output_excel_date.xlsx",date_format="YYYY-MM-DD",datetime_format="YYYY-MM-DDHH:MM:SS")aswriter:df.to_excel(writer)
read_table()
方法
对于txt
文件,既可以用read_csv()
方法来读取,也可以用read_table()
方法来读取,其中的参数和read_csv()当中的参数大致相同,这里也就不做过多的赘述
df=pd.read_table("test.txt",names=["col1","col2"],sep='')
output
col1col134256378491051112
我们要读取的txt文件当中的数据是以空格隔开的,因此再sep
参数上面需要设置成空格
read_pickle()方法和to_pickle()方法
Python
当中的Pickle
模块实现了对一个Python
对象结构的二进制序列和反序列化,序列化过程是将文本信息转变为二进制数据流,同时保存数据类型。例如数据处理过程中,突然有事儿要离开,可以直接将数据序列化到本地,这时候处理中的数据是什么类型,保存到本地也是同样的类型,反序列化之后同样也是该数据类型,而不是从头开始处理
to_pickle()
方法
我们先将DataFrame
数据集生成pickle
文件,对数据进行永久储存,代码如下
df1.to_pickle("test.pkl")
read_pickle()
方法
代码如下
df2=pd.read_pickle("test.pkl")
read_xml()
方法和to_xml()
方法
XML指的是可扩展标记语言,和JSON类似也是用来存储和传输数据的,还可以用作配置文件
XML和HTML之间的差异
XML和HTML为不同的目的而设计的
XML被设计用来传输和存储数据,其重点是数据的内容
HTML被设计用来显示数据,其焦点是数据的外观
XML不会替代HTML,是对HTML的补充
对XML最好的理解是独立于软件和硬件的信息传输工具,我们先通过to_xml()
方法生成XML数据
df=pd.DataFrame({'shape':['square','circle','triangle'],'degrees':[360,360,180],'sides':[4,np.nan,3]})df.to_xml("test.xml")
我们用pandas
中的read_xml()
方法来读取数据
df=pd.read_xml("test.xml")
output
shapedegreessides0square3604.01circle360NaN2triangle1803.0
read_clipboard()
方法
有时候数据获取不太方便,我们可以通过复制的方式,通过Pandas
当中的read_clipboard()
方法来读取复制成功的数据,例如我们选中一部分数据,然后复制,运行下面的代码
df_1=pd.read_clipboard()
output
num1num2num3num401234161279211131518312101618
to_clipboard()
方法
有复制就会有粘贴,我们可以将DataFrame
数据集输出至剪贴板中,粘贴到例如Excel
表格中
df.to_clipboard()
往
期
回
顾
技术
6种常用的绘制地图的方法,码住!
资讯
DeepMind 打造AI游戏系统
资讯
全球首个活体机器人,能生娃
资讯
机器人Ameca苏醒瞬间逼真到令人...
分享
点收藏
点点赞
点在看