padas如何导入数据(padas怎么把数据导入excel)
导语:Pandas入门-数据导入
锋哥一直推荐大家学习并使用python来处理日常工作,很多同学会问,同样excel和vba就能做自动化,有没有必要做得这么高大上?因为python中有非常多的资源库,可以上九天揽月,也可以下五洋捉鳖。这里就不讨论python的好处,有兴趣的朋友,我们一起来学习。
Pandas是python上面最受欢迎的结构化数据分析库了,表哥表姐能够把pandas中的一些常用功能熟悉起来,完全能够应付日常工作。我们今天开始来谈谈pandas的数据导入。
一、导入数据类型
平日能够接触到的外部数据主要是:xlsx,csv。而大家最为常用的是excel中的xlsx。在超过上万条数据时,pandas的读取xlsx的速度可能变慢,所以建议大家事先将xls或xlsx另存为“以逗号分隔的CSV”文件,这样,哪怕有几十万条数据,pandas也能给你一个满意的速度。
二、导入数据
(一)xlsx格式
df=pd.read_excel(r&34;,sheet_name=&34;)
xlsx导入语句
在read_excel()中,除了路径,sheet_name,之外还有其他参数可以使用。
1.指定行索引&34;,即指定哪一列作为索引,未指定时,行索引为0开始,即第一列作为索引,index_col=0
2.指定列索引&34;,说白了就是列表题,默认值为0,即header=0
3.指定导入列&34;,xlsx可能有上百列几十万行,在使用数据时,没有必要把不需要的列导入进来拖延运算速度,usecols可以采用列序号或者列标题来指定,格式为usecols=[0,1]这里是表明只导入第一列和第二列的数据,或者采用传入列表题的方式如usecols=[&34;,&34;]
例:
df=pd.read_excel(r&34;,sheet_name=&34;,usecols=[&34;,&34;])
(二)CSV格式
导入csv和excel文件的方法如出一辙,使用read_csv导入,如果我们是通过excel把数据另存为csv的,分隔符号默认是&34;逗号,这里要谈到sep参数,如果分割符号是逗号,那么参数sep=&34;,如果分割符号是空格或者制表符,sep=&34;或者sep=&34;,csv文件不像Excel表格那样存在多个sheet,所以在导入csv文件的时候,没有&34;这个参数。
例如:
CSV导入语句
在python中,使用得最多的两种编码格式是UTF-8和gbk,我们在导入时,如果不指定参数encoding,那么默认是采用UTF-8。在excel另存为csv文件时,如果选择保存的文件格式为&34;,那么文本编码为gbk,如果保存的文件格式为&34;,那么文本编码为UTF-8。若文本编码为gbk,那么在read_csv中,需要加入参数encoding=&34;
本文内容由小曲整理编辑!