金母鸡科技(方言金母鸡什么意思)
导语:金母鸡量化教学场:pandas—数据挖掘的Python库
如果你想充分发挥Python的强大作用,如果你想成为一名好的Python量化师,你应该先学好Pandas。今天就来了解什么是Pandas。
与numpy 易于处理同种类型数据不同,pandas更加的适合处理不同类型的数据,类似于excel表格,每行每列都有相应的名称。特点是拥有便捷的数据处理能力、独特的数据结构、读取文件方便、封装了matplotlib的画图和numpy的计算
pandas主要的数据结构为series和dataframe。
一、Series
Series类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
Series 定义为一维的数组型python对象,不仅具有值序列而且还包含相应的数据标签index。默认的索引下标为从0到n-1。可以通过values 和index 属性来索引series 对象。也可以将其认为是字典类型的一种变体,因为series 相应的索引值和数据值按位置配对。
二、DataFrame
DataFrame 是一个表格型的数据结构,类似于excel表格,具有行列索引。也可将其看做矩阵化的数据表,可以包含不同数据类型的数据。每列可以是不同的值类型(数值、字符串、布尔型值)。
DataFrame 既有行索引也有列索引,它可以被看做由Series组成的字典。二维的DataFrame 通过分层索引可以实现更高维的索引。
三、Pandas画图
用Pandas画图前,需要了解一下它的基础操作:
对象:plot(x=None,y=None,kind=‘line’)
x和y表示标签或者位置,默认为None
kind:表示绘图的类型,默认为line,折线图
line:折线图
bar/barh:柱状图
hist:直方图
pie:饼状图
area:区域图
scatter:散点图
四、Pandas文件的读取和存储
pandas支持的常用文件类型包括:HDF5、CSV、SQL、XLS、JSON等。
(1)CSV
pd.read_csv(‘filepath_or_buffer’, usecols=[]) 读取csv文件数据。
filepath_or_buffer:文件路径Sep:分隔符,默认为’,’usecols:指定读取的列名,列表形式df.to_csv(path_or_buf,columns=[],index=True,mode=‘w’) 将数据存储到csv文件中。
path_or_buf:文件存放的路径sep:分隔符,默认为’,’columns:列,列表形式mode:‘w’:重写,‘a’:追加header:是否写进列索引值index:是否写进行索引,默认True写进行索引,会将行索引变成一列数据encoding:编码格式,默认为NoneHDF5读取HDF5文件(.h5)需要安装tables模块。
pd.read_hdf(path_or_buf, key=None) 读取HDF5文件
path_or_buf:文件路径key:读取的键df.to_hdf(path_or_buf, key) 写入HDF5文件
path_or_buf:文件路径key:写入文件时,必须指定一个键(3)JSON
pd.read_jsonf(path_or_buf, orient=None,typ=‘frame’,lines=False) 读取json文件
path_or_buf:文件路径orient:指定数据存储的json形式 ,{‘split’,‘records’,‘index’,‘columns’,‘valuse’}typ:默认frame,指定转换成的对象类型Series或者DataFramelines:默认False,按照每行读取jsonpd.to_jsonf(path_or_buf, orient=None,lines=False) 存储json文件
path_or_buf:文件路径orient:指定数据存储的json形式lines:默认False,一个对象存储为一行。一般设置为Ture免责声明:本文由原创用户编辑投稿,若来源犯您的合法权益,请与我们取得联系,我们更正修改。2023年04月08日由小娴整理编辑!