> 影视
pytho数据分析需要什么基础(pytho数据分析要学多久)
导语:Python数据分析,必须要求掌握pandas大熊猫
我写的pandas不是我国可爱的大熊猫国宝
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
1.pandas数据结构的介绍
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。Time- Series:以时间为索引的Series。DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。Panel :三维的数组,可以理解为DataFrame的容器。2.Series的操作
2.1 对象创建 2.1.1 直接创建2.1.2 字典创建import pandas as pdimport numpy as np39;a&39;b&39;c&39;d&39;e& 字典(dict)类型数据创建s = pd.Series( {&39;:10, &39;:20, &39;:30}, index=[&39;, &39;, &39;, &39;])OUT:a -0.620323b -0.189133c 1.677690d -1.480348e -0.539061dtype: float64OUT:a 10b 20c 30dtype: int64
2.2 查看数据 切片、索引、dict操作 Series既然是一维数组类型的数据结构,那么它支持想数组那样去操作它。通过数组下标索引、切片都可以去操作他,且它的data可以是dict类型的,那么它肯定也就支持字典的索引方式。import pandas as pdimport numpy as nps = pd.Series(np.random.randn(5), index=[&39;,&39;,&39;,&39;,&39;])print(s)39;下标索引方式s[0] = : %s& 字典访问方式print(&39; % s[&39;])39;切片操作s[2:]\n:%s&39;a&39;k&39;a&39;b&39;c&39;a&39;b&39;c&39;state&39;Ohio&39;Ohio&39;Ohio&39;Nevada&39;Nevada&39;year&39;pop&39;pop&39;state&39;Ohio&39;Ohio&39;Ohio&39;Nevada&39;Nevada&39;year& 建立DataFrame对象In [72]: frame1 = DataFrame(data)39;a&39;b&39;c&39;d&39;col1&39;col2&39;c&39;a&39;c&39;bde&39;Utah&39;Ohio&39;Texas&39;Oregon&39;min&39;max&39;a&39;b&39;c&39;d&39;one&39;two&39;pandas.core.frame.DataFrame&39;./dataset/HR.csv&39;pandas.core.frame.DataFrame&39;./dataset/movielens/movies.dat&39;name&39;types&39;::&39;python&39;s|Comedy2 Jumanji (1995) Adventure|Children&39;./dataset/my_excel.xlsx&4. Time- Series的操作生成日期范围:import pandas as pdpd.data_range(&39;,periods=10)OUT:DatetimeIndex([&39;, &39;, &39;, &39;, &39;, &39;, &39;, &39;, &39;, &39;], dtype=&39;, freq=&39;)
5. 绘图功能
ts = pd.DataFrame(np.random.randn(1000,4),index=pd.date_range(&39;,periods=1000),columns=list(&39;))ts = ts.cumsum()ts.plot(figsize = (12,8))plt.show()
本文内容由小娴整理编辑!