Pyhton - 数据分析之pandas模块一览总表

分组用法详解:
一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算) 。这个名称来源于panel data(面板数据),从而可见其要处理的数据是多维度的而非单维度 。
和Numpy的区别:
安装: pip
一、数据结构组成
包含以下三个数据结构:系列(),数据帧(),面板(Panel) 。
二、数据基本操作 1. 创建数据结构 函数说明
.( data, index, dtype, name, copy)
类似表格中的一个列(),类似于一维数组,可以保存任何数据类型 。由索引(index)和列组成 。如果没有指定索引,索引值就从 0 开始,我们可以根据索引值读取数据 。【data一组数据(支持多种数据类型,如,list,类型) 。index数据索引标签,索引值必须是唯一的,与data的长度相同,默认为np.(n),其中n是数组长度,即[0,1,2,3…. range(len(array))-1] - 1],从 0 开始 。dtype数据类型,默认会自己判断 。name设置名称 。copy拷贝数据,默认为 False 。】
.( data, index, , dtype, copy)
是一个二维的数组结构,类似二维数组 。【data一组数据(、系列, map, 列表list, 字典dict 等类型) 。index索引值,或者可以称为行标签 。列标签,默认为(0, 1, 2, …, n)。dtype数据类型 。copy拷贝数据,默认为 False 。】
.Panel(data, items, , , dtype, copy)
创建 Panel 。【data 支持多种数据类型,如,,map,lists,dict,和其他数据帧() 。items即axis=0 。即axis=1 。即axis=2 。dtype每列的数据类型 。copy是否复制数据,默认为false 。】
.(start=None, end=None, =None, freq=‘D’, tz=None, =False, name=None, =None, **)
生成日期范围 。【start开始时间 。end结束时间 。偏移量 。freq频率,默认天,pd.()默认频率为日历日,pd.()默认频率为工作日 。tz时区 。name索引对象名称 。时间参数值正则化到午夜时间戳(这里最后就直接变成0:00:00,并不是15:30:00) 。默认为None的情况下,左闭右闭,left则左闭右开,right则左开右闭 。】pd.(end=‘1/30/2017 15:00:00’, =10) # 增加了时、分、秒
2. 数据结构的属性和方法 属性或方法描述
df.axes
返回索引列表 。返回行轴标签和列轴标签列表 。
df.
返回数据类型 。返回每列的数据类型 。
df.empty
返回布尔值,表示对象是否为空, 返回True表示对象为空 。
df.ndim
返回对象的维数 。根据定义,一个是一个一维数据结构,是一个2D对象 。
df.size
返回基础数据中的元素个数 。返回中的元素个数 。
df.
以形式返回中的实际数据值 。将中的实际数据作为返回 。
df.T
返回的转置,行和列将交换 。
df.shape
返回表示的维度的元组 。元组(a,b),其中a表示行数,b表示列数 。
3. 读取/添加/删除
索引和选择数据,和NumPy索引运算符"[]“和属性运算符”."可以快速轻松地访问数据结构 。由于要访问的数据类型不是预先知道的,直接使用标准运算符具有一些限制 。
索引描述
df.loc[, ]
按标签的行列交叉选取 。基于标签(label),包括行标签(index)和列标签(),即行名称和列名称,可以使用def.loc[, ]选择指定位置的数据 。【单个标量标签,df.loc['a']选择的是 index 为’a’的一行 。标签列表,df.loc[['a', 'b', 'c']]只选择行 。切片对象,在最终选择的数据数据中包含切片的 start 和 stop,df.loc['c' : 'h'] 即包含’c’行,也包含’h’行 。布尔数组,用于筛选符合某些条件的行,可以使用 list, array, 也可以使用(使用时 index需要一致,否则会报 ),df.loc[df.A>0.5] 筛选出所有’A’列大于0.5的行 。】# df.loc[ df:[0,1]] 选择前两行