Python pandas描述性统计


描述性统计的概述与计算

pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归约或汇总统计的类别,这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值(如总和或平均值)。与NumPy数组中的类似方法相比,它们内建了处理缺失值的功能。

调用DataFrame的sum方法返回一个包含列上加和的Series:

传入axis=’columns’或axis=1,则会将一行上各个列的值相加:

除非整个切片上(在本例中是行或列)都是NA,否则NA值是被自动排除的。可以通过禁用skipna来实现不排除NA值:

下表是归约方法的常用可选参数列表。

一些方法,比如idxmin和idxmax,返回的是间接统计信息,比如最小值或最大值的索引值:

除了归约方法外,有的方法是积累型方法:

还有一类方法既不是归约型方法也不是积累型方法。describe就是其中之一,它一次性产生多个汇总统计:

对于非数值型数据,describe产生另一种汇总统计:

下表是汇总统计及其相关方法的完整列表。

1、唯一值、计数和成员属性

一类相关的方法可以从一维Series包含的数值中提取信息。

第一个函数是unique,它会给出Series中的唯一值:

唯一值并不一定按照排序好的顺序返回,但是如果需要的话可以进行排序(uniques. sort())。相应地,value_counts计算Series包含的值的个数:

为了方便,返回的Series会按照数量降序排序。value_counts也是有效的pandas顶层方法,可以用于任意数组或序列:

isin执行向量化的成员属性检查,还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集:

与isin相关的Index.get_indexer方法,可以提供一个索引数组,这个索引数组可以将可能非唯一值数组转换为另一个唯一值数组:

下表是唯一值、计数和集合成员属性方法的参考。


评论区(0)

评论