Python pandas描述性统计

pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归约或汇总统计的类别，这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值（如总和或平均值）。与NumPy数组中的类似方法相比，它们内建了处理缺失值的功能。

调用DataFrame的sum方法返回一个包含列上加和的Series:

传入axis=’columns’或axis=1，则会将一行上各个列的值相加：

除非整个切片上（在本例中是行或列）都是NA，否则NA值是被自动排除的。可以通过禁用skipna来实现不排除NA值：

下表是归约方法的常用可选参数列表。

一些方法，比如idxmin和idxmax，返回的是间接统计信息，比如最小值或最大值的索引值：

除了归约方法外，有的方法是积累型方法：

还有一类方法既不是归约型方法也不是积累型方法。describe就是其中之一，它一次性产生多个汇总统计：

对于非数值型数据，describe产生另一种汇总统计：

下表是汇总统计及其相关方法的完整列表。

一类相关的方法可以从一维Series包含的数值中提取信息。

第一个函数是unique，它会给出Series中的唯一值：

唯一值并不一定按照排序好的顺序返回，但是如果需要的话可以进行排序（uniques. sort()）。相应地，value_counts计算Series包含的值的个数：

为了方便，返回的Series会按照数量降序排序。value_counts也是有效的pandas顶层方法，可以用于任意数组或序列：

isin执行向量化的成员属性检查，还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集：

与isin相关的Index.get_indexer方法，可以提供一个索引数组，这个索引数组可以将可能非唯一值数组转换为另一个唯一值数组：

下表是唯一值、计数和集合成员属性方法的参考。

Python pandas基本功能 Python 数据读取、存储与⽂件格式

评论区（0）