数据聚合与分组操作


数据聚合与分组操作

对数据集进行分类,并在每一组上应用一个聚合函数或转换函数,这通常是数据分析工作流中的一个重要部分。在载入、合并、准备数据集之后,可能需要计算分组统计或者数据透视表用于报告或可视化的目的。pandas提供一个灵活的groupby接口,允许以一种自然的方式对数据集进行切片、切块和总结。

关系型数据库和SQL(Structured Query Language,结构化查询语言)的流行原因之一就是其对数据的连接、过滤、变换和聚合功能。但是,像SQL这样的查询语言在可以执行的组操作种类上有所限制。通过Python和pandas的表达,可以使用pandas对象或NumPy数组执行相当复杂的组操作。在本章,将学习如何:

  1. 使用一个或多个键(以函数、数组或DataFrame列名的形式)将pandas对象拆分为多块
  2. 计算组汇总统计信息,如计数、平均值或标准偏差或用户定义的函数
  3. 应用组内变换或其他操作,如标准化、线性回归、排位或子集选择
  4. 计算数据透视表和交叉表
  5. 执行分位数分析和其他统计组分析