高阶pandas


高阶pandas

之前的章节关注于介绍不同类型的数据规则工作流以及NumPy、pandas和其他类库的特征。随着时间的推移,pandas已经开发了用于助力用户的深度特征。本章将深入一些更为高级的特征领域。

将介绍分类数据,包括pandas 中的 Categorical 类型,使用 Categorical 对象进行计算,分类方法;以及GroupBy应用。

背景:

  1. 一个列经常会包含重复值,这些重复值时一个小型的不同值的集合,unique 和 value_counts 函数允许我们从一个数组中提取不同值并分别计算这些不同值的频率
  2. 为了提高性能,使用分类的方法(或者称为字典编码)来呈现数据,也就是说利用编码的方法,将数据以整数的方式呈现,相应的,存在一个类别(或者说字典),保存了数值所代表的含义