分类数据

分类数据

本节会介绍pandas的Categorical类型。将展示在使用pandas进行某些操作时如何获得更好的性能和内存使用。还会介绍一些在统计和机器学习应用中使用分类数据的工具。

1、背景和目标

一个列经常会包含重复值，这些重复值是一个小型的不同值的集合。像unique和value_counts这样的函数，允许我们从一个数组中提取不同值并分别计算这些不同值的频率：

许多数据系统（用于数据入库、统计计算或其他用途）已经开发出专门的方法，用重复的值来表示数据，以便更有效地存储和计算。在数据入库的操作中，使用所谓的维度表是一种最佳实践，维度表包含了不同值，并将主要观测值存储为引用维度表的整数键：

可以使用take方法来恢复原来的字符串Series：

这种按照整数展现的方式被称为分类或字典编码展现。不同值的数组可以被称为数据的类别、字典或层级。

在做数据分析时，分类展示会产生显著的性能提升。也可以在类别上进行转换同时不改变代码。以下是一些相对低开销的转换示例：

重命名类别
在不改变已有的类别顺序的情况下添加一个新的类别

2、pandas中的Categorical类型

pandas拥有特殊的Categorical类型，用于承载基于整数的类别展示或编码的数据。

这里，df[‘fruit’]是一个Python字符串对象组成的数组。可以通过调用函数将它转换为Categorical对象：

fruit_cat的值并不是NumPy数组，而是pandas.Categorical的实例：

Categorical对象拥有categories和codes属性：

可以通过分配已转换的结果将DataFrame的一列转换为Categorical对象：

需要注意，分类数据可以不是字符串，尽管我举的例子都是字符串例子。一个分类数组可以包含任一不可变的值类型。

3、使用Categorical对象进行计算

在pandas中使用Categorical与非编码版本相比（例如字符串数组）整体上是一致的。pandas中的某些部分，比如groupby函数，在与Categorical对象协同工作时性能更好。还有一些函数可以利用ordered标识。

考虑一些随机数字数据，并使用pandas.qcut分箱函数。结果会返回pandas.Categorical：

我们计算上面数据的四分位分箱，并提取一些统计值：

虽然样本的四分位数有用，但是在生成一份报告时，四分位数就没有四分位数名称有用了。

被标记的bins分类数据并不包含数据中箱体边界的相关信息，因此可以使用groupby来提取一些汇总统计值：

3.1 使用分类获得更高性能

如果在特定的数据集上做了大量的分析，将数据转换为分类数据可以产生大幅的性能提升。DateFrame中一列的分类版本通常也会明显使用更少内存。

现在将labels转换为Categorical对象：

现在我们注意到labels比categories使用了明显更多的内存：

4、分类方法

Series包含的分类数据拥有一些特殊方法，这些方法类似于Series.str的特殊字符串方法。这些方法提供了快捷访问类别和代码的方式。考虑下面的Series:

特殊属性cat提供了对分类方法的访问：

在大型数据集中，分类数据经常被用于节省内存和更高性能的便捷工具。在过滤了一个大型DataFrame或Series之后，很多类别将不会出现在数据中。为了帮助解决这个问题，可以使用remove_unused_categories方法来去除未观察到的类别：

下表是可用的分类方法列表。

4.1 创建用于建模的虚拟变量

当使用统计数据或机器学习工具时，通常会将分类数据转换为虚拟变量，也称为one-hot编码。这会产生一个DataFrame，每个不同的类别都是它的一列。这些列包含一个特定类别的出现次数，否则为0。

pandas.get_dummies函数将一维的分类数据转换为一个包含虚拟变量的DataFrame：

Python pandas分类数据 Python GroupBy进阶