pandas与建模代码的结合


pandas与建模代码的结合

使用pandas用于数据载入和数据清洗,之后切换到模型库去建立模型是一个常见的模型开发工作流。在机器学习中,特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析。

展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。

pandas和其他分析库的结合点通常是NumPy数组。要将DataFrame转换为NumPy数组,使用.values属性:

将数组再转换为DataFrame,可以传递一个含有列名的二维ndarray:

.values属性一般在你的数据是同构化的时候使用——例如,都是数字类型的时候。如果你的数据是异构化的,结果将是Python对象的ndarray:

对于某些模型,可能只想使用一部分列。推荐使用loc索引和values:

有些库对pandas有本地化支持,可以自动做以下工作:将数据从DataFrame转换到NumPy中并将模型参数名称附于输出表的列或Series上。在其他情况下,将不得不手动去处理这些“元数据管理”的操作。

学习了pandas的Categorical类型和pandas.get_dummies函数。假设在示例数据集中,有一个非数字类型的列:

如果想使用虚拟变量替代’category’列,先创建虚拟变量,之后删除’categroy’列,然后连接结果: