数据清洗与准备


数据清洗与准备

在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。这样的工作很占用时间。有时,数据存储在文件或数据库中的方式对于特定的任务来说格式并不正确。许多研究人员选择使用通用编程语言(如Python、Perl、R或Java)或Unix文本处理工具(如sed或awk)进行从一种形式到另一种形式的特殊数据处理。pandas以及内置的Python语言功能为你提供了一个高级、灵活和快速的工具集,使你能够将数据处理为正确的形式。

在本文档中,将讨论用于缺失值、重复值、字符串操作和其他分析数据转换的工具。