Python数据分析简介


为什么要用Python?

基于Python语言的特性,加上历史和文化上的原因,Python发展出了一个大型、活跃的科学计算及数据分析社区。近些年,Python提高了对数据类库的支持,使得它成为数据分析任务的一个流行选择。再综合考虑Python在通用软件工程上的总体实力,它便成为数据分析的首选语言。

认识数据分析

数据分析作为大数据技术的重要组成部分,近年来随着大数据技术逐渐发展和成熟。数据分析技能,被认为是数据科学领域中数据从业人员需要具备的技能之一。与此同时,数据分析师也成了时下最热门的职业之一。数据分析技能的掌握是一个循序渐进的过程。明确数据分析概念、分析流程和分析方法等相关知识是迈出数据分析的第一步。

Python 2和Python 3

Python 3.x的第一个版本发布于2008年年底。它包含了大量与Python 2.x代码不兼容的变更。2012年,大部分科学数据分析社区仍然在使用Python 2.x,因为当时很多包并没有完全兼容Python 3。现如今,用户可以根据喜好在Python 2.x和Python 3.x进行选择,因为基本上两个版本都有全量的库支持。

然而,Python 2.x将在2020年结束开发周期(包括重要安全补丁),所以在Python 2.7下创建新项目并不是个好主意。所以使用Python 3.6,该稳定版部署更为广泛、支持更为友好。我们将Python 2.7称为“传统Python”,将Python 3.x简称为“Python”。

集成开发环境和文本编辑器

标准开发环境,是“IPython加文本编辑器”。通常,在IPython或Jupyter notebook中写一段代码,然后迭代测试、调试。这种方式有助于在交互情况下操作数据,并可以通过肉眼确认特定数据集是否做了正确的事。像pandas和NumPy库都被设计为适合在命令行下使用。然而,当开发软件时,一些用户可能倾向于使用功能更为丰富的集成开发环境(IDE),而不是功能相对简单的文本编辑器比如Emacs或Vim。

下面介绍一些IDE:

  • PyDev(免费),基于Eclipse平台的IDE· PyCharm, Jetbrains公司开发(对商业用户收费,对开源用户免费)
  • Python Tools for Visual Studio(适合Windows用户)
  • Spyder(免费), Anaconda集成的IDE
  • Komodo IDE(收费)

由于Python十分流行,大多数文本编辑器,比如Atom和Sublime Text 2都对Python有较好的支持。