天天看点

《Python高性能编程》——1.3 为什么使用Python

本节书摘来自异步社区《python高性能编程》一书中的第1章,第1.3节,作者[美] 戈雷利克 (micha gorelick),胡世杰,徐旭彬 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

python具有高度的表现力且容易上手——新开发者会很快发现他们可以在很短时间里做到很多。许多python库包含了用其他语言编写的工具,使python可以轻易调用其他系统。比如,scikit-learn机器学习系统包含了liblinear和libsvm(两者皆以c语言写成),numpy库则包含了blas以及其他用c和fortran语言写的库。因此,正确运用这些库的python代码确实可以在速度上做到跟c媲美。

python被誉为“内含电池”,因为它内建了很多重要且稳定的库。包括:

<code>unicode和bytes</code>

语言核心内建。

<code>array</code>

原始类型的高效数组。

<code>math</code>

基本数学操作,包括一些简单的统计数学。

<code>sqlite3</code>

包含了流行的基于文件的sql引擎sqlite3。

<code>collections</code>

多种对象,包括双向队列、计数器和字典的变种。

<code>numpy</code>

一个python数字库(矩阵运算的基石库)。

<code>scipy</code>

大量可信的科学库的集合,通常包含了广受尊重的c和fortran库。

<code>pandas</code>

一个数据分析库,类似于r语言的数据框或excel表格,基于scipy和numpy。

<code>scikit-learn</code>

正在快速成为默认的机器学习库,基于scipy。

<code>biopython</code>

一个生物信息学库,类似于bioperl。

<code>tornado</code>

一个提供了并发机制的库。

各类数据库封装

为了跟基本上所有的数据库通信,包括redis、mongodb、hdf5以及sql。

各类网站开发框架

用于创建网站的各种高性能系统,如django、pyramid、flask和tornado。

<code>opencv</code>

计算机视觉的封装。

各类api封装

用于轻松访问各种时髦的web api如google、twitter和linkedin。

为了适应各种部署环境,还有大量可选的管理环境和shell,包括:

标准发行版。

enthought公司的epd和canopy,一个非常成熟且能干的环境。

continuum公司的anaconda,一个注重科学计算的环境。

sage,一个类似于matlab的环境,包括一个集成开发环境(ide)。

python(x,y)。

ipython,一个广泛被科学家和开发人员使用的python互动shell。

ipython notebook,一个基于浏览器的ipython前端,广泛用于教学和演示。

bpython,另一个python互动shell。

python的一大优势在于它可以快速实现出一个新主意的原型。由于存在各种支持库,它能够轻易测试出一个主意是否可行,哪怕第一个实现可能是磕磕碰碰做出来的。

如果你想要让你的数学函数更快,看看numpy。如果你想要实验一下机器学习,试试scikit-learn。如果你在清理和操作数据,那么pandas是一个好选择。

总的来说,我们有理由提出这样一个问题,“为了让我们的系统跑得更快而进行的优化从长期来看会不会反而导致我们团队整体跑得更慢了?”只要花费足够的人力,系统总是可以被榨出更多的性能,但这可能导致系统脆弱的可维护性以及难以理解的优化并最终导致整个团队绊倒在地。

cython就是一个例子(7.6节),它将python代码注释成类似c语言的类型,被转化后的代码可以被一个c编译器编译。它在速度上的提升令人惊叹(相对较少的努力就能获得c语言的速度),但后续代码的维护成本也会上升。尤其是,对这个新模块可能更难,因为团队成员需要具备一定的编程能力来理解那些为了性能提升而绕开python虚拟机的折衷。