天天看点

2017,最受欢迎的15大Python库有哪些?

2017,最受欢迎的15大Python库有哪些?

近年来,python 在数据科学行业扮演着越来越重要的角色。因此,我根据近来的使用体验,在本文中列出了对数据科学家、工程师们最有用的那些库。

由于这些库都开源了,我们从github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标。

核心库

1. numpy (提交数: 15980, 贡献者数: 522)

当开始处理python中的科学任务,python的scipy

stack肯定可以提供帮助,它是专门为python中科学计算而设计的软件集合(不要混淆scipy库,它是scipy

stack的一部分,和scipy stack的社区)这样我们开始来看一下吧。然而,scipy

stack相当庞大,其中有十几个库,我们把焦点放在核心包上(特别是最重要的)。

关于建立科学计算栈,最基本的包是numpy(全称为numerical python)。它为python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了numpy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. scipy (提交数: 17213, 贡献者数: 489)

scipy是一个工程和科学软件库。雷锋网再次提醒,你需要理解scipy stack和scipy库之间的区别。

scipy包含线性代数,优化,集成和统计的模块。scipy库的主要功能是建立在numpy上,从而它的数组大量的使用了numpy的。它通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。scipy的所有子模块中的功能都有详细的说明

——又是一个scipy非常有帮助的点。

3. pandas (提交数: 15089, 贡献者数:762)

pandas是一个python包,旨在通过“标记”和“关系”数据进行工作,简单直观。pandas是数据整理的完美工具。它设计用于快速简单的数据操作,聚合和可视化。

库中有两个主要的数据结构:

“系列”(series),一维

2017,最受欢迎的15大Python库有哪些?

“数据帧”(data frames),二维

2017,最受欢迎的15大Python库有哪些?

例如,当您要从这两种类型的结构中接收到一个新的dataframe时,通过传递一个series,您将收到一个单独的行到dataframe的df:

2017,最受欢迎的15大Python库有哪些?

这里稍微列出了你可以用pandas做的事情:

轻松删除并添加数据帧(dataframe)中的列

将数据结构转换为数据帧(dataframe)对象

处理丢失的数据,表示为nan

功能强大的分组

google趋势记录

2017,最受欢迎的15大Python库有哪些?

trends.google.com

github请求历史记录

2017,最受欢迎的15大Python库有哪些?

datascience.com/trends

可视化

4.matplotlib (提交数: 21754, 贡献者数: 588)

又一个scipy stack核心软件包以及

python库,matplotlib为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件(在numpy,scipy和pandas的帮助下),它使python成为像matlab或mathematica这样的科学工具的竞争对手。

然而,这个库是低层级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用更多的高级工具付出更多的努力,但总体上这些努力是值得的。

只要付出一点你就可以做任何可视化:

线图

散点图

条形图和直方图

饼状图;

茎图

轮廓图

场图

频谱图

还有使用matplotlib创建标签,网格,图例和许多其他格式化实体的功能。基本上,一切都是可定制的。

该库由不同的平台支持,并使用不同的gui套件来描述所得到的可视化。不同的ide(如ipython)都支持matplotlib的功能。

还有一些额外的库可以使可视化变得更加容易。

2017,最受欢迎的15大Python库有哪些?

5. seaborn (提交数: 1699, 贡献者数: 71)

seaborn主要关注统计模型的可视化;这种可视化包括热图,这些热图(heat map)总结数据但仍描绘整体分布。seaborn基于matplotlib,并高度依赖于此。

2017,最受欢迎的15大Python库有哪些?

6. bokeh (提交数: 15724, 贡献者数: 223)

另一个很不错的可视化库是bokeh,它针对交互式可视化。与以前的库相比,它独立于matplotlib。正如我们提到的,bokeh的主要焦点是交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。

2017,最受欢迎的15大Python库有哪些?

7. plotly (提交数: 2486, 贡献者数: 33)

最后,关于plotly的话。它是一个基于web用于构建可视化的工具箱,提供api给一些编程语言(python在内)。在plot.ly网站上有一些强大的、上手即用的图形。为了使用plotly,你将需要设置api密钥。图形将在服务器端处理,并发布到互联网,但有一种方法可以避免。

2017,最受欢迎的15大Python库有哪些?
2017,最受欢迎的15大Python库有哪些?
2017,最受欢迎的15大Python库有哪些?

机器学习

8. scikit-learn (提交数:21793, 贡献者数:842)

scikits是scikits stack额外的软件包,专为像图像处理和机器学习辅助等特定功能而设计。对于机器学习辅助,scikit-learn是所有软件包里最突出的一个。它建立在scipy之上,并大量利用它的数学运算。

scikit-learn给常见的机器学习算法公开了一个简洁、一致的接口,可简单地将机器学习带入生产系统中。该库中集成了有质量的代码和良好的文档、简单易用并且十分高效,是使用python进行机器学习的实际行业标准。

深度学习—— keras / tensorflow / theano

在深度学习方面,python中最着名和最便的库之一是keras,它可以在tensorflow或theano框架上运行。让我们来看一下它们的一些细节。

9.theano. (提交数:25870, 贡献者数:300)

首先让我们谈谈theano。

theano是一个python软件包,它定义了与numpy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。最初由蒙特利尔大学机器学习组开发,它主要用于满足机器学习的需求。

值得注意的是,theano紧密结合了numpy在低层次上的运算 。另外,该库还优化了gpu和cpu的使用,使数据密集型的计算平台性能更佳。

效率和稳定性微调保证了即使在数值很小的情况下,仍有更精确的结果,例如,即使只给出x的最小值,log(1 + x)仍能计算出合理的结果。

10. tensorflow. (提交数: 16785,贡献者数: 795)

tensorflow来自google的开发人员,它是数据流图计算的开源库,为机器学习不断打磨。它旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统distbelief的继任者。然而,tensorflow并不限制于谷歌的科学应用范围

– 它可以通用于多种多样的现实应用中。

tensorflow的关键特征是它的多层节点系统,可以在大型数据集上快速训练神经网络。这为谷歌的语音识别和图像对象识别提供了支持。

11. keras. (提交数: 3519,贡献者数: 428)

最后我们来看看keras。它是一个用python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。keras使用theano或tensorflow作为后端,但微软现在正努力整合cntk(微软的认知工具包)作为新的后端。

设计中的简约方法旨在通过建立紧凑型系统进行快速、简便的实验。

keras真的容易上手,并在持续完善它的快速原型能力。它完全用python编写,可被高度模块化和扩展。尽管它以易上手、简单和以高层次为导向,但是keras足够有深度并且足够强大,去支持复杂的模型。

谷歌发展趋势历史

2017,最受欢迎的15大Python库有哪些?
2017,最受欢迎的15大Python库有哪些?

自然语言处理

12. nltk (提交数: 12449,贡献者数: 196)

这个库的名称“natural language toolkit”,代表自然语言工具包,顾名思义,它用于符号学和统计学自然语言处理(nlp) 的常见任务。 nltk旨在促进nlp及相关领域(语言学,认知科学人工智能等)的教学和研究,目前受到重点关注。

nltk的功能允许很多操作,例如文本标记,分类和标记,实体名称识别,建立语料库,可以显示语言内部和各句子间的依赖性、词根、语义推理等。所有的构建模块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结。

13. gensim (提交数: 2878,贡献者数: 179)

它是一个用于python的开源库,为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计的,所以不仅可以进行内存处理,还可以通过广泛使用numpy数据结构和scipy操作来获得更高的效率。gensim高效也易于使用。

gensim旨在与原始和非结构化的数字文本一起使用。 它实现了诸如hierarchical dirichlet

processes(hdp),潜在语义分析(lsa)和潜在dirichlet分配(lda)之类的算法,以及tf-idf,随机预测,word2vec和document2vec,便于检查一组文档中有重复模式的文本

(通常称为语料库)。所有的算法均是无监督的,意味着不需要任何参数,唯一的输入只有语料库。

2017,最受欢迎的15大Python库有哪些?
2017,最受欢迎的15大Python库有哪些?

数据挖掘,统计学

14. scrapy (提交数: 6325,贡献者数: 243)

scrapy库是用于从网络结构化检索数据(如联系人信息或url),可以用来设计crawling程序(也称为蜘蛛bots)。

它是开源的,使用用python编写的。最开始只是如它的名字暗示的一样,只用来做scraping,但是它现在已经在完整的框架中发展,能够从api采集数据并作为通用的crawlers了。

该库在界面设计中标榜着“不要重复自己” 它推荐用户们编写泛化得到、可被重复使用的通用代码,从而构建和扩展大型的crawlers。

scrapy的架构围绕着spider class构建,这其中包含了crawler追从的一套指令。

15. statsmodels (提交数: 8960,贡献者数: 119)

你可能从名字就猜出大概了,statsmodels使用户能够通过使用各种统计模型的估算方法进行数据挖掘,并执行统计判断和分析。

许多有用的特征是可被描述的,并通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型,各种估计方法得出统计结果。

这个库还提供了广泛的标定功能,专门用于大数据统计中的性能优化工作。

总结

许多数据科学家和工程师认为这些库是顶级的,并值得关注,或者需要或多或少了解它们。 以下是每个库在github上的详细统计资料:

当然,这不是完全详尽的列表,还有许多其他的库和框架也是值得关注。一个很好的例子是scikit的不同软件包各自专注一个特定的领域,如scikit-image是用于处理图像的。

作者:igor bobriakov

来源:51cto