天天看點

面向 Python 語言的三大頂級機器學習庫

事實證明,無需掌握艱深的資料科學,我們同樣能夠在機器學習的世界中徜徉。當然,這段旅程不可避免地需要借助各類大資料、人工智能、深度學習與規模化統計與分析工具的幫助。

面向 Python 語言的三大頂級機器學習庫

在今天的文章中,我們将共同了解三款最具人氣的python機器學習庫,相信能夠幫助大家帶來更為順利的資料科學探索體驗。

1、theano

面向 Python 語言的三大頂級機器學習庫

約十年前誕生的機器學習方案theano,是目前機器學習領域使用範圍最廣的cpu與gpu數學編譯器之一。

在《theano:用于快速實作數學表達計算的python架構》這篇論文當中,作者對這套庫進行了全面的概述。“theano包含多款軟體包,用以強化自身功能。能提供高水準使用者界面,足以處理多種特定目标,”論文解釋稱:“其中的lasagne與keras能夠有效簡化深度學習模型以及作為數學表達式的訓練算法的架構表達。事實上,機率程式設計架構pymc3就在利用theano以自動生成表達式并快速執行所生成的c代碼。(keras與lasagne同時運作在tensorflow與theano之上。)。”

theano目前在github上擁有超過2萬5千項送出成果以及近300名貢獻者,fork次數将接近2千次。

2、tensorflow

tensorflow是一套利用資料流圖形進行數值計算的開源庫。盡管隻是開源領域的一名新兵,但這一由谷歌公司牽頭的項目已經擁有近1萬5千條送出成果以及超過600名github貢獻者,模型庫的星評更是逼近1萬2千顆。

面向 Python 語言的三大頂級機器學習庫

在第一份《開源年鑒》當中,tensorflow被選為2016年最值得fork項目。而在最新的《開源年鑒》内,tensorflow同樣多次亮相。基于tensorflow的magenta項目甚至在嘗試将機器智能同藝術領域加以聯系,探索如何利用它來實作音樂與藝術創作,并由此建立起以藝術家、程式員以及機器學習研究者的混合型社群。另外,tensorflow支援多種前端語言,但對python的支援是最好的,python還被列入2017年熱門程式設計趨勢排行。

tensorflow 1.0于今年2月中旬推出。谷歌在其開發者部落格中寫道:“盡管剛剛誕生一年,但tensorflow已經切實幫助研究人員、工程師、藝術家、學生以及其他各類使用者完成各類工作,它範疇涵蓋語言翻譯、皮膚癌早期診斷乃至糖尿病患者并發性失明預防等領域等”。

3、scikit-learn

這套方案立足于numpy、scipy以及matplotlib,并被spotfiy公司的工程師們用于進行音樂推薦。而在okcupid公司,是負責對比對系統進行評估與改進。在birchbox公司,從業人員正在摸索如何利用scikit-learn支援新産品的開發。

面向 Python 語言的三大頂級機器學習庫

scikit-learn目前在github上擁有近2萬2千條送出成果與800名貢獻者。