近年來,人工智能(AI)與機器學習可謂不絕于耳。根據IDC公司2017年9月釋出的預測,2017年全球在認知與人工智能解決方案領域的支出總額約為120億美元。到2021年,這一總和可能将以50.1%的複合年增長率提升,意味着屆時市場将迎來高達576億美元。
在2018年的預測當中,Forrester Research公司預計新的一年内,“AI将重塑分析與業務創新的面貌”,且“AI将在兩成企業中承擔起制定決策與提供實時指令的職能”。不過該公司同時提醒稱,“2018年也将成為CIO們意識到要發揮AI這類新技術的潛能,必須投入巨大努力的一年。”
對于多數企業而言,其中最艱苦的工作在于首先掌握機器學習與人工智能架構。根據Gartner公司的觀點,“59%的企業仍在努力收集資訊以建構其人工智能戰略。”
其中大部分資訊收集工作可能都将圍繞着開源解決方案展開。多種領先的人工智能工具都可立足開源許可下擷取,而大量尖端研究與開發工作也正基于這些開源項目進行。
那麼,企業IT管理者們應該研究哪些開源AI解決方案呢?今天的文章将着重介紹十種最具人氣的開源AI與機器學習工具。
1. TensorFlow
由谷歌公司打造的TensorFlow已經成為目前使用範圍最廣的機器學習架構之一。該項目的GitHub(一個面向開源及私有軟體項目的托管平台)頁面擁有87700顆星評,fork(計算機程式設計中的分叉函數)數量超過42700次。2017年釋出的GitHub Octoverse報告指出,TensorFlow這款開源AI工具擁有數量最高的fork,貢獻者數量位列第五,評論數量排名第十。其能夠很好地适應基于雲的應用程式,且目前Amazon Web Services、微軟Auzre以及Google Cloud Platform都為其提供支援及/或服務。根據項目網站,其企業客戶包括愛彼迎、英偉達、優步、SAP、Dropbox、eBay、谷歌、英特爾、可口可樂以及Twitter等等。
2. Scikit-Learn
基于其它三個開源項目(NumPy、SciPy以及matplotlibe)的Scikit-learn是一款基于Python的機器學習工具,主要強調資料挖掘與資料分析。其提供多種算法以實作分類、回歸、聚類、降維、模型選擇以及預處理等等。其使用者包括Spotify、Evernote、OKCupid以及Change.org等等。其最初屬于谷歌Summer of Code項目,并在随後的發展當中得到了多個組織機構的資助——具體包括INRIA、Paris-Saclay資料科學中心、紐約大學、Télécom Paristech、哥倫比亞大學、Alfred P. Sloan基金會與悉尼大學等。該項目在GitHub上擁有超過25300顆星評與超過12900次fork。
3. Caffe
Caffe誕生于Yangqing Jia手中,在開發此項目時其尚在加州大學伯克利分校攻讀博士學位。伯克利大學AI研究(簡稱BAIR)部門目前正負責該項目的開發工作。項目網站指出,其屬于“以表達、速度與容模為基礎的深度學習架構。”其主要功能包括表現性架構、可擴充代碼、出色的性能表現以及龐大的學術與行業使用者祢。在GitHub上,該項目擁有22600多顆星評與超過13800次fork。
4. 微軟Cognitive Toolkit
微軟Cognitive Toolkit(原名為CNTK)将自身描述為一款“免費、易于使用的開源商業級工具包,可用于訓練深度學習算法以通過類似于人腦的方式實作學習。”這套AI解決方案由微軟公司内部開發完成,并于2016年以開源許可形式進行釋出。該工具的主要特征包括支援Python、C++以及BrainScript; 支援強化學習、生成對抗網絡以及有監督與無監督學習; 高效的資源利用能力; 與NumPy間的互操作性; 且可與微軟Azure相內建。此項目在GitHub上擁有超過13700顆星評與3600多次fork。
5. PredictionIO
作為Apache項目,PredictionIO是一款開源機器學習伺服器,并能夠利用Hadoop、HBase以及Spark等多種其它Apache大資料工具。企業經常利用它來實作lambda架構,其官方網站還提供一整套全面的機器學習堆棧,其中囊括Apache Spark、MLlib、HBase、Spray以及ELasticsearch。該項目的目标在于幫助資料科學家與開發者們快速建立預測引擎,并将其以Web服務的形式進行部署。此項目的GitHub頁面顯示,其擁有超過10900顆星評以及超過1777次fork。
6. Deeplearn.js
顧名思義,deeplearn.js是一套面向深度學習的JavaScript庫。其允許使用者在浏覽器當中訓練神經網絡。與本份清單中提到的其它幾款開源AI項目一樣,它同樣源自谷歌Brain小組之後,且谷歌公司一直在為該項目的發展提供助力。Deeplearn.js當中包含兩個獨立API:一個負責實作與NumPy類似的急切執行模式,另一個則提供類似于TensorFlow的延遲執行模式。在GitHub上,該項目擁有6000多顆星評與超過550次fork。
7. Pattern
Pattern由安特衛普大學計算語言學與心理語言學(簡稱CLiPS)研究中心所打造。其提供多種人工智能功能,具體包括資料挖掘、自然語言處理、機器學習、網絡分析以及可視化。其基于Python,且捆綁有50多個示例與350多項單元測試。GitHub使用者為其給出了超過6000個星評,fork次數亦超過1100次。
8. Turi Create
Turi Create允許非技術專家建立屬于自己的機器學習模型,且無需編寫大量代碼。其适用于建立推薦引擎、圖像分析工具以及文本分類引擎,且提供多種算法以實作分類、回歸、圖形分析、聚類、最近鄰、主題模式等等。盡管剛剛由蘋果公司釋出在GitHub上(2017年12月),但其仍然快速吸引到人們的關注,目前擁有超過5700顆星評以及490多次fork。
9. Aerosolve
由愛彼迎建立的Aerosolve是一款人工智能工具,特别擅長處理地理資料。之是以聲名大噪,是因為其擁有“人性化”的設計思路。其主要功能包括基于資源節約理念的特征表達、特征轉換語言、可調試模型、Java與Scala支援以及圖像内容分析代碼。在GitHub頁面中,該項目擁有超過4200顆星評與550多次fork。
10. DSSTNE
由Amazon公司打造的DSSTNE(發音為‘Destiny’)代表着“深層可擴充稀疏張量網絡引擎”。網絡購物巨頭利用它來建立自己的推薦引擎,但其出色的能力也引起了其它零售商與線上企業的關注。根據開發人員所言,其在機器學習訓練資料稀缺類用例當中發揮着巨大的作用。在GitHub上,該項目擁有4000多顆星評與超過660次fork。
原文出處:科技行者
轉載請與作者聯系,同時請務必标明文章原始出處和原文連結及本聲明。