天天看點

19個超贊的資料科學和機器學習工具,程式設計小白必看!(附資料)

引言

程式設計是資料科學的一個組成部分。事實上,了解程式設計邏輯、循環和函數的人更有可能成為成功的資料科學家。但那些在學校裡從未學習過程式設計的人怎麼辦?

難道他們就沒辦法成為一名資料科學家了嗎?

近年來,随着資料科學的蓬勃發展,許多人都有興趣進入這個領域。但對程式設計卻一籌莫展。事實上,在我的第一份工作之前,我也是非程式設計聯盟的成員。是以,我明白當一個你從未學過的東西在任何一步都困擾着你的時候,有多麼可怕。

19個超贊的資料科學和機器學習工具,程式設計小白必看!(附資料)

好消息是無論你的程式設計技巧如何,你都有辦法成為資料科學家!有一些工具可以避免程式設計,并提供使用者友好的GUI(圖形使用者界面),是以任何對算法知之甚少的人都可以簡單地使用它們來建構高品質的機器學習模型。

許多公司(尤其是初創公司)最近推出了GUI驅動的資料科學工具。我盡力在本文中介紹一些重要的工具,并盡可能提供視訊。

注意:所有提供的資訊都是從開源資訊源收集的。我們隻是展示一些事實而不是觀點。我們決不會嘗試宣傳或為任何産品/服務打廣告。

以下是本次介紹的工具清單:

1. RapidMiner

連結:

https://rapidminer.com/

介紹視訊:

https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750

RapidMiner(RM)最初于2006年作為一款名為Rapid-I的開源獨立軟體被啟動。多年來,他們以RapidMiner的名字給它命名,并獲得了約3500萬美元的資金。該工具的舊版本(低于v6)是開源的,但最新版本會有14天的試用期并在此之後需要許可證。

RM涵蓋了預測模組化的整個生命周期,從資料準備到模組化,最後驗證和部署。GUI基于一個框圖方法,與Matlab Simulink非常相似。有預定義的塊用作即插即用裝置。你隻需要以正确的方式連接配接它們,就可以在沒有一行代碼的情況下運作各種各樣的算法。最重要的是,它們允許将自定義的R和Python腳本內建到系統中。

目前的産品包括以下内容:

RapidMiner Studio:一款可用于資料準備、可視化和統計模組化的獨立軟體。

RapidMiner伺服器:它是一個企業級環境,具有中央存儲庫,可以輕松進行團隊工作,項目管理和模型部署。

RapidMiner Radoop:實作以Hadoop為中心的大資料分析功能。

RapidMiner Cloud:一個基于雲的存儲庫,可以輕松地在各種裝置之間共享資訊。

RM目前已經應用于汽車、銀行、保險、生命科學、制造業、石油和天然氣、零售、電信和公用事業等各個行業。

2. DataRobot

https://www.datarobot.com/ https://youtu.be/wZCNKDX1q4o

DataRobot(DR)是一款高度自動化的機器學習平台,由全球最好的Kagglers建構,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。該平台聲稱已經消除了對資料科學家的需求。這從他們網站的一句話中可以明顯看出 - “資料科學需要數學和統計資質、程式設計技能和商業知識。借助DataRobot,你隻需提供商業知識和資料,而我們的尖端自動化負責其餘部分。”

DR宣稱具有以下優點:

模型優化:

平台通過采用文本挖掘、變量類型檢測、編碼、插補、縮放、轉換等自動檢測最佳資料預處理和特征工程。

根據誤差度量和驗證集合分數自動選擇超參數。

并行處理:

計算被分給數千個多核伺服器。

使用分布式算法來擴充到大型資料集。

部署:

隻需點選幾下即可輕松部署設施(無需編寫任何新代碼)。

對于軟體工程師:

Python SDK和API可用于将模型快速內建到工具和軟體中。

3. BigML

https://bigml.com/ https://youtu.be/JVM8qIn3xPQ

BigML提供了一個良好的圖形使用者界面,可以讓使用者通過以下6個步驟掌握:

來源:使用各種資訊來源

資料集:使用定義的源建立資料集

模型:制作預測模型

預測:基于模型生成預測

合成:建立各種模型的合成

評估:針對驗證集的非常模型

這些過程顯然會以不同的順序疊代。BigML平台提供了很好的結果可視化,并具有求解分類、回歸、聚類、異常檢測和關聯發現問題的算法。他們提供按月、季度和年度訂閱捆綁在一起的幾個軟體包。他們甚至提供免費套餐,但上傳資料集的大小限制為16MB。

您可以通過他們的YouTube頻道了解他們的界面如何運作。

4. Google Cloud AutoML

https://cloud.google.com/automl/ https://youtu.be/GbLQE2C181U

Cloud AutoML是Google機器學習元件的一部分,它允許有限ML專業知識的人員來建構高品質模型。作為Cloud AutoML産品組合的一部分,第一款産品是Cloud AutoMLVision。該服務使得訓練圖像識别模型變得更加簡單。它具有拖放界面,可以讓您上傳圖像,訓練模型,然後直接在Google Cloud上部署這些模型。

Cloud AutoML Vision基于Google的遷移學習和神經架構搜尋等技術。這個工具已經被很多組織所使用。看看這篇文章,看看AutoML在兩個驚人的現實生活例子的表現,以及它如何産生比任何其他工具更好的結果。

5. Paxata

https://www.paxata.com/ https://youtu.be/bxxsCLmXmms

Paxata是少數幾家專注于資料清洗和預處理的組織之一,而不是機器學習或統計模組化部分。這是一個易于使用的MS Excel類應用程式。它還提供了可視化的指導,可以輕松地将資料彙集在一起,查找并修複資料中混雜的噪音或缺失,以及在團隊之間共享和重複使用資料項目。與本文中提到的其他工具一樣,Paxata取消了編碼或腳本,進而克服了處理資料所涉及的技術障礙。

Paxata平台遵循以下流程:

添加日期:使用廣泛的來源擷取資料。

探查:使用強大的視覺效果進行資料探查,使使用者可以輕松識别資料中的空白。

清理+更改:使用插補等步驟執行資料清理,使用NLP對相似值進行規範化,檢測重複值。

形狀:制作資料的樞紐,執行分組和聚合。

分享+管理:允許在強有力的身份驗證和授權的情況下進行分享和協作。

結合:專有技術稱為SmartFusion允許通過1次點選結合資料幀,因為它可以自動檢測到最佳組合;多個資料集可以組合成一個AnswerSet。

商務智能工具:可以在常用的商務智能工具中輕松實作最終答案集的可視化;還可以輕松實作資料預處理和可視化之間的疊代。

Praxata已經涉足金融服務、消費品和網絡領域。如果您的工作需要大量資料清洗,它可能是一個很好的工具。

6. Trifacta

https://www.trifacta.com/ https://youtu.be/L-jWAsJNmAU

Trifacta是另一家重點關注資料預處理的創業公司。它有3種産品:

Wrangler:一款免費的獨立軟體。允許處理多達100MB的資料。

WranglerPro:上述的更新版本。它允許單使用者和多使用者并且資料量限制為40GB。

WranglerEnterprise:Trifacta的終極産品。它對處理的資料量沒有任何限制,并允許無限制的使用者。非常适合大型組織。

Trifacta提供了一個非常直覺的GUI來執行資料清洗。它将資料作為輸入并按列提供各種統計資料的摘要。另外,對于每一列,它都會自動推薦一些可以通過單擊進行選擇的轉換。可以使用一些預先定義的函數對資料執行各種轉換,這些函數可以在界面中輕松調用。

Trifacta平台使用以下資料準備步驟:

發現:首先看看資料和分布,以便快速了解您的具體情況。

結構:為資料配置設定适當的形态和變量類型并解決異常。

清理:此步驟包括插補、文本标準化等過程。這是使資料模型準備就緒所必需的一步。

充實:此步驟有助于提高分析的品質,可以通過添加更多資料源或對現有資料執行一些功能工程來完成。

驗證:此步驟對資料執行最終檢測。

釋出:最後将資料導出以供進一步使用。

Trifacta主要應用于金融、生命科學和電信行業。

7. MLBase

http://mlbase.org/ https://youtu.be/W-WPclNo8v0

MLBase是加州大學伯克利分校的AMP(算法機器人)實驗室開發的一個開源項目。背後的核心思想是為機器學習應用于大規模問題提供一個簡單的解決方案。

它有3種産品:

MLlib:它是Apache Spark中的核心分布式ML庫。它最初是作為MLBase項目的一部分開發的,但現在Spark社群也支援它。

MLI:用于特征提取和算法開發的實驗性API,它引入了進階ML程式設計抽象。

ML優化器:該層旨在自動執行ML管道建構任務。優化器通過包含在MLI和MLlib中的特征提取器和ML算法來解決搜尋問題。

8. Auto-WEKA

http://www.cs.ubc.ca/labs/beta/Projects/autoweka/ https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD

Auto-WEKA是一個用Java編寫的資料挖掘軟體,由紐西蘭懷卡托大學的機器學習小組開發。這是一個基于GUI的工具,對資料科學初學者非常有用。它的最大優點是它是開源的,開發人員提供了教程和論文來幫助你入門。你可以在AV的文章中了解更多相關資訊。目前它主要應用于教育和學術目的。

9. Driverless AI

https://www.h2o.ai/driverless-ai/ https://youtu.be/KkvWX3FD7yI

Driverless AI是支援自動機器學習的h2o.ai企業的神奇平台。這個連結上可以使用1月試用版的docker映像。您隻需使用簡單的下拉清單選擇檔案來訓練,測試并指定您想要跟蹤模型性能的名額。坐下來,看着界面直覺的平台在你的資料集上訓練出優秀的結果,并能與一個經驗豐富的資料科學家能夠提出的好解決方案相比。

這些是Driverless AI 的業務功能:

它支援XGBOOST,GLM和K-Means等多GPU支援,即使對于大型複雜資料集也能提供出色的訓練速度。

自動功能工程,調整和綜合各種模型以産生高度準确的預測。

在訓練過程中,有解釋模型以及用于實時特征重要性排序的面闆的強大功能。

10. Microsoft Azure ML Studio

https://studio.azureml.net/ https://youtu.be/tW1JV6bHXFA

當這個領域有這麼多大牌玩家時,微軟怎麼會落後?Azure ML Studio是一個簡單卻強大的基于浏覽器的ML平台。它有一個可視化的拖放環境,不需要程式設計。他們已經為新手釋出了全面的教程和示例實驗,可以幫助他們快速掌握該工具。

它采用簡單的五個步驟:

導入資料集。

如有必要,執行資料清洗和其他預處理步驟。

将資料分解為訓練和測試集。

應用内置ML算法來訓練您的模型。

評價你的模型,并得到你的預測!

11. MLJar

https://mljar.com/ https://youtu.be/ijmw94h4qCk

MLJar是一個基于浏覽器的平台,用于快速建構和部署機器學習模型。它有一個直覺的界面,并允許您并行地訓練模型。它具有内置的超參數搜尋功能,可以更輕松地部署模型。MLJar提供與NVIDIA的CUDA,python,TensorFlow等的內建。

你隻需要執行三個步驟來建立一個不錯的模型:

上傳你的資料集。

訓練和調整許多機器學習算法并選擇最佳的算法。

使用最佳模型進行預測并分享您的結果。

目前該工具用于訂閱版本。它有一個免費的版本并且有0.25GB的資料集限制。這絕對值得一試。

12. Amazon Lex

https://aws.amazon.com/cn/lex/ https://youtu.be/d3LYlNqfuzI

Amazon Lex提供了一個易于使用的控制台,可在幾分鐘内建構自己的聊天機器人。您可以使用Lex在應用程式或網站中建構對話界面。所有你需要做的是提供一些短語,Amazon Lex完成其餘步驟!它建構了一個完整的自然語言模型,使用該模型,客戶可以使用語音和文本與應用程式進行互動。

它還内置了與亞馬遜網絡服務(AWS)平台的內建。Amazon Lex是一項完全托管服務,是以您的使用者參與度不斷增加,您無需擔心配置硬體和管理基礎設施以提高您的機器人體驗。

13. IBM Wastson Studio

https://www.ibm.com/cloud/watson-studio https://youtu.be/1_W6Y3c2Aeg

本文怎麼能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio為建構和部署學習機和深度學習模型提供了一個美麗的平台。您可以互動式地發現、清理和轉換您的資料,使用Jupyter筆記本電腦和RStudio等熟悉的開源工具,通路最流行的庫,訓練深度神經網絡以及大量其他事物。

對于剛進入這個領域的人來說,他們提供了一系列視訊以簡化入門階段。您可以選擇免費試用,并親自檢視這款超棒的工具。以上視訊将指導您如何在Watson Studio中建立項目。

14. Automatic Statistician

https://www.automaticstatistician.com/index/
19個超贊的資料科學和機器學習工具,程式設計小白必看!(附資料)

Automatic Statistician本身不是一個産品,而是一個建立資料探索和分析工具的研究機構。它可以采用各種資料,并以其自然語言處理為核心,生成詳細的報告。它由在劍橋和麻省理工學院工作的研究人員開發,并以75萬美元的價格赢得了Google的焦點研究獎。

它目前仍處于積極發展階段,但在不久的将來應該密切關注。您可以在這裡檢視一些關于最終報告的示例。

更多工具

KNIME (

https://www.knime.com/

)- 這個工具非常适合訓練機器學習模型。最初需要習慣,但是一開始使用就會覺得GUI很棒。它産生的結果與大多數工具相同,也是免費的。

FeatureLab (

http://www.featurelab.co/

)- 它允許使用GUI進行簡單的預測模組化和部署。最好的賣點之一是自動進行特征工程。

MarketSwitch (

http://www.experian.com/decision-analytics/marketswitch-optimization.html

)- 此工具更側重于優化而非預測分析。

Logical Glue(

http://www.logicalglue.com/

) - 從原始資料到模型部署的另一個基于GUI的機器學習平台。

Pure Predictive (

http://www.purepredictive.com/

)- 該工具使用有專利的人工智能系統,該系統可以避免部分資料準備和模型調整;它使用AI将1000個模型組合成他們所謂的“超級模型”。

如果你是第一次聽到這些名字,你不是一個人!随着越來越多的資料被收集,自動化機器學習的市場正在擴大。他們在未來幾年會被淹沒在市場中嗎?時間會證明一切。但是,這些優秀的工具可以幫助那些希望開始學習機器學習,或者正在尋找替代方案來添加到他們現有目錄的組織。

結束語

在本文中,我們已經讨論了幾項旨在自動化解決資料科學問題的舉措。其中一些處于初期研究階段,一些是開源的,另一些已經在該行業中應用并有數百萬資金。所有這些都對資料科學家的工作構成了潛在威脅,預計這一工作在不久的将來會大幅增長。這些工具最适合那些不熟悉程式設計和編碼的人員。

原文釋出時間為:2018-07-09

本文作者:AARSHAY JAIN

本文來自雲栖社群合作夥伴“

資料派THU

”,了解相關資訊可以關注“

繼續閱讀