天天看點

研究了數千個線上課程,我整理了一份資料科學入門課清單

研究了數千個線上課程,我整理了一份資料科學入門課清單

一年前,我退出了加拿大最好的計算機科學項目之一,利用線上資源開始建立屬于自己的資料科學碩士課程。我意識到我可以通過edx, coursera,以及udacity學習我所需要的一切,而且學的更快、效率更高,學費更低。

研究了數千個線上課程,我整理了一份資料科學入門課清單

資料可視化:alanah ryding

現在我差不多快要完成了。我上了很多資料科學相關的課程,旁聽過更多課程的部分内容。我知道對于一個準備成為資料分析師或資料科學家的初學者來說有哪些選擇,以及什麼樣的技能是必需的。幾個月前,我開始建立一個用評價驅動的指南,用來為資料科學中的每個主題推薦最佳課程。

如果你不确定資料科學課程入門涵蓋什麼,這篇文章将向你介紹。

研究了數千個線上課程,我整理了一份資料科學入門課清單

為了制作這份指南,我花了10多個小時設法識别了截止2017年1月所有的資料科學的線上入門課程,從它們的大綱和評價中提取關鍵資訊,并為它們編制評級。除了開源的class central 社群和它數以千計的課程評分及評論的資料庫,我沒有借助其他任何幫助。

class central的首頁

自2011年以來,class central的創始人dhawal shah無疑比世界上的任何其他人都關注線上課程。他親自幫我列出了這份資源清單。

如何挑選入圍課程

每門課程必須滿足三個标準:

它必須教授資料科學過程(data science process),稍後會做出解釋。

它必須随需應變或每幾個月就推陳出新。

它必須是互動的線上課程,而不是書本或隻能閱讀的教材。雖然學習有很多種方式,但是這份指南主要專注于課程。

我們确信這個指南已經涵蓋了滿足以上三個标準的所有重要課程。udemy上有上百種課程,是以我們隻選擇那些評論最多和評分最高的課程。然而,我們仍然有可能百密一疏。是以如果我們漏掉了哪個不錯的課程,請在評論區裡告知。

我們如何評估課程

我們彙總從class central和其他評論網站得來的平均評級和評論數量,來計算每門課程的權重平均評分。同時我們閱讀文本評論,并将其作為資料評分的補充。

我們基于以下兩點對教學大綱進行主觀判斷:

資料科學過程的覆寫面。課程是否将某個主題簡略帶過或幹脆跳過不說?是否對某個主題又傾注了太多的細節?在下個章節可以看到這些過程的具體内容。

通用資料科學工具的使用。課程是不是使用python和/或r語言等主流程式設計語言?雖然這些并不是必須的,但多數時候有益,是以我更偏愛這類課程。

研究了數千個線上課程,我整理了一份資料科學入門課清單

python和r語言是資料科學領域最主流的兩種程式設計語言

資料科學過程(data science process)是什麼?

資料科學是什麼?資料科學家做些什麼?這是資料科學入門課程需要回答的基本問題。下面這張來自哈佛大學教授joe blitzstein和hanspeter pfister的示意圖,概述了典型的資料科學過程,可以幫助我們回答這些問題。

研究了數千個線上課程,我整理了一份資料科學入門課清單

可視化來自于opera solutions

我們對于資料科學入門課程的目标是熟悉資料科學過程,并不想對過程的某個方面涉入過深,這也是為什麼标題使用了“入門”字眼的原因。

對于每一方面,理想的課程都會在過程的架構内解釋關鍵概念,介紹常用工具,并提供一些案例(動手操作會更好)。

我們隻搜集入門課程,是以這份指南并不包括像約翰霍普金斯大學在coursera的data science specialization或是udacity上的data analyst nanodegree這樣的專項課程或項目。這些課程的彙編與這份指南的目的相悖:為資料科學教育尋求每個方面最好的單獨課程。本系列文章的最後三份指南,将詳細介紹資料科學過程中的每個方面。

基本的程式設計、統計和機率背景是必須的

下面列出來的一些課程需要基礎的程式設計、統計和機率背景。這個要求很容易了解,因為新的内容為進階階段,而且這些主題經常要用到這些背景知識。

這些背景知識可以在這份我們推薦的資料科學就業指南的前兩章(程式設計,統計)中獲得。

我們認為最好的資料科學入門課程是——

資料科學從a到z:現實生活中的資料科學(含練習)(kirill eremenko/udemy)

在我們評估的20多門資料科學課程中,kirill eremenko在udemy上的“資料科學從a到z”不管從廣度還是深度上來說都是當之無愧的赢家。它擁有3071條評論,4.5星的權重平均評分,是評分最高、評論最多的入圍課程。

它概述了完整的資料科學過程,并提供了真實案例。視訊内容為21小時,長度剛好。評論者們喜歡導師的講解方式和内容組織方式。價格經常會跟着udemy的優惠而變化,是以你也有可能以10美金的低價購買到該課程。

雖然它并不滿足我們“使用通用資料科學工具”的評估原則,但是非python/r工具的應用(gretl, tableau, excel)也都算恰如其分。eremenko在解釋他為什麼用gretl(一種統計軟體包)時說了以下這段話,這個解釋也适用于他所使用的其他工具(敲黑闆劃重點!):

使用gretl,我們可以像在r和python中一樣模組化,但卻不必程式設計。這很重要。你們中的一些人可能已經很熟悉r語言,但還有一些人可能不。而我的目标是向你們展示如何建立穩定的模型,并且給你一個可以應用于任何工具的架構。gretl能夠幫助我們避免于糾結程式設計。

一個著名的評論者是這樣寫的:

研究了數千個線上課程,我整理了一份資料科學入門課清單

kirill是我線上上發現的最好的老師。他通過生活中的案例向你解釋一些常見問題,這樣你就能對課程作業有更深的了解。他還提供了很多關于作為一個資料科學家意味着什麼的洞見,從如何處理不充分的資料到向進階管理層彙報工作等。我強烈建議初級和中級資料分析師們學習這門課程。

“資料科學從a到z”預覽視訊

專注于python的精品入門課程

資料分析入門(udacity)

udacity的資料分析入門(intro to data analysis)是門新上線的課程,是受歡迎的data analyst nanodegree系列中的一部分。雖然在模組化方面有所欠缺,它仍然清晰地涵蓋了使用python的資料科學過程。預估課程時間是36個小時(跨度六周,每周六小時),盡管以我個人經驗看會更短。它僅有1個5星好評(譯者安:現在有兩個),并且免費。

該課程的視訊制作精良,導師(carolinebuckey)思維清晰、風度翩翩,有大量的程式設計小測驗可以強化人們在視訊中學到的概念和知識。課程完成後,學生們會為他們新學和/或提高的numpy和 pandas(這兩個都是流行的python庫)技能感到自信。最後的作業(在這個單獨的免費課程中沒有,但是會在nanodegree中得到評分和評估)是一個很好的額外補充。 

udacity導師caroline buckey

概述了資料分析過程(也叫資料科學過程)

一門很不錯卻沒有評價資料的課程

資料科學基礎(大資料大學big data university)

資料科學基礎是由ibm的大資料大學(big data university)提供的有四門課的系列課程。這四門課分别是資料科學101、資料科學方法論、使用開源工具開始學習資料科學,以及r語言 101。

它涵蓋了整個資料科學過程,并介紹了python、r以及其他開源工具。課程的實用價值驚人。估計需要13-18小時學習時間,具體取決于你是否參加最後一門“r 101”。當然,從這份指南的目的來說,這門課也不是必須。不幸的是,我們用于這次分析的主要評論網站上竟然一個評價都沒有,是以我們無法基于評論做出評價,不過這個課程是免費的。 

來自大資料大學(big data university)

資料科學101課程(資料科學基礎系列課程)

第一子產品的視訊

第一名是權重評分4.5星評論超過3068條的課程。下面我們按評分降序排列來看看其他值得一學的課程。如果你對r語言感興趣,你還能在下面找到重點教授r語言的課程。

python資料科學與機器學習訓練營(jose portilla/udemy):着重于介紹工具使用(python),課程覆寫了資料科學的全過程,較少關注流程本身,更關注對python的細節介紹。雖然并不完全符合本文的讨論範圍,但依然是很贊的課程。和下面介紹的jose的r課程一樣,該課程同時介紹了python/r和資料科學。該課程包含21.5小時的學習内容,1644條評價,綜合評分4.7。課程價格取決于udemy的打折力度,經常變化。

r語言資料科學與機器學習訓練營 (jose portilla/udemy):着重于工具使用(r),課程覆寫了資料科學的全過程。較少關注流程本身,更關注對r的細節介紹。雖然并不完全符合本文的讨論範圍,但依然是很贊的課程。和上面介紹的python課程一樣,該課程同時介紹了python/r和資料科學。該課程包含18小時的學習内容,847條評價,綜合評分4.6。課程價格取決于udemy的打折力度,經常變化。

研究了數千個線上課程,我整理了一份資料科學入門課清單
研究了數千個線上課程,我整理了一份資料科學入門課清單

jose portilla在udemy上

設定了兩個分别使用python

和r的資料科學與機器學習的訓練營

python資料科學和機器學習(實戰)(frank kane/udemy):僅涵蓋部分知識點。專注于統計學和機器學習,長短适宜(約9個小時),語言為pyhton。該課程擁有3104條評論,綜合評分4.5。課程價格取決于udemy的打折力度,經常變化。

資料科學入門(data hawk tech/udemy):課程覆寫了資料科學的全過程,但深度有限,相當簡短(僅3個小時),包含簡單的r和python介紹。該課程有62條評論,綜合評分4.4。課程價格取決于udemy的打折力度,經常變化。

資料科學應用入門(雪城大學/open education by blackboard):課程覆寫了資料科學的全過程,但不夠均衡。該課程重點關注基礎統計學和r語言,特别注重應用不夠關注資料科學的過程,與本指南的宗旨不符。線上課程體驗不夠連貫。該課程有6條評論,綜合得分4.33,免費。

資料科學入門(nina zumel & john mount/udemy):僅涵蓋部分知識點,但在資料清洗和模組化方面講解深度到位。課程長度适中(6小時),使用的是r語言。該課程有101條評論,綜合得分4.3分。課程價格取決于udemy的打折力度,經常變化。

使用python的資料科學應用(v2 maestros/udemy):課程覆寫了資料科學的全過程,并且課程設定的每個方面都有相當的深度。長短适宜(8.5小時),使用的語言為python。該課程有92條評論,綜合評分4.3分。課程價格取決于udemy的打折力度,經常變化。

研究了數千個線上課程,我整理了一份資料科學入門課清單

v2 maestros的資料科學應用課程

有兩個版本,一個使用python,一個使用r。

想成為資料科學家?(v2 maestros/udemy):課程覆寫了資料科學的全過程,但是課程深度有限。課程時間很短(3小時),涉及的工具有限。該課程獲得790條評論,綜合評分4.3分。課程價格取決于udemy的打折力度,經常變化。

洞見資料:資料分析入門(奧克蘭大學/futurelearn):暫不清楚課程覆寫廣度。該課程宣稱專注于資料探索、發現和可視化。不按需提供課程内容,課程内容為24小時(每周3個小時,總共8周)。累該課程獲得2條評論,綜合評分4分。課程免費,可付費獲得認證證書。

資料科學入門教育訓練(microsoft/edx):僅覆寫部分知識點(缺少資料模組化部分)。使用的是excel,鑒于這是微軟認證的課程,也可以了解。課程包含12-24小時的内容(每周2-4小時,總共6周)。該課程獲得40條評論,綜合評分3.95。課程免費,可付25美元獲得認證證書。

資料科學基礎 (微軟/edx):課程覆寫了資料科學的全過程,并且每個部分都有相當的深度。課程涵蓋了r、python以及azure ml(微軟的機器學習平台)。有很多1星評價給到該課程使用的糟糕的工具(azure ml))以及導師差勁兒的授課能力。該課程獲得67條評論,綜合評分3.81分。課程免費,但想要認證證書需要支付49美元。

研究了數千個線上課程,我整理了一份資料科學入門課清單

上面兩個課程來自于微軟的

在edx上的“資料科學專業認證”

使用r語言的應用資料科學 (v2 maestros/udemy):與之前v2 maestros的python課程類似。課程覆寫了資料科學的全過程,并且有相當的課程深度。課程長度适宜(11小時),使用的語言為r語言。該課程有212條評論,綜合得分3.8。課程價格取決于udemy的打折力度,經常變化。

資料科學入門(udacity):僅覆寫部分知識點,雖然覆寫的課程具有相當的深度。該課程缺少資料探索部分,盡管udacity在探索性資料分析(eda)方面提供一個高品質的完整課程。該課程要求48小時的學習時長(每周6小時,總計8周),但以我的經驗來說實際會比48小時短。有評論認為課程缺乏進階内容。感覺講述比較零散,使用的語言為python。該課程有18個評論,綜合得分3.61。課程免費。

使用python的資料科學入門(密歇根大學/coursera):僅涉及部分知識點。缺少模組化和可視化部分,盡管在課程“專注python的應用資料科學”的#2和#3部分覆寫了這兩部分内容,但是學習所有三門課程對于本文來說過于深入了。使用的語言是python。課程時長為4周。該課程有15條評論,綜合得分3.6分。包含免費和付費選項。

研究了數千個線上課程,我整理了一份資料科學入門課清單

密歇根大學在coursera上教授

“專注python的應用資料科學”

資料驅動決策 (普華永道/coursera):僅涉及與商業有關的部分知識(缺少模組化部分)。介紹了多種工具,包括r、python、excel、sas以及tableau。課程時長4周,獲得2條評論,綜合得分3.5分。包含免費和付費選項。

資料科學速成(約翰霍普金斯大學/coursera):對資料科學全過程的一個非常簡明的概括。但對本指南來說太過于簡明了。課程時長2個小時。該課程得到19個評論,綜合評分3.4分。包含免費和付費選項。

資料科學家的工具箱(約翰霍普金斯大學/coursera):對資料科學全過程的一個非常簡明的概括。可看作是針對johns hopkins大學資料科學專業的基礎課程。宣稱的課程時長為4-16小時(每周1-4小時,總共4周),但有評論提到該課程2小時即可完成。該課程獲得182個評論,綜合評分3.22分。包含免費和付費選項。

資料管理與可視化(衛斯理大學/coursera):僅涉及部分知識(不包含模組化)。課程時長4周,高價值産出。使用python和sas。該課程有6條評論,綜合得分2.67分。包含免費和付費選項。

下列課程截至2017年1月沒有任何評論。

cs109 資料科學(哈佛大學):課程覆寫了資料科學的全過程并有不錯的課程深度(對于本指南來說可能有點過于深奧了)。該課程是完整的12周大學生課程。課程方向很難,因為起并不是針對線上教學而設計的。這是哈佛大學課程的實際錄像。以下資料科學流程資訊圖就來源于該課程。使用的是python,沒有評論資料,課程免費。

研究了數千個線上課程,我整理了一份資料科學入門課清單

圖檔來源于harvard cs109的首頁

商業資料分析入門 (科羅拉多大學博爾德分校/coursera):僅涉及部分知識點(缺少模組化和可視化部分),重點關注商業。在他們的課程中,資料科學過程被稱為“資訊-行動價值鍊”(“information-action value chain”)。課程時長為4周。課程講述了不少工具,但僅深度覆寫了sql。沒有評論資料,包含免費和付費選項。

資料科學入門(lynda):課程覆寫了資料科學的全過程,但是深度有限。時長很短(3小時)。課程介紹了r和python。沒有評論資料。具體課程費用由lynda決定。

原文釋出時間為:2014-04-23

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号