如何成為一個資料科學家?不少剛剛接觸這個領域的探索者都在尋找一條盡可能正确的道路。
ok, 這條道路确實不是無迹可尋的。雖然并不簡單,但是,通過科學的規劃和足夠的時間投入,資料科學家可以通過很少的花費煉成。
接下來的這張精美的可視化長圖從什麼是資料科學家說起,然後詳細介紹煉成資料科學家的8個步驟。拿好不謝~
首先,什麼是資料科學家?資料科學,是一個多學科知識的交集,甚至包括黑客技巧。資料科學家,是比軟體工程師更擅長統計學,比統計學家更擅長軟體工程的人。目前,資料科學家的典型教育背景是:高中5%,技校5%,大專14%,大學37%,碩士/專業學位31%,博士9%。
第一步:學好統計、數學和機器學習
數學:可汗學院(khan academy)的數學,mit公開課的線性代數;統計學:udacity和openintro;機器學習:stanford線上中吳恩達(andrew ng)的機器學習,coursera上john hopkins的實用機器學習
第二步:學習編寫代碼
掌握計算機科學的基礎知識;掌握從頭至尾的開發過程(end-to-end development),因為你做的東西終将被整合到其它系統中;确定你的首選程式設計語言,開源的r , python等,商業軟體sas, spss等。用datacamp, tryr, codecademy和google class進行互動式學習。
第三步:了解資料庫
作為學生,你會經常與文本資料打交道。但是,一旦進入該領域,你會發現該領域幾乎都是用資料庫存儲資料,如mysql, postgres, couchdb, mongodb, cassandra等。
第四步:掌握資料整理、可視化和報表制作
1)資料整理,是将原始資料轉換成友善實用的格式。可自學coursera中john hopkins的getting and cleaning data課程,實用工具有datawrangler和r。
2)資料可視化,是建立和研究資料的視覺表現。實用工具有ggvis, d3, vega。
3)資料報表,作為資料分析的最後一步,是将資料分析和結果制作成易于了解的報告。實用工具有tableau, spotfire和r markdown。
第五步:提升到大資料級别
當你開始處理網絡級規模的資料時,資料分析的基本方法和過程就都改變了。絕大多數的資料科學家要解決的問題,都無法在單機上完成。他們面對的是需要分布式處理的大型資料集,使用的工具是hadoop,mapreduce,apache spark。
第六步:獲得經驗、實踐,結交大牛
[古人雲:]熟能生巧!你可以參加比賽,結交資料科學專家,通過小項目小試牛刀,培養自己的直覺。
第七步:實習、實戰、或找份工作
甄别自己是不是一個真正的資料科學家的最佳途徑,就是用你新學的知識迎難而上,進入資料分析的叢林。
第八步:關注并參與社群
原文釋出時間為:2016-07-26
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号