天天看點

大資料時代,資料科學家的一天是如何配置設定的?

資料科學家的一天是如何配置設定的?

不言而喻,資料科學家的大部分時間都在和資料打交道。不過,面對面的交流、開會也是一個相當重要的組成部分,這一點可能不太容易想到。

資料科學家tanu george表示,一天通常以會議開始,這些會議可能有着不盡相同的目的,比如确定客戶的業務問題,跟蹤進展或讨論報告。會議結束後,要開始進行資料處理,主要集中解決會議中提到的問題。下午繼續開會,展示資料處理結果,在一天快結束的時候,需要通過電子郵件共享分析結果。

george每天大約50%的時間在開會中度過,20%用于工作,20%用于解釋資料處理結果,包括可視化以及将資料轉化為可操作的形式。ryan rosario也是一名資料科學家,同時是線上教育網站springboard的老師,對他來說,和客戶開會也是一個非常重要的組成部分。很多時候,他都在考慮客戶需要哪種類型的資料。大部分情況下,客戶是沒有資料的也不知道通過哪種途徑得到資料,而他需要根據客戶的需求制定計劃,進而得到資料。

大部分資料科學家并不是與單個資料打交道,而是試圖了解對客戶或公司來說,資料意味着什麼。人們很喜歡通過分析資料來做決策,但有時并沒有合适的資料。作為資料科學家,需要學會篩選合适的資料,運用恰當的資料分析方法,幫助客戶做出正确的決策。

工作中最喜歡的部分

george表示,會議是她一天中最喜愛的部分。作為facebook機器學習的工程師,rosario認為資料往往是混亂的,或者隻有某個特定軟體可以了解。作為資料科學家,需要把資料轉換成友善了解的格式,他很喜歡向人們展示資料可以做什麼。許多人都知道他們需要資料,但他們不知道具體需求是什麼,而資料科學家需要像魔術師一樣,打開客戶的思維可能性。另一位資料科學家long喜歡很多部分,包括研究問題背景的初始階段以及找出擷取資料的方法。

如何成為資料科學家?

要想成為資料科學家需要做很多方面的努力,現在幾乎所有公司的資料都會開放api,而python的資料處理能力強大且友善,如果你想成為資料科學家,可以考慮從python入手。此外,統計學習、資料處理、統計學和計算機科學可能都會涉及。有人可以通過讀書很好的學習,但最好的學習方法還是将知識付諸實踐。

下一站應該做什麼?

随着物聯網的發展,george認為未來一定會有更多的資料出現。越關注主流資料就意味着有越多的工作要做。rosario認為,物聯網和流媒體資料将是下一個前沿,資料安全是急需解決的重大問題。資料科學家往往希望成為“獨角獸”,這意味着他們想要盡一己之力,解決所有的編碼、資料操作、資料分析等工作。術業有專攻,很難有人可以掌握所有東西,但不同的人可以掌握不同的技術。

有哪些建議?

想要做資料科學,rosario認為至少得是碩士學位。對于遇到的問題,應該試圖找到方法并解決它,可以試着從類似于kaggle的網站尋找資料集,并找出解決方案。

大資料時代,是不是每家公司都需要資料科學家呢?這當然因公司而異,由于目前的軟體技術和算法變得越來越先進,無需人力成本的投入就可以完成資料組織和營運。這些高科技手段對企業而言是利好消息,因為企業可以減少做資料科學方面的成本,但資料科學家的就業前景還是不錯的,資料科學家也應為企業解決難題,為企業帶來價值。

本文轉自d1net(轉載)