本節書摘來自異步社群《資料科學與大資料分析——資料的發現 分析 可視化與表示》一書中的第1章,第1.3節,作者【美】emc education services(emc教育服務團隊),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
在1.2.4節介紹的大資料生态系統中,新的生态參與者已經湧現,進行資料的策劃(curate)、存儲、生産、清除和處理。此外,為了應對日益複雜的業務問題,就需要采用更先進的分析技術,這就推動了新角色、新技術平台和新分析方法的出現。本節将介紹可以解決這些需求的新角色,在後續章節還會介紹一些分析方法和技術平台。
如圖1.12所示,大資料生态系統需要三類角色。在麥肯錫2011年5月釋出的“大資料全球研究”報告中對這些新角色進行過描述。

第1類:深層分析人才。這類人才精通技術,具有較強的分析能力。他們擁有多項技能,具有處理原始資料和非結構化資料的能力,并且可以應用複雜的大規模分析技術。這類人深入學習過各種量化學科,比如數學、統計學和機器學習。這類人所做的工作一般是在一個強大的分析沙箱或者工作區中進行大規模的資料分析實驗。符合這個群體的職業包括統計學家、經濟學家、數學家和新興的資料科學家。
麥肯錫研究報告預測,到2018年美國将會有14萬到19萬個深層分析人才的缺口。這并不是指市場所需要的深層分析人才的總量,而是表示市場人才需求量和市場可用人才的缺口。這個預測隻是反映了美國人才的短缺,相信這個數字在全球範圍内會更大。
第2類:資料專業人員。這類人才技術深度較淺,但是具有統計學或機器學習的基本知識,能夠定義那些使用進階分析可以回答的關鍵問題。該組成員通常具有處理資料的基本知識,而且了解一部分資料科學家和其他深層分析人員所做的工作。資料專業人員包括金融分析師、市場研究分析師、生命科學家、營運經理以及業務和職能部門的經理。
麥肯錫研究報告預測,到2018年美國将會有150萬資料專業人員的缺口,這個數字是深層分析人才缺口的10倍。經理、董事和上司者們需要開始具備一定的資料專業專員的素質,這樣他們才能擁有更寬闊的視野,知道哪些問題可以使用資料來解決。
第3類:技術和資料支援人員。這類人才掌握的專業技術知識可以用于支援分析項目,例如,配置和管理分析沙箱,以及管理企業和其他組織内的大規模資料分析架構。這類人員需要具備計算機工程、程式設計和資料庫管理相關的技能。
這三類人群隻有緊密合作才能解決大資料所帶來的複雜挑戰。大多數組織機構對報告中提到的後兩類人比較熟悉,但是對第一類人(深層分析人才)了解不多。關于深層分析人才,本節将重點介紹資料科學家這一新的角色,講解資料科學家具體要做什麼和所需要掌握的技能。
下面是資料科學家經常進行的3類任務。
将業務的挑戰轉化為分析的問題。具體而言,就是剖析業務問題,考慮問題核心,并判斷哪種分析方法可以用來解決問題。這個概念将在第2章中進一步講解。
設計、實施、部署大資料的統計模型和資料挖掘技術。這類任務也是通常人們了解中的資料科學家的職責:運用複雜或進階的分析方法和資料來解決各種業務問題。本書第3章到第11章将詳細介紹業界流行的幾種分析技術和工具。
産生能被用于指導實踐的洞見。需要注意的是,使用進階方法解決資料問題本身不一定會帶來新的商業價值。重要的是要能夠從資料中分析出有效見解并進行有效傳播。第12章将簡述如何實作這一點。
資料科學家通常應該具備以下5項主要技能和行為特征,如圖1.13所示。
量化分析技能:比如數學或者統計學。
技術能力:比如軟體工程、機器學習和程式設計技能。
懷疑性的和批判性的思維:資料科學家需要以全面的方式仔細檢查自己的工作,這一點非常重要。
好奇心和創造力:資料科學家應該熱衷于資料,尋求創造性的方式來解決和描述資訊。
溝通和協作能力:資料科學家必須能夠清晰地闡述資料項目能帶來的商業價值,并具備和他人(包括項目出資人和利益相關者)協作的能力。
一般而言,資料科學家習慣于使用上述技能來擷取、管理、分析和可視化資料,然後再就資料講令人信服的故事。下節将講解幾個大資料分析案例,看看資料科學家如何利用大資料來創造新價值。