作者:DataWorks産品經理 張華蕊
一、什麼是資料分析
什麼是資料分析?如下圖所示,該圖描述了資料、資訊與情報的關系。我們從外界環境中采集資料,環境可能是軟體環境,比如業務系統中的日志資料,也可能是硬體環境,比如采集傳感器資料。采集來的原始資料的價值密度通常是比較低的,通過加工、處理、萃取後會得到更有價值的資訊,對這個資訊進一步的分析與生産,就得到了情報。
總的來說,資料分析是以挖掘有價值的資訊并用結論支撐決策為目的,對資料進行探查、清洗、轉換和模組化的過程。資料分析能夠使決策更科學,并幫助企業實作更有效的營運。

資料分析包含以下幾個步驟:
首先是需求分析。先明确需求,比如業務的核心問題是什麼,需要做什麼決策,為了支撐這個決策需要拿到什麼資訊等。
第二步是資料采集。明确了需求後,可以進行資料采集,但這個環節可能會遇到幾個問題。首先是期望的資料可能在技術層面是沒有存儲的,或是有存儲但分散在資料倉庫的不同位置,資料采集需要先解決這些問題。
第三步是資料清洗。采集上來的資料往往是不完整、有重複、有錯值、有空值的,資料清洗就是防止和糾正這些錯誤的過程。
第四步是探索分析。探索分析是借助分析工具對資料完成分析,這個過程中還可能包含機器學習算法的應用。
第五步可視化呈現。當資料分析之後,将會以可視化的方式呈現給需求方。
資料分析包括本地資料分析和線上資料分析。
本地資料分析最常見的是用Excel來做資料分析。但是由于資料分析師需要每周、每月或每個季度去重複分析,是以Excel做資料分析的第一個問題就是效率比較低。 而且用Excel做資料分析,也有性能差的問題,當所需要分析的資料量比較大的時候,性能就成了瓶頸,一個是因為Excel能夠顯示的資料行是有限的,另一個也受制于個人電腦的性能。用Excel做資料分析還有資料孤立的問題,針對單一資料表的分析價值是有限的,而企業更看重把各個業務系統資料拉通的分析結果。最後的問題就是安全風險問題。企業的資料放在本地某個員工的個人電腦上,是很難做到分享和下載下傳過程中的權限控制。
線上資料分析就可以很好的解決上述問題。線上資料分析工具可以做到資料重新整理,進而避免重複操作。例如在DataWorks的資料分析子產品中有一張使用者畫像的分區表,如果9月份對這個分區表進行了透視操作,若10月還想做這個操作,隻要把9月的配置直接複制到10月的分區上就可以高效實作資料更新。
另外,借助計算引擎強大的計算能力,線上資料分析還能對海量的資料進行高效的資料分析。同時可以從不同業務系統的資料庫進行取數分析,打破資料之間的壁壘。DataWorks資料分析子產品還支援将分析結果導出成一張MaxCompute表,或是直接将分析結果分享給其他人,這樣資料就在不同系統和人之間流動起來了。
非常重要的是,使用線上資料分析子產品,使用者不需要把資料下載下傳到本地就可以完成資料分析 ,并且做到分享。這個過程中權限可控,保證了資料的安全。
二、DataWorks資料分析
DataWorks使用者經常會有以下這些疑問:
- 問題一:我有一張表存在MaxCompute/EMR/RDS/…裡,我想對查詢結果做進一步的統計分析,我該怎麼做?
- 問題二:拿到一張别人的表,我怎麼知道裡面有沒有髒資料?隻能跑SQL嗎?DataWorks能做透視分析嗎?
- 問題三:我想手動編輯一張維表,可我不會寫SQL,我該怎麼辦?
這些問題都可以通過DataWorks分析子產品解決。
(一)DataWorks資料分析子產品
以下這張圖展示了DataWorks各個子產品之間是怎麼配合完成資料分析需求的。
首先做資料采集,通過在資料地圖中搜尋本次資料分析所需要的表,并通過表詳情、資料預覽、資料血緣檢視了解資料。然後申請這個表或某個字段的查詢權限,然後使用者就可以去DataStudio做進一步加工,或是選擇去資料分析子產品,使用資料分析中“從資料源查詢”的功能,從資料源直接取數并放入表格裡,然後以表格的形式進行資料探查和透視分析。
總的來說,資料分析适用于資料快速洞察分析,線上編輯和資料可視化子產品;資料分析子產品的三大功能包含電子表格、維表、報表。
(二)電子表格
電子表格是資料分析子產品的核心功能,能夠為使用者提供進行取數、探索、分享的個人空間。它以電子表格為主體,可以支援常見的表格功能,讓使用者可以快速上手。
電子表格具有以下功能:
- 支援從本地/資料源導入資料
- 個人視角查詢工作台
- 資料探查
- 資料透視
- 分析結果可固化為MaxCompute表,也可以分享
(三)電子表格-從資料源查詢功能
從資料源查詢功能支援豐富的資料源類型,當把某個資料源添加進來,可以查詢字段結構或生成資料預覽;通過輕按兩下或拖拽的方式可以快速生成查詢語句,點選運作就能生成資料查詢結果。它的編輯器是智能編輯器,可以智能地提供補全、高亮提示、智能糾錯等功能;查詢代碼可以儲存下來,并且運作曆史也可以追溯。
(四)電子表格-資料探查功能
拿到資料後,可以借助資料探查功能來快速地洞察資料。這個功能對各個字段值的分布做統計,幫助使用者快速掌握資料分布情況;并且支援概覽模式和詳細模式,并且支援資料篩選和多級下鑽,能夠幫助使用者判斷這些資料是否需要做資料清洗,明确清洗目的。
(五)電子表格-透視功能
透視功能是資料分析師常用的功能,電子表格支援本地透視和資料源透視兩種,也就是說可以對電子表格裡面的資料進行透視,也可以直接對資料源的全量資料進行透視。透視功能的次元支援自定義排序,數值類型可以分組,透視配置支援複制。
(六)電子表格-儲存與分享
電子表格的儲存與分享支援模闆功能,意思是使用者可以首先把電子表格儲存成一個模闆,再建立的時候就可以直接從這個儲存的模闆裡建立。同時也可以把分析的結果固化成為一張MaxCompute表,直接生成建表語句,并且把資料插入到表裡。當需要分享電子表格的時候,可以指定人或權限。
(七)維表
維表是一個簡單高效的表編輯工具。在日常工作中,營運同學常常需要去維護一張線上的MaxCompute表,一般情況他需要找研發同僚建立一張MaxCompute生産表來進行維護,而每一次資料更新都需要找研發同僚重複這個建立生産表的過程,不僅涉及人員多,而且效率低。
使用維表後,營運同學就可以直接用可視化方式自己建一張MaxCompute生産表,對字段進行命名和描述,點選确認就能生成一張線上的表。表生成後,可以把本地資料導入到表裡,也可以直接在表上寫資料。無論是寫資料還是修改,都可以直接在維表中進行,這樣就縮短了整個操作鍊路,提高工作效率。
(八)報表
報表是可視化呈現的工具,它提供多種報表元件,使用者可以通過拖拽元件來完成報表的搭建。搭建完成後,可以把整個報表分享給其他人。
資料分析介紹及實踐請參考:
https://developer.aliyun.com/learning/course/81/detail/1232DataWorks官網:
https://www.aliyun.com/product/bigdata/ide大資料&AI體驗館:
https://workbench.data.aliyun.com/experience.htm