這是一份入門到熟練的指南,并不包含資料挖掘等高階内容。可也足夠讓産品和營運們獲得進步。
第一周:Excel學習掌握
如果Excel玩的順溜,你可以略過這一周。不過介于我入行時也不會vlookup,是以有必要講下。
重點是了解各種函數,包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉換等。
Excel函數不需要學全,重要的是學會搜尋。即如何将遇到的問題在搜尋引擎上描述清楚。
我認為掌握vlookup和資料透視表足夠,是最具成本效益的兩個技巧。
學會vlookup,SQL中的join,Python中的merge很容易了解。
學會資料透視表,SQL中的group,Python中的pivot_table也是同理。
這兩個搞定,基本10萬條以内的資料統計沒啥難度,80%的辦公室白領都能秒殺。
Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合并單元格,不要過于花哨。表格按照原始資料(sheet1)、加工資料(sheet2),圖表(sheet3)的類型管理。
下面是為了以後更好的基礎而附加的學習任務。
了解單元格格式,後期的資料類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
了解數組,以及怎麼用(excel的數組挺難用),Python和R也會涉及到 list。
了解函數和參數,當進階為程式設計型的資料分析師時,會讓你更快的掌握。
了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以後你會回來感謝我的。
這一周的内容我會拆分成兩部分:函數篇和技巧篇。
這是一道練習題,我給你1000個身份證号碼,告訴我裡面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過程,那麼這一周就直接略過吧。(身份證号碼規律可以網上搜尋)

第二周:資料可視化
資料分析界有一句經典名言,字不如表,表不如圖。資料可視化是資料分析的主要方向之一。除掉資料挖掘這類進階分析,不少資料分析就是監控資料觀察資料。
資料分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰資料詳實的PPT給老闆看。如果沒人認同分析結果,那麼分析也不會被改進和優化,不落地的資料分析價值又在哪裡?
首先要了解常用的圖表:
Excel的圖表可以100%完成上面的圖形要求,但這隻是基礎。後續的進階可視化,勢必要用到程式設計繪制。為什麼?比如常見的多元分析,你能用Excel很輕松的完成?但是在IPython隻需要一行代碼。
其次掌握BI,下圖是微軟的BI。
BI(商業智能)和圖表的差別在于BI擅長互動和報表,更擅長解釋已經發生和正在發生的資料。将要發生的資料是資料挖掘的方向。
BI的好處在于很大程度解放資料分析師的工作,推動全部門的資料意識,另外降低其他部門的資料需求(萬惡的導資料)。
BI市面上的産品很多,基本都是建立儀表盤Dashboard,通過次元的關聯和鑽取,獲得可視化的分析。
最後需要學習可視化和資訊圖的制作。
這是安(裝)身(逼)立(加)命(薪)之本。這和資料本事沒有多大關系,更看重審美、解讀、PPT、資訊化的能力。但值得花一點時間去學習。
資料可視化的學習就是三個過程,了解資料(圖表),整合資料(BI),展示資料(資訊化)。
第三周:分析思維的訓練
這周輕松一下,學學理論知識。
好的資料分析首先要有結構化的思維,也就是我們俗稱的金字塔思維。思維導圖是必備的工具。
之後再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等架構。這些架構都是大巧不工的經典。
分析也是有架構和方法論的,我會主要圍繞三個要點展開:
一個業務沒有名額,則不能增長和分析;
好的名額應該是比率或比例;
好的分析應該對比或關聯。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麼分析?
這1000人的數量,和附近其他超市比是多是少?(對比)
這1000人的數量比昨天多還是少?(對比)
1000人有多少産生了實際購買?(轉化比例)
路過超市,超市外的人流是多少?(轉化比例)
這是一個快速搭建分析架構的方法。如果隻看1000人,是看不出分析不出任何結果。
優秀的資料分析師會拷問别人的資料,而他本身的分析也是經得起拷問,這就是分析思維能力。需要确切明白的是,一周時間鍛煉不出資料思維,隻能做到了解。資料思維是不斷練習的結果,我隻是盡量縮短這個過程。
第四周:資料庫學習
Excel對十萬條以内的資料處理起來沒有問題,但是網際網路行業就是不缺資料。但凡産品有一點規模,資料都是百萬起。這時候就需要學習資料庫。
越來越多的産品和營運崗位,會在招聘條件中,将會SQL作為優先的加分項。
SQL是資料分析的核心技能之一,從Excel到SQL絕對是資料處理效率的一大進步。
學習圍繞Select展開。增删改、限制、索引、資料庫範式均可以跳過。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等。
如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同資料平台的函數會有差異,例如Presto和phpMyAdmin。
再有點追求,就去了解Explain優化,了解SQL的工作原理,了解資料類型,了解IO。以後就可以和技術研發們談笑風生,畢竟将“這裡有bug”的說話,換成“這塊的資料死鎖了”,逼格大大的不同。
SQL的學習主要是多練,網上尋找相關的練習題,刷一遍就差不多了。
第五周:統計知識學習
很遺憾,統計知識也是我薄弱的地方,可這是資料分析的基礎。
我看過很多産品和營運相關的資料分析文章,沒有多少提及統計知識。這是不嚴謹的。
比如産品的AB測試,如果産品經理并不清楚置信度的含義和概念,那麼好的效果并不意味着真正的好。尤其是5%這種非顯著的提高。
比如營運一次活動,營運若不了解檢驗相關的概念,那麼如何去判别活動在資料上是有效果還是沒有效果?别說平均數。
再讨論一下經典的機率問題,如果一個人獲流感,實驗結果為陽性的機率為90%;如果沒有獲流感,實驗結果為陽性的機率為9%。現在這個人檢驗結果為陽性,他有多少幾率是得了流感?
如果你覺得幾率有50%、60%、70%等等,那麼都犯了直覺性的錯誤。它還和得病的基礎機率有關。
統計知識會教我們以另一個角度看待資料。如果大家了解過《統計資料會撒謊》,那麼就知道很多資料分析的決策并不牢靠。
我們需要花一周的時間掌握描述性統計,包括均值、中位數、标準差、方差、機率、假設檢驗、顯著性、總體和抽樣等概念。
不需要學習更高階的統計知識,誰讓我們是速成呢。隻要做到不會被資料欺騙,不犯錯誤就好。
以Excel的分析工具庫舉例(圖檔網上找來)。在初級的統計學習中,需要了解列1的各名詞含義,而不是停留在平均數這個基礎上。
第六周:業務知識(使用者行為、産品、營運)
這一周需要了解業務。對于資料分析師來說,業務的了解比資料方法論更重要。當然很遺憾,業務學習沒有捷徑。
我舉一個資料沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低于其他城市,導緻使用者的好評率降低。總部的資料分析師建立了各個名額去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…是以導緻送貨效率慢。
這個案例中,我們隻知道送貨員的送貨水準距離,即POI資料,根本不可能知道垂直距離的資料。這就是資料的局限,也是隻會看資料的分析師和接地氣分析師的最大差異。
對業務市場的了解是資料分析在工作經驗上最大的優勢之一。不同行業領域的業務知識都不一樣,我就不獻醜了。在網際網路行業,有幾個寬泛的業務資料需要了解。
産品資料分析,以經典的AAARR架構學習,了解活躍留存的名額和概念(這些内容,我的曆史文章已經涉及了部分)。
并且資料分析師需要知道如何用SQL計算。因為在實際的分析過程中,留存隻是一個名額,通過userId 關聯和拆分才是常見的分析政策。
網站資料分析,可以抽象吃一個哲學問題:
使用者從哪裡來(SEO/SEM),使用者到哪裡去(通路路徑),使用者是誰(使用者畫像/使用者行為路徑)。
雖然網站已經不是網際網路的主流,但現在有很多APP+Web的複合架構,朋友圈的傳播活動肯定需要用到網頁的名額去分析。
使用者資料分析,這是資料化營運的一種應用。
在産品早期,可以通過埋點計算轉化率,利用AB測試達到快速疊代的目的,在積累到使用者量的後期,利用埋點去分析使用者行為,并且以此建立使用者分層使用者畫像等。
例如用貝葉斯算法計算使用者的性别機率,用K聚類算法劃分使用者的群體,用行為資料作為特征建立響應模型等。不過快速入門不需要掌握這些,隻需要有一個大概的架構概念。
除了業務知識,業務層面的溝通也很重要。在業務線足夠長的時候,我不止一次遇到産品和營運沒有掌握所有的業務要點,尤其涉及跨部門的分析。良好的業務溝通能力是資料分析的基礎能力。
第七周:Python/R 學習
終于到第七周,也是最痛苦的一周。這時應該學習程式設計技巧。
是否具備程式設計能力,是初級資料分析和進階資料分析的風水嶺。資料挖掘,爬蟲,可視化報表都需要用到程式設計能力(例如上文的多元散點圖)。掌握一門優秀的程式設計語言,可以讓資料分析師事半功倍,升職加薪,迎娶白富美。
以時下最熱門的R語言和Python為學習支線,速成隻要學習一條。
我剛好兩類都學過。R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大資料量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,适用性強,可以将各類分析的過程腳本化。Pandas,SKLearn等各包也已經追平R。
學習R,需要了解資料結構(matrix,array,data.frame,list等)、資料讀取,圖形繪制( ggplot2)、資料操作、統計函數(mean,median,sd,var,scale等)。高階的統計暫時不用去涉及,這是後續的學習任務。
R語言的開發環境建議用RStudio。
學習Python有很多分支,我們專注資料分析這塊。需要了解調用包、函數、資料類型(list,tuple,dict),條件判斷,疊代等。高階的Numpy和Pandas在有精力的情況下涉及。
Python的開發環境建議Anaconda,可以規避掉環境變量、包安裝等大部分新手問題。Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,沒有編碼問題,就不要抱成守舊了。
對于沒有技術基礎的營運和産品,第七周最吃力,雖然SQL+Excel足夠應付入門級資料分析,但是涉及到循環疊代、多元圖表的分析部分,複雜度就呈幾何上升。更遑論資料挖掘這種高階玩法。
我也相信,未來了解資料挖掘的産品和營運會有極強的競争力。
————
到這裡,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟這隻是目的性極強的速成,是開始,而不是資料分析的畢業典禮。
最後還需要補充,如果希望資料分析能力更近一步,或者成為優秀的資料分析師,每一周的内容都能繼續學習至精通。實際上,業務知識、統計知識僅靠兩周是非常不牢固的。