來篇雞湯文吧，教你如何七周内從小菜鳥成長為一名合格的資料分析師

這是一份入門到熟練的指南，并不包含資料挖掘等高階内容。可也足夠讓産品和營運們獲得進步。

第一周：Excel學習掌握

如果Excel玩的順溜，你可以略過這一周。不過介于我入行時也不會vlookup，是以有必要講下。

重點是了解各種函數，包括但不限于sum，count，sumif，countif，find，if，left/right，時間轉換等。

Excel函數不需要學全，重要的是學會搜尋。即如何将遇到的問題在搜尋引擎上描述清楚。

我認為掌握vlookup和資料透視表足夠，是最具成本效益的兩個技巧。

學會vlookup，SQL中的join，Python中的merge很容易了解。

學會資料透視表，SQL中的group，Python中的pivot_table也是同理。

這兩個搞定，基本10萬條以内的資料統計沒啥難度，80%的辦公室白領都能秒殺。

Excel是熟能生巧，多找練習題。還有需要養成好習慣，不要合并單元格，不要過于花哨。表格按照原始資料（sheet1）、加工資料（sheet2），圖表（sheet3）的類型管理。

下面是為了以後更好的基礎而附加的學習任務。

了解單元格格式，後期的資料類型包括各類timestamp，date，string，int，bigint，char，factor，float等。

了解數組，以及怎麼用（excel的數組挺難用），Python和R也會涉及到 list。

了解函數和參數，當進階為程式設計型的資料分析師時，會讓你更快的掌握。

了解中文編碼，UTF8和ASCII，包括CSV的delimiter等，以後你會回來感謝我的。

這一周的内容我會拆分成兩部分：函數篇和技巧篇。

這是一道練習題，我給你1000個身份證号碼，告訴我裡面有多少男女，各省市人口的分布，這些人的年齡和星座。如果能完成上述過程，那麼這一周就直接略過吧。（身份證号碼規律可以網上搜尋）

第二周：資料可視化

資料分析界有一句經典名言，字不如表，表不如圖。資料可視化是資料分析的主要方向之一。除掉資料挖掘這類進階分析，不少資料分析就是監控資料觀察資料。

資料分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰資料詳實的PPT給老闆看。如果沒人認同分析結果，那麼分析也不會被改進和優化，不落地的資料分析價值又在哪裡？

首先要了解常用的圖表：

Excel的圖表可以100%完成上面的圖形要求，但這隻是基礎。後續的進階可視化，勢必要用到程式設計繪制。為什麼？比如常見的多元分析，你能用Excel很輕松的完成？但是在IPython隻需要一行代碼。

其次掌握BI，下圖是微軟的BI。

BI（商業智能）和圖表的差別在于BI擅長互動和報表，更擅長解釋已經發生和正在發生的資料。将要發生的資料是資料挖掘的方向。

BI的好處在于很大程度解放資料分析師的工作，推動全部門的資料意識，另外降低其他部門的資料需求（萬惡的導資料）。

BI市面上的産品很多，基本都是建立儀表盤Dashboard，通過次元的關聯和鑽取，獲得可視化的分析。

最後需要學習可視化和資訊圖的制作。

這是安（裝）身（逼）立（加）命（薪）之本。這和資料本事沒有多大關系，更看重審美、解讀、PPT、資訊化的能力。但值得花一點時間去學習。

資料可視化的學習就是三個過程，了解資料（圖表），整合資料（BI），展示資料（資訊化）。

第三周：分析思維的訓練

這周輕松一下，學學理論知識。

好的資料分析首先要有結構化的思維，也就是我們俗稱的金字塔思維。思維導圖是必備的工具。

之後再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等架構。這些架構都是大巧不工的經典。

分析也是有架構和方法論的，我會主要圍繞三個要點展開：

一個業務沒有名額，則不能增長和分析；

好的名額應該是比率或比例；

好的分析應該對比或關聯。

舉一個例子：我告訴你一家超市今天有1000人的客流量，你會怎麼分析？

這1000人的數量，和附近其他超市比是多是少？（對比）

這1000人的數量比昨天多還是少？（對比）

1000人有多少産生了實際購買？（轉化比例）

路過超市，超市外的人流是多少？（轉化比例）

這是一個快速搭建分析架構的方法。如果隻看1000人，是看不出分析不出任何結果。

優秀的資料分析師會拷問别人的資料，而他本身的分析也是經得起拷問，這就是分析思維能力。需要确切明白的是，一周時間鍛煉不出資料思維，隻能做到了解。資料思維是不斷練習的結果，我隻是盡量縮短這個過程。

第四周：資料庫學習

Excel對十萬條以内的資料處理起來沒有問題，但是網際網路行業就是不缺資料。但凡産品有一點規模，資料都是百萬起。這時候就需要學習資料庫。

越來越多的産品和營運崗位，會在招聘條件中，将會SQL作為優先的加分項。

SQL是資料分析的核心技能之一，從Excel到SQL絕對是資料處理效率的一大進步。

學習圍繞Select展開。增删改、限制、索引、資料庫範式均可以跳過。

主要了解where，group by，order by，having，like，count，sum，min，max，distinct，if，join，left join，limit，and和or的邏輯，時間轉換函數等。

如果想要跟進一步，可以學習row_number，substr，convert，contact等。另外不同資料平台的函數會有差異，例如Presto和phpMyAdmin。

再有點追求，就去了解Explain優化，了解SQL的工作原理，了解資料類型，了解IO。以後就可以和技術研發們談笑風生，畢竟将“這裡有bug”的說話，換成“這塊的資料死鎖了”，逼格大大的不同。

SQL的學習主要是多練，網上尋找相關的練習題，刷一遍就差不多了。

第五周：統計知識學習

很遺憾，統計知識也是我薄弱的地方，可這是資料分析的基礎。

我看過很多産品和營運相關的資料分析文章，沒有多少提及統計知識。這是不嚴謹的。

比如産品的AB測試，如果産品經理并不清楚置信度的含義和概念，那麼好的效果并不意味着真正的好。尤其是5%這種非顯著的提高。

比如營運一次活動，營運若不了解檢驗相關的概念，那麼如何去判别活動在資料上是有效果還是沒有效果？别說平均數。

再讨論一下經典的機率問題，如果一個人獲流感，實驗結果為陽性的機率為90%；如果沒有獲流感，實驗結果為陽性的機率為9%。現在這個人檢驗結果為陽性，他有多少幾率是得了流感？

如果你覺得幾率有50%、60%、70%等等，那麼都犯了直覺性的錯誤。它還和得病的基礎機率有關。

統計知識會教我們以另一個角度看待資料。如果大家了解過《統計資料會撒謊》，那麼就知道很多資料分析的決策并不牢靠。

我們需要花一周的時間掌握描述性統計，包括均值、中位數、标準差、方差、機率、假設檢驗、顯著性、總體和抽樣等概念。

不需要學習更高階的統計知識，誰讓我們是速成呢。隻要做到不會被資料欺騙，不犯錯誤就好。

以Excel的分析工具庫舉例（圖檔網上找來）。在初級的統計學習中，需要了解列1的各名詞含義，而不是停留在平均數這個基礎上。

第六周：業務知識（使用者行為、産品、營運）

這一周需要了解業務。對于資料分析師來說，業務的了解比資料方法論更重要。當然很遺憾，業務學習沒有捷徑。

我舉一個資料沙龍上的例子，一家O2O配送公司發現在重慶地區，外賣員的送貨效率低于其他城市，導緻使用者的好評率降低。總部的資料分析師建立了各個名額去分析原因，都沒有找出來問題。後來在訪談中發覺，因為重慶是山城，路面高低落差比較誇張，很多外賣人員的小電瓶上不了坡…是以導緻送貨效率慢。

這個案例中，我們隻知道送貨員的送貨水準距離，即POI資料，根本不可能知道垂直距離的資料。這就是資料的局限，也是隻會看資料的分析師和接地氣分析師的最大差異。

對業務市場的了解是資料分析在工作經驗上最大的優勢之一。不同行業領域的業務知識都不一樣，我就不獻醜了。在網際網路行業，有幾個寬泛的業務資料需要了解。

産品資料分析，以經典的AAARR架構學習，了解活躍留存的名額和概念（這些内容，我的曆史文章已經涉及了部分）。

并且資料分析師需要知道如何用SQL計算。因為在實際的分析過程中，留存隻是一個名額，通過userId 關聯和拆分才是常見的分析政策。

網站資料分析，可以抽象吃一個哲學問題：

使用者從哪裡來（SEO／SEM），使用者到哪裡去（通路路徑），使用者是誰（使用者畫像／使用者行為路徑）。

雖然網站已經不是網際網路的主流，但現在有很多APP+Web的複合架構，朋友圈的傳播活動肯定需要用到網頁的名額去分析。

使用者資料分析，這是資料化營運的一種應用。

在産品早期，可以通過埋點計算轉化率，利用AB測試達到快速疊代的目的，在積累到使用者量的後期，利用埋點去分析使用者行為，并且以此建立使用者分層使用者畫像等。

例如用貝葉斯算法計算使用者的性别機率，用K聚類算法劃分使用者的群體，用行為資料作為特征建立響應模型等。不過快速入門不需要掌握這些，隻需要有一個大概的架構概念。

除了業務知識，業務層面的溝通也很重要。在業務線足夠長的時候，我不止一次遇到産品和營運沒有掌握所有的業務要點，尤其涉及跨部門的分析。良好的業務溝通能力是資料分析的基礎能力。

第七周：Python/R 學習

終于到第七周，也是最痛苦的一周。這時應該學習程式設計技巧。

是否具備程式設計能力，是初級資料分析和進階資料分析的風水嶺。資料挖掘，爬蟲，可視化報表都需要用到程式設計能力（例如上文的多元散點圖）。掌握一門優秀的程式設計語言，可以讓資料分析師事半功倍，升職加薪，迎娶白富美。

以時下最熱門的R語言和Python為學習支線，速成隻要學習一條。

我剛好兩類都學過。R的優點是統計學家編寫的，缺點也是統計學家編寫。如果是各類統計函數的調用，繪圖，分析的前驗性論證，R無疑有優勢。但是大資料量的處理力有不逮，學習曲線比較陡峭。Python則是萬能的膠水語言，适用性強，可以将各類分析的過程腳本化。Pandas，SKLearn等各包也已經追平R。

學習R，需要了解資料結構（matrix，array，data.frame，list等）、資料讀取，圖形繪制( ggplot2)、資料操作、統計函數(mean,median,sd,var,scale等)。高階的統計暫時不用去涉及，這是後續的學習任務。

R語言的開發環境建議用RStudio。

學習Python有很多分支，我們專注資料分析這塊。需要了解調用包、函數、資料類型(list,tuple,dict)，條件判斷，疊代等。高階的Numpy和Pandas在有精力的情況下涉及。

Python的開發環境建議Anaconda，可以規避掉環境變量、包安裝等大部分新手問題。Mac自帶Python2.7，但現在Python 3已經比幾年前成熟，沒有編碼問題，就不要抱成守舊了。

對于沒有技術基礎的營運和産品，第七周最吃力，雖然SQL＋Excel足夠應付入門級資料分析，但是涉及到循環疊代、多元圖表的分析部分，複雜度就呈幾何上升。更遑論資料挖掘這種高階玩法。

我也相信，未來了解資料挖掘的産品和營運會有極強的競争力。

————

到這裡，剛剛好是七周。如果還需要第八周+，則是把上面的鞏固和融會貫通，畢竟這隻是目的性極強的速成，是開始，而不是資料分析的畢業典禮。

最後還需要補充，如果希望資料分析能力更近一步，或者成為優秀的資料分析師，每一周的内容都能繼續學習至精通。實際上，業務知識、統計知識僅靠兩周是非常不牢固的。

來篇雞湯文吧，教你如何七周内從小菜鳥成長為一名合格的資料分析師

第一周：Excel學習掌握

第二周：資料可視化

第三周：分析思維的訓練

第四周：資料庫學習

第五周：統計知識學習

第六周：業務知識（使用者行為、産品、營運）

第七周：Python/R 學習

繼續閱讀

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

淺談企業活動中進行資料分析的重要性

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Ambari介紹和架構原理

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

win10本地scala和spark安裝安裝scala安裝spark

在python中建立excel并寫入