本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第3章 ,第3.1節,紀賀元 著 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
3.1.1 要足夠“複雜”
先說一個跟客戶接觸的例子。一個國企學員課間休息時來問我:“老師,我們上司經常批評我,說我們寫的工作報告(資料報告)太簡單了,你能看看我們寫的報告嗎?”我到他電腦前面看了一下,報告确實挺簡單的,感覺就是幾百個字吧,再看看資料,大概隻有6列的樣子,難怪上司不滿意。
可見,在采集資料的時候,必須要注意資料的複雜性,如同1.1節所說,要綜合考慮資料量、複雜度、顆粒度等因素。
都說通過執行個體說明體會更深,下面再來看另一個例子。數年前,我參與了一家建築塗料公司發展規劃的制作,該公司希望通過對各種資訊資料進行分析,進而對未來5年中國的産品發展市場佔有率有一個整體規劃和了解。
讓我們看看他們收集了哪些資料,如圖3-1所示。

可以看到,要收集的資料不少,但事實上,想要搞清楚企業在未來數年中可能出現的市場态勢,即使這些資料都能夠順利找到,可能仍然是不夠的。
“細”實際上就是顆粒度的意思,稍微有點資料收集經驗的人大概都知道,要收集年度的資料其實相對比較容易,如果粒度為季度,可能就會有點問題了,到月則很難了,至于每周的資料,那就更不要想了。
不過,也不是每個公司都如此,曾有證券公司做定量分析的人說過,證券資料分析雖然不好做,但是有一點好,起碼不用為資料發愁,因為證券系統可以提供最細到1分鐘的資料,自然,任何周期的資料和名額都可以自己計算得出。
這裡講的“跨度”涉及兩個方面,一是資料的時間跨度;二是資料的屬性跨度。
中國有句老話就是“路遙知馬力,日久見人心”,在資料方面也是如此。資料的時間跨度有時候也稱為“資料年齡”,對于同樣的資料名額而言,若“資料年齡”分别為5年和1年,差距其實是挺大的。資料年齡越長,往往越能說明問題。
屬性跨度稍微難了解一點,實際上就是盡量要找不同的資料,如圖3-1,我們找了宏觀經濟的資料,例如gdp、經濟發展增速;也找了全國人口變遷、流動的資料,還找了競争對手市場占有率的資料等。總之,所找的資料越“雜”,資料跨度就越大,往往也就越能說明問題。
資料收集的一個重要思考次元就是可行性,做過資料采集的人都知道,有時候資料采集的難度之大,會讓你覺得這個事情都做不下去了。
我供職過的企業曾經給中國移動的幾個省分公司做過供應商,有一次a省分公司讓我們了解移動客戶的情況,并且給出了一個“客戶畫像”(這在當時是一個流行的術語,直到現在還有客戶提及),那個時候不像現在,手機号碼是實名制的,當時中國移動的各個省分公司的全球通手機号比例一般都在20%以下,大部分的手機使用者都是神州行和動感地帶的,我們根本不知道使用者特征,甚至不知道客戶的性别。這種情況下,要進行資料收集是很困難的。
還有一個是營銷活動資料的收集案例,我們曾經為中國移動的某省分公司收集過營銷活動的資料,目的是想知道移動做了營銷活動之後,客戶的反應情況。當時移動做業務營銷的主要方式是短信群發,判斷客戶對營銷活動有反應的終極标準是客戶訂制了該業務,當然也有一些客戶是到移動營業廳或撥打移動客服号1860(當初的客服号,現在改成10086)咨詢了該業務。可以想象,在當時的條件下收集這樣的資料是何其困難。