天天看點

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

作者:經理家manager

#我在頭條搞創作第二期#

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

統計是一門搜集、彙整、分析資料的科學,更是企業常用的分析工具。 亞馬遜(Amazon)能在你浏覽時,推薦你「買了這本書的人也買了這些書」,用的是相關性分析; 美國總統奧巴馬(Barack Obama)的競選團隊,知道哪個版面的網站能讓選民增加捐款金額,利用的是随機對照實驗; 市場調查能用少數人的意見推算出整個市場的看法,依據的是抽樣調查的原理。

達特茅斯學院教授查爾斯. 惠倫(Charles Wheelan)在《聰明學統計的13又1/2堂課》一書中,列舉出學統計的目的,其中包括:

1.分析資料,将資料做出摘要;

2.做出更好的決定;

3.辨識出能提升做每一件事效果的模式;

4.評估政策、計劃與其他創新事項的效用。

聽起來是不是很熟悉? 彙整數字做出決定、找出做事更有效的方法、評估計劃的效用,這些不就是經理人的工作嗎? 别害怕數學,從統計學的幾個入門觀念學起,一步步磨練商業決策的眼光:

1. 大數法則(law of large numbers)

樣本數愈大,樣本的算術平均值就會愈接近母群體的真實數值。

《聰明思考》把它引申用在生活中,意即人們對某件事的觀察,可以當作是從母群體中抽樣,例如今天A餐廳真難吃、某候選人的面試表現佳,要了解這些評估是否正确,必須要有夠多的樣本,也就是更多的資料輔助判斷。

以聘雇人才來看,面試隻能呈現候選人的片段資訊(部分樣本),未必能得到對方完整的圖像,建議搭配筆試、書面資料做綜合判斷。 值得注意的是,樣本數愈大也不一定愈接近真實,要留意「抽樣偏誤」問題,也就是樣本要能夠真實反映母體。 如果調查工廠中偏好彈性工時的員工,隻調查業務部門的員工,就有抽樣偏誤狀況,要對調查結果的可性度存疑。

2. 平均數(average)

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

客單價就是消費産業最重視的平均值之一,以銷售總額÷來客數。 客單價的重要性在于,提高客單價就能在來客數(分母)相同的情況下,拉高營業額(分子)和利潤。 百貨公司的周年慶滿千送百、便利商店推出的集點活動,都是為了拉高客單價所進行的促銷活動。

3. 中位數(median)

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

中位數的優點是可以去除極端值得影響。 舉例來說,百貨公司新引進了一個超高檔品牌,拉高了整層樓的平均營收,看起來好像整層樓的業績成長,但是如果将各專櫃的營收由小而大排列,從中位數就可知道,大部分品牌的營收其實沒有成長。

4. 衆數(mode)

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

平均數、中位數和衆數都是用來描述資料的方法,衆數也不受極端值的影響,最适合用來表達具有「集中」趨勢的資料。 比方說,制鞋廠從客戶的銷售資料中發現,銷量最高的鞋子尺碼是23.5号(衆數為23.5,此時計算鞋碼的平均數和中位數都沒有意義),是以鞋廠應該集中資源生産23.5号的鞋。

5. 機率(probability)

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

機率是用 0~1 來表示事件的可能發生的程度:0 代表不會發生,全部的可能性加起來為1。

以棒球為例,打者的打擊率為三成,表示他有三成機會打出安打,七成機會沒打出安打,而安打加沒有安打的機率應該等于 1。 擲一次骰子,可能出現1到6點,出現任一點的機會為1/6,全部的可能性加起來等于1。 機率适合用來規劃工作程序、預測業務進度,避免做出過于樂觀的判斷。

假定廣告公司内部提案的通過率為七成,通過的案子馬上被客戶接受的機率是五成,這表示每一個提案要獲得公司内部與客戶認可的機率是 0.7x0.5=0.35。 用機率的方式思考,由于提案成功率隻有三成五,是以提案時應該要多準備幾個備案; 而提3件案子隻通過1件,也都屬于正常情況,用不着氣餒。

6. 期望值(expected value)

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

期望值是機率的應用,将「事件的機率」×「可能得到的報酬」,求得做這件事的期望價值。

假設你擲出骰子幾點就可以得到幾元,那麼擲一次骰子的期望值,就是将所有可能性的期望值算出來相加,也就是 1 點 1 元(1/6x1=1/6)加上 2 點 2 元(1/6x2=2/6)加 3 點 3 元(1 /6x3=3/6)加 4 點 4 元(1/6x4=4/6)加 5 點 5 元(1/6x5=5/6)加 6 點 6 元(1/6x6=6/6)的總和 3.5 元, 這表示你擲一次骰子的期望值就是 3.5 元。

期望值可用來衡量決策,如果某件事的期望值低于做這件事的成本,就沒有做的價值。 再以廣告提案為例,假定最終通過客戶稽核可賺得 100 萬元的話,我們可算出提案成功的期望值就是 100 萬 x0.5=50 萬,提案在社内通過的期望值則為 50 萬 x0.7=35 萬。 這表示你最初的提案有35萬元的價值,也表示若提案的成本超過35萬,你也許根本不應該接下案子。

7. 常态分布(normal distribution)

呈現連續變量性質的工具,像是人類身高、機器每周生産産品的數量,這些資料都有平均值,如果将資料展開,将縱軸視為資料量(機率值)、橫軸顯示資料與平均數之間的離散值(标準差),就可以畫出以平均值為中心的常态分布圖,常态分布會符合「68、95、99.7法則」(參見【圖1】)。

《多模型思維》指出,常态分布能夠判斷資料的分布狀況,推論群體差異的範圍,避免受極端資料誤導。 《聰明思考》舉例,如果一位籃球員上周的三分球投籃命中率是50%,這周滑落到10%,你會責怪他大幅退步,但對應常态分布圖,才發現他的命中率平均值是13%,其實這周才是他的正常發揮。 若将極端狀況視為常态,就容易做錯決策。

另一種判斷失誤是,人們常以為大洪水、恐怖攻擊、金融危機等極端事件會呈現常态分布,發生機率趨近于零,不用提前做準備。 然而,實際上極端事件會是厚尾分布(參見【圖2】 )。

《思考的架構》指出,在呈現常态分布的世界裡,你不會看到身高比平均高10倍的人,但在厚尾分布裡,你會經常遇到比一般人高10倍、100倍的人。 換句話說,在厚尾分布中,極端事件發生可能性比想像中高出10倍、100倍,大家必須為這些黑天鵝事件預先準備。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

8. 标準差(standard deviation)

标準差則是用來表示大多數的資料距離平均值有多遠。 當資料呈現常态分布,那麼距離平均值一個标準差的範圍内,應該聚集了68%的資料(如下圖),兩個标準差内聚集了95%的資料,三個标準差内包含了99.7%的資料。 假如你身高181公分,台灣男性平均身高為172公分,标準差為4公分,表示你的身高大于兩個标準差,算非常高。

同理,當你在挑選運送商品的貨運公司時,如果有兩家公司的平均送達天數都是3天,但是A公司的标準差是0.5天,B公司的标準差是1.5天,這就表示:A公司有68%的機會,會在3±0.5=2.5~3.5天内送達商品,B公司有68%的機會,會在3±1.5=1.5~4.5天内送達。 要是你想要商品都在 4 天内送達,就應該選 A 公司。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

9. 次數配置設定表(frequency table)和直方圖(histogram)

記錄組别和次數的表格,稱為次數配置設定圖。 利用組别和相對次數的資料制作成長條圖,又稱直方圖,長條之間不會有間隔。

将資料分門别類,然後依照類别分組填入次數(頻率),即為次數配置設定表(圖表1-1)。 再以組别為橫軸,相對次數(或次數)為縱軸,即可将次數配置設定表「可視化」,畫出的長條圖稱為直方圖(圖表1-2),可以直接看出樣本的分布。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

次數配置設定表和直方圖可用來進行 ABC 分析法,據以研拟商品政策:

1. 将次數配置設定表依照營業額的高低重新排列商品順序;

2. 求取各類商品占整體營業額的比率;

3. 從營業額最高的商品開始,依序累計各商品的比率(累計比率; 圖表1-1最右欄);

4. 在直方圖(圖表1-2); 上以累積比率為第二縱軸,制作折線圖(圖表1-3)。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準
用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

根據ABC分析法,累積比率在70%以下的商品歸為A類,70%~90%的歸為B類,其他的歸為C類。 從圖表可知,A 類的 3 種面包(吐司、熱狗面包、鳳梨面包)合計約占營業額的七成,應該優先主打 A 類商品,生産線也要優先生産A類商品。

10. 相關關系(correlation)

分析資料通常是為了「調查相關程度」,比方說「廣告費用」與「産品營收」是否相關,如果廣告增加、營收跟着增加,兩者就呈現正相關,反之則為負相關。 我們該如何确認相關性呢?

第一步是收集資料,将每月廣告費用及産品營收資料整理起來。 再利用相關系數評判兩者的相關程度。 《7小時,統計學從天書變故事書》提到,手動估算的算式很複雜,建議應用Excel的「CORREL」函數算出相關系數,也可以畫出「散布圖」來判斷兩者的關系程度(參見【圖3】)。

不過,《多模型思維》指出,并不是每筆資料都會呈現「線性相關」模型(y=mx+b)(參見【圖4】)──也就是斜率固定(m)、第一個變量因第二個變量變化而造成的變化量,與第二個變量的變化量成固定比例。

生活上更常出現的是「非線性相關」模型,一種是曲線上彎的「凸函數」(參見【圖5】),斜率不斷增加,也就是增加變量值時,函數會大幅增加,像是指數成長模型,每年投資10萬元在年利率5%的投資工具,第一年隻增加5000元,但在第14年至第15年,總資産超過20萬元。

另一種是曲線往下彎的「凹函數」(參見【圖6】),斜率不斷減少,代表擁有的東西愈多,每增加一機關帶來的價值愈少,這稱為「報酬遞減效應」。

當我們具備「非線性模型」概念時,就能跳脫「員勞工數增加,生産量必然增加」的線性思維,将資源配置在合适之處,避免報酬遞減效應,或是利用複利效應創造更高的報酬。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

11. 因果關系(causality)

「成績愈好的學生,學習時間愈長,兩者呈正相關,可否直接解釋成「因為學生成績好,是以樂于延長學習時間」呢? 答案是不行,因為兩者關系可能是學生學習時間長,是以成績更好。 《7小時,統計學從天書變故事書》指出,「因果關系」定義比「相關關系」更為嚴苛。

相關關系是「一方關系改變,另一方也會改變」,是「A→B」也是「B→A」,兩者沒有主從之分; 但因果關系有「方向性」,必須是「A→B」,不會是「B→A」。 是以有相關關系,未必會有因果關系。

就算看似是「A→B」單向關系,也要厘清是否有「幹擾因子」(參見【圖7】),例如醫學界認為人因為愛喝咖啡(A),是以容易罹患心髒病(B),後來發現咖啡愛好者抽煙且不愛運動比例高,抽煙才是導緻心髒病的原因,喝咖啡隻是幹擾因子。

該如何确認因果關系呢? 《因果螺旋》提到,實驗法是很好的工具,透過控制「原因變項」,再觀察後續事件的發生狀況。 假設要判斷看電視時間和學業成績是否有因果關系,可以把願意參與的學生,随機配置設定在「長時間看電視組」「短時間看電視組」,經過一年再測驗他們的學業成績。

由于看電視實驗介入在先、學業成績在後,因果時序很明确,加上受試者是随機配置設定,也就是其他可能影響學業成績的變項(年齡、智力程度)分布是2組相近的,是以得出結果能夠用來判斷看電視是否影響課業表現。

實驗法也可以用在網站點選率測試,将不同文章在網絡上刊登同樣時間,看哪個效果最好。 學會厘清因果關系,就能針對各種情境采取正确的因應手段。

用資料磨練商業 sense!11個實用統計學觀念,讓你的決策更精準

繼續閱讀