第2章
廣告資料分析中的統計學原理
這一章将會涉及不少統計學的概念和術語,包括抽樣、機率和分布、假設檢驗、相關和回歸等,我将在介紹相關内容時引用大量廣告投放和優化的類比和案例,幫助讀者朋友在廣告資料分析和統計學二者之間建立思維上的關聯,這是一個循序漸進的過程。從全書結構來看,本章是整個廣告資料分析方法論的理論基礎,後面的章節将直接進行資料分析方法論的運用,理論部分将不再贅述。
2.1 抽樣:總體、樣本和誤差
總體:是客觀存在在某一相同性質基礎上結合的若幹個别事物的整體。
樣本:就是按照一定的機率從總體中抽取并作為總體代表的一部分的集合體。
抽樣:是指按照随機原則,以一定機率從總體中抽取一定容量的機關作為樣本進行調查,根據樣本的情況對總體作出具有一定可靠程度的估計與推斷。
抽樣的一個重要價值,就是可以在沒有拿到全部資料的條件下對總體做一定的預測。當然,這是有一定誤差的。但現實生活中,由于拿到全部資料的成本太高,總體包括了未來還沒有發生的資料等多種原因,我們隻能退而求其次做抽樣,通過研究樣本來估算總體。
為了進一步說明總體和樣本的關系,下面舉兩個例子,不同情況下總體和樣本的定義是有差異的。
例1:先讨論簡單的情況。
在分析資訊流廣告創意的轉化效果時,選取某天、某周、某月這類時間段的資料為分析對象,即為樣本;如果把統計周期拉長,從該廣告創意的首次投放到完全廢棄,這樣一個全生命周期内的資料作為分析對象,即為總體。
這裡的總體,就是前面提到的總體,包括了未來還沒有發生的資料。廣告投放是一個相對穩定的過程,尤其當預算和流量達到一定量級時,穩定性就會越好。怎麼了解這個穩定性呢?假設我們研究近一周的資料,算出日均擷取流量、獲客成本等多個資料名額,可以預見的是,如果我們什麼都不做,未來短時間(1~2周)内,這些資料名額都是相對穩定不變的,而從未來長時間來看,由于受到媒體廣告背景的規則限制、流量大盤變化等多因素影響,廣告效果會越來越差。相信隻要從事過一線廣告資料優化的朋友,對這段話都會深有體會,這也是廣告效果優化的立足基礎,也是廣告資料定量分析的價值所在。
例2:在例1的基礎上,讨論較為複雜的情況,如圖2-1所示。

在分析我們的優化政策是否有效時,通常會選取一條廣告創意,分析在優化前後的轉化效果是否有顯著優化。如例1中所說,該廣告創意的全生命周期内的資料為總體,但由于優化政策的執行,原來的總體可能發生了質的變化,此時應以“優化操作”為分界線,将原來的總體一分為二,廣告創意首次投放(或者是上一次優化)到本次優化操作前的全部資料為一個總體,優化操作後到廣告創意完全廢棄這段時間的資料為另一個總體。而在優化操作前後各選取的用來做對比分析的資料,即為樣本。
這裡選取的樣本,分别代表了優化操作前後的總體的廣告效果。對比結果大緻有三種可能,優化操作後廣告效果沒有顯著變化、顯著變好、顯著變差。怎樣才算達到“顯著”的程度,将在2.5節具體介紹。無論結果如何,我們做廣告資料分析的總體已經重新确定,即優化操作後到廣告創意完全廢棄這段時間的資料,而且我們觀測的仍舊是樣本資料。如果以後有新的優化操作,則總體又将被分割為兩部分,如此循環。
抽樣誤差:是指用樣本統計值與被推斷的總體參數出現的偏差。
隻要是樣本資料,就會存在抽樣誤差。抽樣誤差的大小依賴于得到樣本的方式和樣本中包含的觀測個數。樣本越大,誤差越小。如果樣本等于整個總體,則樣本比例就等于總體比例。
是以,在公布任何一次基于樣本資料得到的結論前,都應說明抽樣誤差的大小,無論是比例、均值還是其他形式。
例如,某條資訊流廣告創意有36432的曝光量,1128的點選量,計算的點選率為3.1%(±0.18%),這裡的±0.18%即為抽樣誤差,差不多是3.1%的1/20。抽樣誤差具體怎麼計算的,在2.4的參數估計部分再作介紹。
抽樣最重要的問題是抽取的樣本是否能夠代表總體。如果樣本沒有代表性,那麼以樣本對總體進行估計就沒有邏輯基礎。
試想,如果我們對比優化操作前後的廣告效果時,優化操作前的樣本資料不能代表曆史的廣告效果,或者優化操作後的樣本資料不能代表未來的廣告效果,那麼資料分析的結論與真實情況将會有較大的偏差,對下一步的優化政策來說可能不是指導而是誤導了。
于是,我們在選取樣本資料時,應注意下面幾點:
第一,應盡可能選取優化操作前後相鄰的資料。
這裡,其實是有一個廣告資料分析的前提假設,假設其他條件不變(或者說是相對穩定),優化操作則是唯一的變量,對比前後的資料即可判斷優化是否有顯著效果。取優化操作前後越近的資料,就越能保證假設的準确性。比如,優化操作前一周的資料和優化操作後一周的資料。
第二,樣本資料的積累不僅要看時間長短,更要看樣本量的大小。
比如,隻對比優化操作前一天和後一天的資料,受偶然性的影響效果會比較大,以優化操作後第一天的資料作為樣本,對總體的代表性也會差很多。另一方面,無論任何抽樣方式,抽樣誤差都是難以避免的,隻有當樣本量足夠大,抽樣誤差才相對穩定、相對較小,對于總體的代表性也較好。
第三,如果樣本資料中出現某些特别高或特别低的奇異值,應将其剔除。
如表2-1所示,我們選取優化操作後一周的資料作為樣本。
從表中不難看出,第一天至第七天的展現量是相對穩定的,但第六天的點選率是明顯偏高的,這個數很可能是奇異值,應從樣本資料中剔除,剔除之後展現量累計不夠的話,則可以順延至第八天。
一般來說,廣告資料是相對穩定的,如果出現這種奇異值,多是受到大盤流量、競争對手的廣告投放等多因素影響。而這些因素恰恰是我們做廣告資料定量分析前假設相對穩定不變的,一旦出現這樣的情況,說明分析的前提是不存在,得到的樣本資料自然也是沒有代表性的,應作相應的資料處理。
2.2 機率
如上一章提到的,機率簡單來說就是一個數。更确切地說,它是一個0和1之間的數,用來描述一個事件發生的經常性。小機率(接近0)的事件很少發生,而大機率(接近1)的事件經常發生。
為了說明統計的基本觀念,如果我們對某事物進行多次觀測,大多數情況下會得到不同的結果。例如:同一SEM賬戶,昨天賬戶整體CTR是一個2.8%,今天的CTR則是3.0%,明天可能又會是3.1%,這種小幅度的波動是因為這個變量(即CTR)具有随機性。
機率的統計定義
在相同的條件下①随機試驗n次,某事件A出現m次(m≤n),則比值m/n稱為事件A發生的頻率。随着n的增大,該頻率圍繞某一常數p上下波動,且波動的幅度逐漸減小,趨于穩定,這個頻率的穩定值即為該事件的機率,記為:
P(A) = n/m = p
在廣告資料分析中,一些常見的資料名額,包括點選率、轉化率、流失率等都是統計意義上的機率,都是通過對一定量的樣本觀測得到的。
注意:①在相同的條件下。這一點在廣告優化實踐中是很難做到的。以手機百度這一媒體為例,MAU高達5億多,DAU是1億多,這意味着,除少部分重度使用者每天都在使用外,大多數使用者一個月内隻有可能不到一半的時間能看到某個廣告主的廣告。是以我們的總體是不變的,但每天觀測得到的樣本都不一樣了。是以,廣告優化實踐中我們隻能盡力保證能控制的部分保持穩定,比如落地頁、廣告創意、定向等,以此來觀測樣本、統計機率,進行資料分析。
2.3 機率分布
大部分用于統計分析的資料來自于連續變量,即在任意兩個值間還有其他的值,故這裡隻讨論連續變量的機率分布。
最重要的是标準正态分布(z變量),t分布(t變量),圖2-2以标準正态分布為例,具體闡述一下。
2.3.1 正态分布
正态分布,也稱“常态分布”,又名高斯分布。是一個在數學、實體及工程等領域都非常重要的機率分布,在統計學的許多方面有着重大的影響力。
請不要被公式吓到,簡而言之,正态描述的是某一變量v的機率分布,又因為機率的統計定義,通常以分布占比替代機率分布。橫坐标上的X就是變量v的取值,f(x)就是對應變量不同取值(即x)的占比。
當随機變量X服從正态分布時,我們用X~N(, ^2)表示,其中為變量X的均值,為變量X的标準差。
如圖2-3所示,正态分布中大部分資料集中在平均值附近,小部分在兩端。均值±3個标準差已經可以包括99.7%的情況了。
對于我們做廣告資料分析,最重要的是均值,不論是平均點選量、平均點選率,還是平均轉化量、平均轉化率。
舉個例子,圖2-4是某SEM廣告各關鍵詞CPC分布占比,大緻上符合正态分布,大多數關鍵詞的CPC處于中間均值附近水準,不過集中度相對較低。
同理,各關鍵詞的轉化成本、廣告目标閱聽人的轉化可能性等分布基本也符合正态分布。
2.3.2 标準正态分布
标準正态分布實際上是在正态分布基礎上,經過一些較為複雜的數學計算,将均值處理為0,标準差處理為1的正态分布。
标準正态分布的重要性在于,任何一個一般的正态分布都可以通過線性變換轉化為标準正态分布。
例如,X~N(, ^2),則Z=(X – )/~N(0, 1),這也是将一般正态分布轉化為标準正态分布的公式。
如圖2-5所示。我們可以看到,大部分z變量的值在–2.00到2.00之間變動;特别是,95%的z變量的值在–1.96到1.96之間變動。這個值很重要,後文會用到。
正态分布應用有多廣泛?或者說,為什麼我們可以假設這些資料都基本符合正态分布。這裡需要介紹一個統計學的重要理論:中心極限定理,它也是很多統計分析的理論基礎。
2.3.3 中心極限定理
中心極限定理其實就是下面兩句話:
1)任何一個樣本的平均值将會約等于其所在總體的平均值。
2)不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正态分布。
請不要小看這麼簡單的兩句話,這對于幫助我們了解整個廣告資料定理分析的理論基礎有着至關重要的價值。基于中心極限定理,在沒有辦法得到總體全部資料的情況下,我們可以用樣本來估計總體。而且不用計較樣本資料是什麼分布,多組樣本的平均值的分布是近似正态分布的。
換句話說,因為廣告創意在未來還将繼續投放,在沒有拿到全部資料之前,我們不知道總體的廣告效果會是什麼樣的,那我們怎麼判斷是否應該繼續投放呢?對于大多數廣告優化從業人員來說,這是一個無需思考的問題,但實際上蘊含着豐富的分析價值。大多數人的答案都會是,看曆史資料就可以判斷。如果繼續追問,為什麼曆史資料就可以判斷呢?很多人就答不上來了。
之是以我們可以根據曆史資料(樣本)來估算未來的廣告效果,就是因為中心極限定理的存在。隻要我們在選取樣本資料時嚴格遵循2.1節中的3點規範,同時樣本量足夠大,它的分布都是近似正态分布的,都是可以用同一個公式來計算的。
比如,廣點通管道某廣告創意的點選量是11076,轉化率是8.4%(±0.52%);今日頭條管道某廣告創意的點選量是8659,轉化率是6.3%(±0.51%)。雖然是不同的管道,不同的廣告位,但統計名額的計算邏輯是一樣的,轉化率的抽樣誤差也是可以用同一個公式計算的,兩個管道的轉化率是可以做對比分析的。這一點,對于多廣告管道的綜合效果評估有非常重要的價值。
2.4 統計推斷:估計
超越實際資料是統計學的一個分支,被稱為統計推斷。它由估計和假設檢驗組成。
本節讨論的是參數估計,假設檢驗會在下一節中講解。
我們進行資料分析時,之是以用樣本替代整體,主要原因是:在一般情況下,沒有辦法收集到總體中的全部個體資料,即便能,所需的時間也會比較長,花費也是高昂的。
盡管樣本中的資訊并不完全,抽樣誤差也無法避免,我們依舊要重視樣本資料的分析。同時,為了彌補樣本結果的不準确性,我們需要計算抽樣誤差。
2.4.1 估計:用樣本資料預估總體
這裡要介紹兩個新概念。
樣本統計量:是從樣本資料中計算出來的數。
比如樣本均值、樣本百分比等。
總體參數:是在原理上可以從整個總體中計算出來的數。
比如總體均值、總體百分比等。
“估計”做的事情就是,通過樣本統計量去估計對應的總體參數。
大家不用糾結于新概念的了解,它本質上還是用樣本資料去估算總體的情況,隻不過明确了到底是用樣本資料中的哪一名額。例如,我們以某廣告創意的曆史一周的點選率資料,可以預估未來一周的點選率情況;此時,曆史這一周的平均點選率即為樣本統計量,曆史和未來整體的平均點選率即為總體參數。
2.4.2 區間估計
統計學上常用的估計方法論有兩種:點估計和區間估計。
點估計:是一個用來估計總體參數的數。
區間估計:又稱為置信區間,是用來估計參數的取值範圍的。
點估計應該是我們最常用的方法,無論媒體廣告背景的資料,還是我們平時做廣告資料分析,計算點選率、轉化率、轉化成本的時候,用到的幾乎都是點估計。
點估計的優點顯而易見:
- 邏輯清楚,容易了解;
- 使用友善,哪怕需要二次計算也很簡單;
- 業内已形成标準,接受度高。
但點估計也有其天然的局限性,它是以一種靜态的視角看資料名額,是以解釋不了諸如下面的問題:
1)資料量小的時候,各種名額波動程度較大。要等資料積累到一定量的時候,資料名額相對穩定了,才能開始做資料分析。優化人員常常面臨“兩難”的境地,資料積累不夠,做分析容易被誤導,而積累過多又會導緻預算的部分浪費,是以應該待資料積累到多少時,恰好足夠資料分析所用?
2)一個優化政策的執行,使得轉化率從5.6%提升至6.1%,轉化成本從32.5元下降至29.7元,這次的優化算不算是成功的?
這時就需要用到區間估計了。無論是點估計,還是區間估計,理論基礎其實還是抽樣,根據抽樣取得的樣本直接計算的機率,其實就是點估計。如果同時考慮抽樣誤差,就是區間估計。差別于點估計,區間估計是以一種動态的視角看資料名額的,此刻的名額不再隻是一個數,而是一個取值範圍(點估計±抽樣誤差)。
如此一來,剛才提出的兩個問題也有了很好的解釋。
1)随着資料的不斷積累,抽樣誤差會趨于穩定,且抽樣誤差的相對占比會趨于變小,當小到一定程度(5%或者3%,根據資料分析需求自定義)時,再開始資料分析是比較合适的。
2)轉化率5.6%、6.1%,都需要加上一個抽樣誤差,即資料波動的範圍,假設這個抽樣誤差都是0.2%,那優化前的轉化率區間為[5.4%,5.8%],優化後的轉化率區間為[5.9%,6.3%]。簡單來看,優化後的最低水準5.9%仍高于優化前的最高水準,是以可以得出這次優化是成功的結論。
讨論完區間估計的現實價值,接下來介紹其計算方法。
對于大多數總體參數來說,估計區間是用如下方法得到的:
- 找到樣本統計量,如均值或者比例,這一步驟相當于是點估計的計算;
- 從資料中計算出抽樣誤差;
- 用樣本統計量加、減抽樣誤差就得到了區間估計的兩個端點。
回到前文的例子,某條資訊流廣告創意有36432的曝光,1128的點選。點估計可得點選率為3.1%;置信水準為95%的情況下,區間估計得到的點選率則是一個範圍,即2.92%~3.28%。這裡的95%指的是我們有95%的把握相信這條資訊流廣告創意總體的真實點選率在2.92%~3.28%。
例子中提到95%的置信水準,是與區間估計綁定的一個概念。如果我們收集了多組不同的樣本,并對每個樣本都構造了一個置信區間。其中有95%的區間包含真值,5%的區間不包含真值,那麼這個構造的置信區間就叫作置信水準為95%的置信區間,簡稱95%置信區間。
下面介紹區間估計的具體算法。主要列舉了兩種資料分析需求:總體比例的置信區間、總體均值的置信區間。
2.4.3 總體比例的置信區間
總體比例的置信區間:通過樣本資料計算的比例,估計總體的對應比例的取值範圍。
主要适用于使用者轉化漏鬥各環節的轉化率估計,比如點選率、點選下載下傳率、下載下傳安裝率、安裝激活率等。
從統計學角度來看,總體比例的置信區間是:
從一個大的總體中抽取一個由n個觀測值組成的随機樣本,點估計的結果是p。
那麼我們可以得到總體百分比的一個95%置信區間。該區間為:
1.96這個值來自正态分布,2.3.2曾提到,有95%的z值落在–1.96到1.96之間,進而構成了一個95%的置信區間。
還是之前的例子,某條資訊流廣告創意有36432的曝光,1128的點選。
帶入總體比例的置信區間的計算公式,p = 1128/36432 = 3.10%,n = 36432。
抽樣誤差為:
于是可以得到,這條資訊流廣告創意的點選率95%的置信區間為(3.10% – 0.178%,3.10% + 0.178%),即2.92%~3.28%。
2.4.4 總體均值的置信區間
總體均值的置信區間:通過樣本資料計算的樣本均值,估計總體的對應均值數的取值範圍。
主要使用于估計流量的大小,比如點選量、下載下傳量、注冊量等。不可用于估計類似于廣告消費等人為因素較大的名額,也不可用于估計類似CPC、CPD等二次計算的名額。
嚴格來說,要根據總體是否服從正态分布、總體方差是否已知、是大樣本還是小樣本的不同情況來具體分析。但在優化實踐中,往往使用曆史的樣本資料預測未來的情況,總體包括未來一段時間的資料,有一定的不确定性,總體是否服從正态分布和方差多少都無從得知,但大樣本是基本可以确定的(一般n≥30就可以算作大樣本)。
還記得中心極限定理嗎?隻有當樣本量n充分大時,樣本均值–x的抽樣分布近似服從正态分布。
此時,總體方差2就可以用樣本方差s2代替。
那麼我們可以得到總體均值的一個95%置信區間。該區間為:
。
舉一個廣告優化的例子。如表2-2是某App在360應用商店兩個月的注冊量資料。
以此作為樣本資料,估計總體均值(即某App在360應用商店日均注冊量的範圍)。
首先,樣本量n=60,确定是大樣本無疑;
然後,計算樣本方差為61.56*61.56;
最後,帶入總體均值的置信區間的計算公式,樣本均值 –x=160.2,
樣本量n=60,s=61.56,
抽樣誤差為
于是可以得到,該App在360應用商店日均注冊量95%的置信區間為(160.2 – 15.6,160.2 + 15.6),即144.6~175.8。
這個例子很有代表性,我們可以看到抽樣誤差有點大,差不多接近均值的10%了。2017年4月和5月的資料分布有較大的差異,這是因為4月底到5月初的時候執行了新的優化政策,嚴格意義上來說,這兩組資料不能算作同一個總體,應該分開讨論。
4月:n=30,樣本均值為109.5,樣本方差為30.9*30.9,抽樣誤差為?1.1;
5月:n=30,樣本均值為210.8,樣本方差為38.7*38.7,抽樣誤差為?3.8。
乍一看,第二個月的抽樣誤差更大,但要看到樣本均值幾乎翻番,抽樣誤差的相對大小不過6.5%。
哪怕我們隻看兩組資料的均值,210.8和109.5,就可以得出優化效果顯著的結論。但這隻是優化的第一階段,效果很明顯;如果繼續優化,日均注冊量從210.8提高到233,增幅達10.5%。這時僅憑平均值比較,很難評估優化效果是否顯著,而計算抽樣誤差和置信區間就成了幫助我們精益評估優化政策效果的利器。
2.5 統計推斷:假設檢驗
任何機率都是建立在某種假設為真的前提下的。
再次列舉1.2.1節中的例子,對于某個日均UV上萬的頁面做A/B測試,原始版本的UV為10000,轉化率是5.6%,試驗版本_1的UV為10000,轉化率是6.4%。
首先要對我們研究的對象作出某種假設,這裡我們假設的是試驗版本_1和原始版本的轉化率是沒有顯著差異的;
然後收集資料,在該假設的基礎上計算假設成立的機率(這裡隐去計算過程,直接得到機率是p=0.0087);
最後,如果這個機率p非常小,統計學上一般以0.05意味着該事件幾乎不可能發生。這裡其實用的是數學上反證法的邏輯,當一個事件是不可能發生的或者說是錯誤的,那麼這一事件的相反事件就是确定發生的或正确的。
于是,當p值的小于0.05時,我們認為這一事件(試驗版本_1和原始版本的轉化率是沒有顯著差異的)是幾乎不可能發生的,是以之前所作的假設是錯誤的。再進一步,原假設的相反假設是正确的。我們的計算結果是p=0.0087,可以得出“試驗版本_1和原始版本的轉化率是沒有顯著差異的”這一假設是錯誤的,即“試驗版本_1和原始版本的轉化率是有顯著差異的”,換句話說,A/B測試是成功的。
2.5.1 簡單好用的p值
p值在統計學中是一個很重要的概念,基本定義就是在總體某些假設下,觀測值或更加端值出現的情況。
請看圖2-6。前文提到,z變量的值介于–1.96~1.96之間時,已經涵蓋了95%的可能結果,那剩下的5%就是幾乎不可能發生的,而一旦發生,那就可以拒絕原假設,即原假設是錯誤的。
我們用1.2.1節的例子做計算和示範。
2.5.2 兩個總體比例之差的顯著性檢驗
從統計學的角度來說,這個問題屬于兩個總體比例之差的顯著性檢驗。同樣的,後面還可能涉及兩個總體均值之差的顯著性檢驗。這兩個顯著性檢驗也就構成了網際網路業内适用面最廣的A/B測試的理論基礎。
公式如下:
代入1.2.1例子的具體數值,得出:
p1 =6.4%,n1=10000;p2=5.6%,n2=10000;
計算得z = 2.38,或者把p1和p2換個位置,就得到z = –2.38。
此時的z值是大于1.96和小于–1.96的,屬于那剩下的5%的情況。是以可以做出判斷,原假設是錯誤的,相反的假設是正确的,即“試驗版本_1和原始版本的轉化率是有顯著差異的”,換句話說,A/B測試是成功的。
再深究一點,此時的p值是小于0.05的,具體是多少?
這裡需要用到z值的分布表,大家可以在任何一本統計學教材的附錄或者百度上找到它。
還記得剛才計算的z值嗎?對,2.38,在圖2-7的分布表中,我已經把它圈出來了,對應的機率是1 – 0.9913=0.0087。
注意:我們之前讨論的一直是雙邊檢驗,就是說試驗版本可能比原始版本更好,或者更差。
左邊0.025加上右邊的0.025,才構成剩下的5%。
在廣告優化中也是如此,我們的優化政策可能使效果更好,也可能更差。
是以,剛才的0.0087還需要乘以2,得到0.174,這才是真正的p值。
這裡給大家分享一個線上的小工具,可以非常簡單地計算出兩個總體比例的顯著性差異,如圖2-8所示:
https://vwo.com/ab-split-test-significance-calculator/第一列是Control,即控制組(原始版本),在廣告優資料分析中用于對比參照的樣本;
第二列是Variation,即試驗組(試驗版本),是優化操作後所得到的資料;
第一行Number of Visitors,是指流量數;
第二行Number of Conversions,是指轉化數。
接下來,我們用資料示範一下,如圖2-9所示。
在Control和Variation兩列,輸入對應的資料,控制組是 10000和560,即為流量是10000,轉化量為560,轉化率為5.6%;試驗組是10000和640,即為流量是10000,轉化量為640,轉化率為6.4%;
下面的p值顯示為0.009,是不是很接近我們剛才計算的0.0087;Significace顯示Yes,說明是有顯著性差異的。
這個工具還可以幫助我們找到臨界值,比如轉化率從5.6%提升到6.4%是顯著優化的,但其實應該不用到6.4%就可以滿足顯著性差異,這個臨界值是多少呢?
我們把Variation列的Number of Conversions不斷調小,最終找到臨界值是6.15%,如圖2-10所示。換句話說,隻要我們的優化操作能在同樣10000的流量前提下,将轉化率提升至超過6.15%,就可判定試驗組是顯著優于控制組的,即優化是顯著有效的。
兩個總體比例之差的顯著性檢驗的适用範圍很廣,凡是需要對比優化操作前後的廣告效果時,這種顯著性檢驗能很友善快捷地得到結論。同時,要注意這種方法論以及工具的局限性—隻能對兩個總體比例做檢驗。包括但不限于:點選率、激活率、注冊率等轉化率的資料名額,不包括展現量、點選量、注冊量、線索量等流量的資料名額。
2.5.3 兩個總體均值之差的顯著性檢驗
這裡隻列舉公式,不再舉例闡述了。
檢驗統計量 Z的值:
:樣本1的均值;
:樣本2的均值;
S1:樣本1的标準差;S2:樣本2的标準差;
n1:樣本1的樣本量;n2:樣本2的樣本量。
差別于兩個總體比例之差的顯著性檢驗,兩個總體均值之差的顯著性檢驗的适用範圍相對窄很多,包括展現量、點選量、注冊量、線索量等流量的資料名額。
2.6 變量間關系
這裡先讨論兩個變量間的關系,多變量間的關系本書涉及不多,遇到具體問題時再作介紹。
分析由兩個變量控制的資料,主要目的是回答以下四個重要問題。這些問題為我們研究變量間的關系提供了分析架構。
問題一:從資料來看,變量間有關系嗎?
首先我們要嘗試确定統計的資料中是否包含某種關系,如果發現确有關系,則繼續回答後面的問題。
問題二:如果變量間有關系,這個關系有多強?
如果資料間存在某種關系,我們就可以試着去确定這種關系有多強。變量間的關系可能強,可能弱。
問題三:是否不僅在樣本中,在總體中也有這種關系?
雖然我們分析的是樣本資料中的兩個變量,但實際上我們對總體更感興趣,通過資料分析得出的結論是否能推廣到總體,具有現實意義。有時問題三還可以換一種說法:這個結果是完全由偶然因素引起的,還是受某種系統影響而産生的?
問題四:這個關系是不是因果關系?
這是最難回答的一個問題,但它往往也是最重要的。我們不知道觀測到的這兩個變量間的關系是否由根本就沒被考慮進來的一些變量引起的,就像下面提到的這個冰激淩與犯罪的經典統計學故事。
在美國中西部的一個小鎮上,人們發現一個很有趣的但不合邏輯的現象,就是冰激淩的消費量越高,犯罪率就越高。這時候有人在想,如果通過人為控制來改變冰激淩銷量,是否可以影響犯罪率的高低。
答案是否定的。常識告訴我們,冰激淩與犯罪行為無關,之是以在統計上存在正相關是因為天氣。
冰激淩的銷量與天氣緊密相關,天氣越熱銷量越高;同時,天氣越熱,人越容易在室外活動,越容易開窗(導緻偷盜機率增加),人的心情也越煩躁(導緻沖動型犯罪增加)。
故事中,看似相關的兩個變量(冰激淩的銷量、犯罪率)是高度相關的,但絕不等于說該關系是因果關系,實際上它們都是受第三個變量(天氣)的影響。
在研究變量之間的關系時,通常把變量分為兩種:自變量和因變量。當我們分析一個系統(或模型)時,可以選擇研究其中一些變量對另一些變量的影響,那麼我們選擇的這些變量就稱為自變量,而被影響的變量就被稱為因變量。在廣告優化實踐中,較為可控、偏前端的資料名額多為自變量,如出價、創意、廣告定向等;較為不可控、偏後端的資料名額多為因變量,如轉化率、成本等。
回到因果關系的問題,為了判斷自變量與因變量之間的關系是否為因果關系(一旦樣本資料中兩個變量之間的關系可以代表總體)我們應該:
1)用常識來判斷這種關系是否有現實價值;
2)注意自變量是否發生在應變之前;
3)如果可能,嘗試适當調整自變量,觀察因變量的值是否會受影響;
4)即使自變量是決定變量的原因,也要意識到,是否存在沒有被考慮到的、可能對因變量有影響的其他變量。
2.7 自變量和因變量之間的關系
我們在第一章中已經介紹過,變量有三種類型:數值型變量、順序型變量、分類型變量。
自變量和因變量不一定是同一種變量,是以二者就有9種(3×3)可能的組合關系。如圖2-11所示:
本書所介紹的廣告資料定量分析的内容,主要涉及的是圖中标“*”的兩類,即:
1)自變量是數值型,因變量是數值型。比如,CPD出價對下載下傳量的影響;關鍵詞出價對CPC的影響等。
2)自變量是分類型,因變量是數值型。比如,廣告定向中的性别、城市、作業系統對資訊流廣告創意展現量、點選量的影響等;工作日和非工作日對轉化成本的影響等。
下面将分别闡述。
2.8 兩個數值型變量的關系
這裡要涉及回歸分析和相關分析,這兩種統計方法可以回答一些明确定義的數值型變量間的關系。
回歸分析描述的是一個或多個自變量的變化是如何影響因變量的一種方法。
相關分析描述的是兩個數值變量間關系的強度。
2.8.1 相關分析
對于兩個數值型變量,我們一般總用一個圖來分析這些資料。
如圖2-12所示,稱為散點圖。水準的x軸為自變量,垂直的y軸為因變量,圖上每一個點代表一個觀測值。
以某App在小米應用商店廣告優化為例,來看一下精品廣告下載下傳量與總激活量是否有相關關系。
這個散點圖直覺表明,精品廣告下載下傳量越高,總激活量也越高。圖2-12中點的趨勢說明兩個變量間确實存在一定的關系。
當這些資料沿一條直線排列時,我們可以計算一個系數來衡量兩個變量間的關系。對于兩個數值型變量,計算出來的系數記作r,我們一般稱之為相關系數,或是線性相關系數。非線性相關不是本書讨論的重點。
r的取值為–1到+1,–1代表兩個變量是完全的負線性相關關系,+1代表兩個變量是完全的正線性相關關系,0代表兩個變量不存線上性相關關系,越接近1說明兩個變量的關系強度越高。
兩個數值型變量的r值介于0.7~1.0,代表了一個很強的正相關性;r值介于0.3~0.7,代表了一個較強的正相關性;r值介于0~0.3,代表了一個較弱的正相關性。r為負值時,同理類推。
下面我們通過幾個散點圖來看看為什麼散點圖的不同趨勢會導緻不同的r值。
這四個不同的散點圖,每個有100組觀察值。這些資料都是我用Excel生成的,并沒有實際意義,但為模拟廣告資料分析的真實場景,依然加上了橫軸坐标軸。
在圖2-13中,這些點的排列有明顯的規律,我們可以看到一種從左下角到右上角的明顯的直線趨勢。這些點沿對角線呈一種規則的分布,兩個變量間的關系應該很強,相關系數也證明了,r=0.97。
在圖2-14中,這些點不像圖2-13中那樣明顯的排成一束,但從散點圖中我們仍然可以看到一種确定的正相關,相關系數r=0.70。
在圖2-15中,相關系數r=0.52,這意味着一個較弱關系,從散點圖上幾乎很難看出兩個變量之間是否相關。
對于圖2-16,這些點是随機散布的,兩個變量之間幾乎沒有什麼關系。
2.8.2 回歸分析
相關分析的目的在于評估變量之間的關系強度,具體的評價名額就是相關系數r。而回歸分析側重考察變量之間的定量關系,并通過一定的數學公式将這個定量關系描述出來,進而确定一個或幾個自變量的變化對另一個因變量的影響程度。
回歸分析的核心價值在于“預測”,即通過對曆史資料的分析,建構可以預測未來因變量值的數學公式。
圖2-17在圖2-16的基礎上,加了一條穿過這些點的中心的直線,這條直線就是回歸直線。
如果擦去這些點而隻保留直線,我們仍然可以很清楚地了解精品廣告下載下傳量和總激活量的相關性。
圖2-17中的回歸直線在y軸上有一個截距,也就是說,當x=0時,回歸直線與y軸相交的那一點。同時可以看到,我已經用Excel計算出回歸直線的方程(在散點圖的圖表元素中添加“趨勢線”,設定為線性,并且顯示公式):
y = 0.6723 x + 6976.6
如同這些點有一個正相關性(r=0.87),這條回歸直線從圖的左下角到右上角有一個正的斜率(0.6723),這意味着在一定範圍内,随着精品廣告下載下傳量x每增加1000個,總激活量y大約增加672個。
一條回歸直線的方程可以寫作:
用公式表達即為:
回歸直線
在一定程度上描述了變量x與y之間的定量關系,根據這一方程,可依據自變量x的取值來估計或預測因變量y的取值。但估計或預測的精确度如何是取決于回歸直線對樣本資料的拟合程度。
各散點越是緊密圍繞直線,說明回歸直線對樣本資料的拟合程度越好。想象一下,如果圖2-17中的散點都落在回歸直線上,那這條直線就是對資料的完全拟合,這時用x的值來預測y的值是沒有誤差的。
回歸直線與各資料點的接近程度稱為回歸直線對樣本資料的拟合優度,一般需要計算判定系數R2來度量。
我們可以看到,y的取值是有波動的,統計學上稱為變差。它的産生來自兩個方面:一是自變量x的取值不同造成的;二是除x之外其他因素(如抽樣誤差、其他可能影響y的變量等)的影響。
判定系數R2的計算原理其實是看y值的變差有多大比例來自x與y之間的線性關系。
如果所有的資料點都落在回歸直線上,則R2 = 1,拟合是很完美;
如果y的變化與x無關,則x完全無助于y的變差,則R2 = 0;
如此可見R2的取值介于0~1之間,越接近1,表明x與y之間的線性關系對預測y值的貢獻越大,拟合程度就越好。
判定系數R2的計算原理不是重點,下面我用Excel計算前文的“精品廣告下載下傳量與總激活量”的回歸方程的判定系數,具體操作方法是Excel的“資料”菜單欄–資料分析–回歸,如圖2-18所示。
可以看到,計算結果呈現出3個部分。
第一部分主要包括:
- Multiple R(相關系數r);
- R Square(判定系數R2);
- Adjusted R Square(調整後的判定系數R2);
标準誤差(用回歸方程預測因變量y時預測了誤差的大小,各資料點越靠近回歸直線,标準誤差越小,回歸方程進行的預測也就越準确)。
第二部分可以忽略。
第三部分主要包括:
Coefficients(系數,或者叫參數。線上性回歸方程中,即為變量的斜率);
回到剛才的回歸方程,y = 0.6723 x + 6976.6,與圖2-18中的兩個系數是一緻的。
相關系數r=0.87,判定系數R2=0.76,标準誤差=1301。
現在解讀一下,這幾個數字的現實價值。
在小米應用商店廣告優化中,精品廣告下載下傳量和總激活量是有很強的相關性的(r = 0.87);根據回歸方程,可以知道精品廣告下載下傳量x每增加1000,總激活量y大約增加672;根據精品廣告下載下傳量x來預測總激活量y時,平均的估計誤差在1300左右,結合y的取值範圍是10000~20000,這個誤差比例不到10%;在總激活量的波動中,有76%可以由精品廣告下載下傳量與總激活量之間的線性關系來解釋。
這個預測準确度其實已經不錯了,但還有提升的空間。比如,影響總激活量波動的因素有很多,隻考慮精品廣告下載下傳量很明顯是不夠的。如果能同時考慮更多的因素,包括其他主要廣告位的下載下傳量等,就能使總激活量的預測效果有一定的提升。
需要區分一點。我們剛才讨論的都是一進制線性回歸,即隻有一個自變量和一個因變量。
廣告資料分析中,還可能遇到多元線性回歸的問題。我們将在第五章中以案例的形式具體介紹,比如用多類廣告位的下載下傳量(精品、搜尋、排行榜等)來預測總激活量。
細心的朋友還會留意到,判定系數R2之外還有一個調整後的判定系數R2。兩者的差別在于,前者适用于一進制線性回歸,後者适用于多元線性回歸。
2.9 分類型變量和數值型變量的關系
我們在廣告優化實踐中,經常會遇到廣告定向的問題。
比如要不要限制廣告投放閱聽人的性别、城市、作業系統等,限制包括控制出價、僅投放某類特定人群等,以期獲得更好的廣告效果。
這時我們分析的就是分類型變量(廣告定向、廣告設定等)和數值型變量(流量、成本)的關系。統計學上最常用的資料分析方法叫作方差分析,從形式上看,方差分析是檢驗多個總體的均值是否相等的統計方法,但本質上它研究的是分類型自變量對數值型因變量是否有顯著影響。
以多推廣管道的使用者品質評估為例,如表2-3所示,某App在各應用商店推廣管道一個月的激活注冊率。激活注冊率=注冊量/激活量,一定程度上可以反映擷取的新使用者品質。
我們要問的第一個問題就是,資料中的兩個變量之間是否存在差異,即不同推廣管道的App激活注冊率是否真的有差别。
為了更容易地找出各推廣管道之間激活注冊率的不同,我們需要一種比散點圖更簡單的圖。如圖2-19所示,在箱形圖中,把每一個推廣管道的資料用5個數代替,分别是最大值、最小值、第75分位點、第25分位點、中位數。
箱形圖增強了不同推廣管道之間的可比性,接下來我們一起來看看從圖中可以獲悉哪些資訊?首先應該來對比不同推廣管道的中位數,因為它們代表中心值。中位數由箱形圖中間的橫線代表,可以發現應用寶、vivo應用商店、OPPO應用商店三個管道的中位數最高,接近于35%。是以初步判斷這三個管道的平均激活注冊率最高。同樣,可以看到小米應用商店、豌豆莢、百度手機助手、360手機助手等幾個管道的激活注冊率是較低的。
箱形圖的另一個特征是箱子的高度,高度越小,說明分布越集中。例如,小米應用商店的箱子比其他管道要短,這意味着該管道内不同日期之間的激活注冊率比其他管道要更穩定。
第一個問題的答案已經出來了,從圖中可以直覺地看出,不同推廣管道和App激活注冊率這兩個變量之間存在關系。
第二個問題是,我們還需知道這兩個變量之間關系的強度,以及這個關系是否可能出于偶然。要回答這個問題,就需要使用方差分析。
不同推廣管道的激活注冊率不盡相同,究其原因是它同時受到自變量和殘差變量的影響。方差分析可以幫助我們将其定量化。自變量在這個例子中就是不同管道,殘差變量是除自變量之外能夠對因變量(激活注冊率)産生影響的變量。
管道變量和殘差變量的總效應 = (每一個觀測值–總均值)2之和
自變量的效應 = (每一組的均值–總均值)2 之和
殘差變量的效應 = (每一個觀測值–所有組的均值)2 之和
圖2-20是我用Excel計算得到的方差分析結果,具體操作方法是Excel的“資料”菜單欄–資料分析–方差分析:單因素方差分析。
圖2-20的上半部分是不同管道的描述統計,包括觀測值、求和、平均值、方差。下半部分是我們關注的重點,差異源這一列包括組間、組内和總計,對應剛才介紹的自變量、殘差變量和總效應。SS這列為平方和,即為效應的具體值。可以簡單計算一下,自變量(不同管道)的效應占比是0.6794/1.0167=66.8%。
這個比例0.668稱為R2,這個數是可以與回歸分析中相關系數的平方直接對比的。換句話說,已知R2是0.668,取平方根後,R就應該是0.817,可以近似了解為這是兩個變量(不同管道、激活注冊率)之間的相關系數。R=0.817,可知不同管道和激活注冊率之間具有很強的關系。
至此,還剩下最後一個問題。這兩個變量之間的關系是偶然的嗎?
圖2-20下半部分的p值列,又看到我們熟悉的p值了。可知p值是5.51758 * 10–46,遠遠小于0.05。說明,不同管道和激活注冊率之間的關系是确實存在的,是超出偶然機會可以解釋的範圍的。
方差分析的适用範圍非常之廣,凡是涉及分類型變量和數值型變量的關系,都可以考慮使用。下面列舉一種代表性的需求場景,供大家參考。
需求場景:評估各類廣告定向對廣告效果的影響程度。
我們都知道,廣告定向對于廣告優化是非常有價值的,但現在主流的廣告媒體廣告平台提供的廣告定向如此豐富,少則5~8種,多則10~20種,使人眼花缭亂。選取哪些廣告定向進行投放測試,除了廣告主能提供一定的資料指導外,更多是依賴廣告優化人員的個人習慣和經驗。而方差分析可以幫助我們更友善和科學地實作這一需求。
首先,根據廣告主的資料參考以及優化人員的經驗,選取3~5類廣告定向進行投放測試。不同的廣告定向即為自變量。
其次,确定用于評估廣告效果的資料名額是轉化率,還是轉化成本。這些用來評估廣告效果的資料名額即為因變量。
最後,待資料積累到一定程度,一般應保證每一組的點選量在10000以上,開始做方差分析。可以計算出不同廣告定向和廣告效果的相關系數,即代表前者對後者的影響程度。
對于廣告優化的指導是,投放測試首選應選取對廣告效果影響較大的廣告定向。而确定了某一廣告定向後,比如性别,到底是投放男性使用者的廣告效果更好,還是投放女性使用者的廣告效果更好,就可以用兩個總體比例或兩個均值之差的顯著性檢驗了。
2.10 本章小結
本章介紹的是廣告資料分析中的統計學原理,對應廣告資料從擷取到處理,再到分析和得出結論的全流程,其實都有統計學的方法論貫穿其中。讀完本章内容,我不希望大家陷入公式和定義的“泥潭”,而是希望大家能結合廣告優化實踐活學活用,哪怕暫時了解不了也沒關系,先把公式、工具掌握了,随着本書内容的不斷展開,我們對廣告資料定量分析的認知也将更加深刻,很多問題自然而然就了解了。