天天看點

資料應用系列(1)-ab測試

作者/五花肉

作者介紹

前網易出口大資料産品經理一枚

負責過資料采集、bi系統、ab測試、畫像平台等應用層平台搭建

酷愛健身、鐘愛咖啡、喜愛摩托、熱愛生活

01 為什麼需要ab測試

大家在日常工作中是否會遇到以下問題:

1)産品經理提出一個競品沒有的功能,即便感覺自己引領了行業,但老版:“這個功能競品都沒有為啥要做?”好不容易說通了老闆,到了開發大佬評審時:“這功能對使用者好像沒用啊,要想說服開發,又要經曆一輪苦口婆心,心累!

2)新功能經曆灰階發版後,上線之後資料增長下跌是否是因為這次功能或政策導緻,要想拆厘清楚,分析師小夥伴又要經曆一次抽絲剝繭

資料應用系列(1)-ab測試

3)我有兩個想法,但不确定哪個對使用者更有效,如何能進行驗證……

我們每天的工作都要處理各種各樣的決策,而人們決策的方式會偏好自己習慣或者熟悉的方式,但往往結論與其相悖,要想以實際效果來驅動業務。

這就需要一個科學、并行、可操作的方法來驗證每一種政策的可能性,這種方法就是我們今天要講的A/B測試。近幾年來随着使用者增長,精細化分析概念的普及,作為核心方法的ab測試也仿佛成為了網際網路圈小夥伴們必須掌握的基礎技能之一。

Google、facebook、linkin、快手、位元組等國内外大廠都把ab測試結果作為推動業務發展的基礎。但ab測試方法具有一定的使用門檻,對于業務人員需要具備統計學、平台操作等相關知識;對于平台人員需要具備統計學、平台設計、資料采集、系統搭建以及異常問題處理等相關知識,乍一聽起來,好像有點難度。别慌,聽我慢慢給大家逐一闡述。

02 ab測試與控制變量

AB測試的定義是指為Web或App界面或流程制作兩個(A/B)或多個(A/B/n)版本,在同一時間次元,分别讓組成成分相同(相似)的訪客群組(目标人群)随機的通路這些版本,收集各群組的使用者體驗資料和業務資料,最後分析、評估出最好版本,正式采用。

資料應用系列(1)-ab測試

這條定義有幾個關鍵詞,同一時間、組成成分相同,随機通路,目的是盡可能的避免其他變量對實驗産生的影響。看完這條定義,不知大家是否有些似曾相識。

我們國中上實體或生物課的時候,老師介紹過一種方法——控制變量法。控制變量法是指把多因素的問題變成多個單因素的問題,隻改變其中的某一個因素,進而研究這個因素對事物影響,分别加以研究,最後再綜合解決的方法。

該方法最早被設計出來是在進行科學實驗時把多因素問題變成單因素問題來研究對事物的影響,目的是為了減少方差。

資料應用系列(1)-ab測試

下面我們來舉個例子說明一下控制變量法和ab測試有多麼的相似:

例1:某興趣小組做了個實驗,研究問題是種子生長情況收到什麼因素影響,提出研究假設:種子生長情況是否收到洗滌劑影響,實驗設計如下圖:

資料應用系列(1)-ab測試

例2:例如某app打算優化一下簽到功能,研究簽到功能的點選率受什麼因素影響,假設:簽到點選率是否受到文案的影響,實驗設計如下圖:

資料應用系列(1)-ab測試

我們從實驗流程角度來看兩組實驗:

資料應用系列(1)-ab測試

是不是操作流程、設計理念有異曲同工之妙。雖然控制變量法已經被創造了百十年,但這個“古老”的方法也是後期設計實驗、設計平台以及資料分析上的一個基本依據。

03 ab測試有哪些優點

那麼ab測試在實際運用的過程中有哪些優點呢?

1.說服力:

我覺得這個優點是首當其沖的,有些時候無論是産品、營運提的想法總會被開發diss,這需求有用麼?嗨!有沒有用上實驗,用資料說話。這套操作下來簡直是無形中給我們負責提需求的小夥伴們強有力的支援,長此以往,我相信開發大佬們也會對我們“言聽計從”的。

2.降低風險:

ab測試強調先驗性,實驗确定對使用者有效果才會上線,避免了傳統操作需上線以後觀測資料的方式,對使用者影響小的多,降低了“傷害”使用者的風險

3.符合科學原理:

ab實驗經過了科學的實驗設計、科學的使用者抽樣、運用科學的統計方法及資料分析得出的結論并采用逐漸全量進行上線的方式

4.口徑統一:

實驗組和對照組同時生效、同時展示、采用同樣的名額口徑進行計算,避免了後期實驗結果上因口徑不同導緻的分歧

04 ab的基礎知識及作用

ab測試是一種對比分析方法,通過樣本對總體的估計,來識别出哪個版本對整體效果最好。下面我們一起看一下要學會ab測試方法需要哪些基礎知識。

流量層

可以了解為平行時空,每層人總數是一樣的,通過算法進行随機打散,讓同一個人在不同層有不同的順序和标号以便進入到不同實驗,規避掉實驗上多因素造成的資料偏差,之是以引入流量層的作用是為了解決實驗多而流量不夠的問題,每層都可以運轉實驗,結束後流量釋放。

正交&互斥

正交&互斥是存在于流量層上,即實驗使用者同層互斥、不同層正交,通俗來講就是實驗已經占用的使用者在同層不會被其他實驗占用,但該實驗中的使用者在其他流量層會被占用,正交&互斥原則是實驗設計時基本原則,為了避免實驗與實驗間互相影響。

資料應用系列(1)-ab測試
資料應用系列(1)-ab測試

均值:表示一組資料集中趨勢的量數,在一組資料中所有資料之和再除以這組資料的個數,ab實驗中涉及的均值為人均值和轉化率,例如人均點選次數、ctr等,在ab測試裡作為一個觀測名額展示

方差:是指各資料與其均值的離差平方和的平均數,反應每個資料與均值的離散型或者波動性,在ab測試中是計算臨界值的一個基本資料。

假設檢驗:又稱統計假設檢驗,其作用是用來判斷樣本與樣本,樣本與總體差異是由抽樣誤差引起的還是本質差别引起的一種方法。

例如:汽車引擎新排放标準是平均值<20ppm,現某公司抽取10台汽車樣本,其引擎排放水準為 15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9,判斷該公司汽車是否符合新排放标準?

若要看排放是否符合标準,首先要建立原假設:排放不符合标準;其次要構造統計量進行相關資料的對比;再次要确定這10台汽車與标準是否具有顯著差異,若無差異,最後得出結論。

是以綜上假設檢驗通常需要以下步驟:

1.提出猜想,設定原假設和備擇假設

2.構造統計量,根據樣本計算相關數值

3.确定顯著性水準,進行資料檢驗

4.得出結論

常用的假設檢驗的方法有:z檢驗、t檢驗、f檢驗、卡方檢驗,我們可以根據下圖來确定什麼檢驗方式适合自己:

資料應用系列(1)-ab測試

其中t檢驗和z檢驗為ab測試所使用的檢驗方式。

正态分布:正态分布是描述連續型變量值分布的曲線,表現形式為中間高兩邊低,可根據一組資料的均值和方差求得,根據其均值、中位數和衆數的大小關系有以下幾種表現形式:

資料應用系列(1)-ab測試

若均值(μ)為0(y軸),标準差(σ)為1,則該分布又稱标準的正态分布,其在橫軸區間(μ-σ,μ+σ)内的面積為68.268949%,橫軸區間(μ-1.96σ,μ+1.96σ)内的面積為95.449974%,橫軸區間(μ-2.58σ,μ+2.58σ)内的面積為99.730020%。也就是說在這三個置信區間内的機率分别是68.27%、95.45%、99.74%,該機率又成為置信水準。

置信區間:是指用樣本均值估計總體均值時允許的誤差範圍。例如我們要統計全人類的體重,因為無法統計每一個人,但是我們根據規則随機取各個國家1萬人的體重求其均值μ,假定做了100組實驗,就會有95組實驗包含μ,5組不包含。用數學公式辨別則為P(μ−1.96nσ<< span="">M<< span="">μ+1.96nσ)=0.95

p值:即發生某件事情的機率,是用來判斷假設檢驗結果的一個參數,若p值很小則證明原假設發生的機率很小。因樣本是從總體中随機抽取,是以不能确定樣本的表象差别是否通過抽樣誤差引起,故需要從統計學角度來判斷此次抽樣是否有統計學意義,其資料解釋如下:

資料應用系列(1)-ab測試

顯著性差異是說明對比的資料不是來自于同一總體,而是來自于具有差異的兩個不同總體,例如大學生和國小生的在學習能力上的對比,就是有極顯著差異。

顯著性水準α:是在原假設為真時拒絕原假設的機率,根據具體需求選擇雙側檢驗還是單側檢驗,詳見下圖:

資料應用系列(1)-ab測試
資料應用系列(1)-ab測試
資料應用系列(1)-ab測試

p值和顯著性水準α的關系如下:

1)若P<< span="">=α,那麼拒絕原假設

2)若p>α,那麼不能拒絕原假設

通常情況下單側檢驗取0.05或0.01為拒絕域的臨界值,這表明作出接受原假設的決定時,其正确的可能性是95%或99%

統計功效:備擇假設成立時,正确的拒絕原假設的機率,我們用下圖來說明下什麼是統計功效。

資料應用系列(1)-ab測試

紅色線是原假設下分布情況,紅色區域在原假設分布下為拒絕原假設的機率,其中z值為臨界值,統計功效就是該臨界值在備擇假設的分布下,統計量大于z的機率,即上圖綠色區域,公式為1-β。

上面我們知道了以上ab測試所需要的基本概念,那如何運用到實際ab測試中呢。

我們舉個例子來看下:

背景:某天a公司産品部門要優化push文案政策對使用者點選率的影響

産品經理小a在其公司下的ab平台建立了一個實驗,分2個實驗組開啟實驗,

假設:實驗版本比對照版本好

實驗時間:周期21天,21天後觀測效果如下:

資料應用系列(1)-ab測試

根據上表資料,具體推演流程小夥伴們可以根據前面的知識點自己思考一下~

上面梳理了ab測試的原理、優點以及一些相關的基礎概念,如果要實際操作還是需要一個平台來承接,那麼一個ab平台都需要具有哪些功能呢?我對比了一下市場上的産品給大家剖析一下。

05 市場工具的競品分析

市場上提供ab測試相關功能的公司主要有:

國内:

1.雲眼https://www.eyeofcloud.com/)abtester(http://www.abtester.cn/)

2.吆喝科技(http://www.appadhoc.com/)

3.智道助手

http://sjmyz.zhidzhushou.com/lp2.html?utm_source=5&utm_medium=sembaidu&utm_term=sem_baidu_data_lz&utm_campaign=bdpcdata9044

4.數極客

https://www.shujike.com/product/abtest.html

5.雲測(https://www.testin.cn/)等

國外:

1.Vwo(https://vwo.com/)、

2.Optimizely(https://www.optimizely.com/)

3.Omniture

https://www.adobe.com/marketing-cloud.html

我分别用吆喝科技、Optimizely 進行一個簡單的“競品分析”,分别從功能架構、使用流程上來對比一下國内外ab測試産品設計上的差異情況

1)功能架構:

吆喝科技應該是國内提供ab測試首屈一指的大廠,其具體功能如下:

資料應用系列(1)-ab測試

optimizely公司是2010年創立,美國的一家資深提供ab測試服務的公司,功能豐富,自主化操作很強,對于不同場景的相容也是别具一格,是非常值得大家學習和參考的一個産品,具體功能架構如下:

資料應用系列(1)-ab測試

2)使用流程:

頁面展示:

資料應用系列(1)-ab測試

使用流程:

資料應用系列(1)-ab測試

吆喝科技實驗流程以引導式的互動方式進行,整個流程相對較“順”,單從操作角度上而言門檻不是很高。

而Optimizely相對來說比較自由,但每一個操作配置都需要進行代碼內建,操作流程較國内而言相對較多,具體如下:

頁面展示:

資料應用系列(1)-ab測試
資料應用系列(1)-ab測試

上圖為截取的部配置設定置頁面

操作流程:

資料應用系列(1)-ab測試

如果是一次新的操作,Optimizely需要提前配置好名額、閱聽人人群、屬性、功能等,每個操作流程都會展示很多配置需要內建在sdk裡,對于使用者來說初始化過程有一定成本,不過對于開發者确實比較友好,隻需要複制粘貼一段段代碼即可,如果有人能提前把相關資訊配置好,那用Optimizely進行ab測試還是比較香的。

經過對兩個産品的對比,ab測試的功能也就一目了然:

資料應用系列(1)-ab測試

總結:

AB測試是資料驅動增長的核心方法,本文的目的在于能以“通俗易懂”的方式給大家普及一些基本概念,讓ab測試的使用和了解不在有“門檻“,全文分别從原理、基本概念以及相關平台建設的角度進行叙述。

但因篇幅有限,相關知識點無法更全面的為大家展開,感興趣的童鞋可以進行留言,後續相關的文章我也會逐一為大家解答,若文章内描述有錯誤的也歡迎大家指正。希望大家讀完後可以多多思考多多探讨,讓ab測試真正能為企業增長作出貢獻。

備注:

1.以上功能架構是根據各産品的功能說明文檔進行整理,僅供參考,若與實際有差異請于筆者聯系,及時修正

2.流程圖并非标準流程圖,隻對比了主要流程進行的流程示意圖

一個資料人的自留地是一個助力資料人成長的大家庭,幫助對資料感興趣的夥伴們明确學習方向、精準提升技能。關注我,帶你探索資料的神奇奧秘

1、回“資料産品”,擷取<大廠資料産品面試題>

2、回“資料中台”,擷取<大廠資料中台資料>

3、回“商業分析”,擷取<大廠商業分析面試題>;

4、回“交個朋友”,進交流群,認識更多的資料小夥伴。

繼續閱讀