天天看點

市值超 1.7 萬億的Netflix是如何做決策的?

作者 | Netflix 技術部落格

譯者 | 劉雅夢

策劃 | 淩敏

截至 12 月 23 日美股收盤,美國知名影視公司奈飛(Netflix)市值 2720 億美元(約合 17318.8 億元人民币)。據悉,奈飛是利用 A/B 測試做出決策,以不斷對産品做出改進。

1

做決策很容易,難的是做正确的決策

奈飛的創作理念是将消費者的選擇和控制放在娛樂體驗的中心,作為一家公司,我們不斷改善我們的産品,以改進這一價值主張。

例如,奈飛的使用者界面(UI)在過去十年中經曆了一次徹底的變革。早在 2010 年,使用者界面是靜态的,隻有有限的導航選項,以及一個受視訊租賃商店展示啟發的示範。現在,使用者界面是沉浸式的,具有視訊轉發功能,導航選項也更豐富且不那麼突兀,盒子展位(box art)展示更充分地利用了數字型驗。

市值超 1.7 萬億的Netflix是如何做決策的?
市值超 1.7 萬億的Netflix是如何做決策的?

圖 1:奈飛 TV使用者界面(UI)在 2010 年(上)和 2020 年(下)展示效果。

從 2010 年的體驗過渡到今天,奈飛需要做出無數的決策。比如,單個劇集的大顯示區域與顯示更多劇集之間的平衡是什麼?視訊比靜态圖檔更好嗎?我們如何在受限的網絡上提供無縫的視訊轉發體驗?我們如何選擇要顯示的劇集?導航菜單應該放在哪裡,它們應該包含些什麼?這樣的例子不勝枚舉。

做決策很容易——難的是做正确的決策。我們如何才能确信我們的決策能為我們現易會員提供更好的産品體驗,并幫助新會員發展業務呢?奈飛可以通過多種方式來決策如何改進我們的産品,進而為我們的會員帶來更多的樂趣:

讓上司做所有的決策。

聘請一些設計、産品管理、使用者體驗、流媒體傳遞以及其他領域的專家,然後采用他們最好的想法。

進行内部辯論,讓我們最有魅力的同僚的觀點占據上風。

模仿競賽。

市值超 1.7 萬億的Netflix是如何做決策的?

圖 2:不同的決策方式。從左上角順時針方向分别為:上司決策、内部專家決策、模仿競賽、小組辯論。

在上面介紹的每種範式中,有助于決策的觀點和視角都是有限的。上司小組很小,小組辯論的規模也就這麼大,而奈飛在我們需要做出決策的每個領域中也都隻有這麼幾位專家。也許有幾十種流媒體或相關服務可以作為我們的靈感來源。此外,這些範例并沒有提供一種系統化的方法來做出決策或解決互相沖突的觀點。

在奈飛,我們相信有一種更好的方式能來決策如何改善我們向會員提供的體驗:我們使用 A/B 測試。實驗讓我們所有的會員都有機會投票,用他們的行動來決策如何繼續發展他們愉悅的奈飛體驗,而不是由高管或專家組成的小組來做決策。

更廣泛地說,A/B 測試以及 準實驗(quasi-experimentation) 等其他因果推理方法是奈飛使用 科學方法 為決策提供資訊的方式。我們形成假設,收集經驗資料,包括來自實驗的資料,為我們的假設提供支援或反對的證據,然後得出結論并産生新的假設。

正如我的同僚 Nirmal Govind所解釋 的那樣,實驗在支撐科學方法的推理(從一般原則中得出具體結論)和歸納(從具體的結果和觀察中形成一般原則)的疊代循環過程中起着關鍵的作用。

2

A/B 測試

A/B 測試是一種簡單的對照實驗。比如說(這是一個假設!),我們想了解在電視使用者界面中倒置所有盒子展位(boxart)的新産品體驗是否對我們的會員有益。

市值超 1.7 萬億的Netflix是如何做決策的?

圖 3:我們如何判斷帶有倒置盒子展位的産品體驗 B 對我們的會員來說是更好的體驗呢?

為了進行實驗,我們從我們的會員中抽取一個子集,通常是一個簡單的随機樣本,然後使用随機配置設定将該樣本平均分成兩組。

“A”組通常被稱為“對照組”(Control Group),繼續接受基本的奈飛使用者界面體驗,而“B”組通常被稱為“實驗組”(Treatment Group),根據關于改善會員體驗的特定假設(下文将詳細介紹這些假設)來獲得不同的體驗。在這裡,B 組接受倒置的盒子展位。

我們比較 A 組和 B 組的各種度量名額值,一些名額将特定于給定的假設。

對于使用者界面(UI)實驗,我們将研究新特性的不同變體的使用者粘性。對于一個旨在在搜尋體驗中提供更多相關結果的實驗來說,我們将衡量會員是否通過搜尋找到了更多值得關注的内容。在其他類型的實驗中,我們可能會關注更多的技術名額,比如應用程式的加載時間,或者我們在不同網絡條件下能夠提供的視訊品質。

市值超 1.7 萬億的Netflix是如何做決策的?

圖 4:一個簡單的 A/B 測試。我們使用随機配置設定将奈飛會員的随機樣本分成兩組。“A”組接受目前的産品體驗,而“B”組接受一些改變,這些改變我們認為是對奈飛體驗的改進。在這裡,“B”組接受“倒置”的産品體驗。然後,我們比較兩組之間的名額。關鍵的是,随機配置設定確定了平均而言,兩組之間的所有其他内容都保持不變。

通過許多實驗,包括倒置盒子展位的例子,我們需要仔細考慮我們的名額告訴了我們什麼。

假設我們檢視點選率,衡量每次體驗中點選劇集的會員比例。這一名額本身可能是衡量這個新使用者界面是否成功的一個誤導性名額,因為會員可能隻是為了更容易閱讀而點選倒置産品體驗中的劇集。在這種情況下,我們可能還需要評估有哪些會員随後會選擇離開該劇集,而不是繼續播放它。

此外,我們還将關注更多的通用名額,這些名額旨在捕捉奈飛為我們的會員帶來的歡樂和滿足感。

這些名額包括會員與奈飛互動的程度:我們正在測試的想法是否有助于會員在任何特定的夜晚都會選擇奈飛作為他們娛樂的目的地?

這還涉及到了大量的統計資料——有多大的差異會被認為是顯著的?在一次測試中,我們需要多少個會員才能檢測到給定大小的影響?我們如何才能最有效地分析資料?本文會重點放在高層次的直覺感受上。

3

保持其他因素不變

因為我們是使用随機配置設定來建立對照組(“A”)和實驗組(“B”)的,是以我們可以確定這兩個組中的個體,平均而言,在可能對測試有意義的所有次元上都是平衡的。

例如,随機配置設定可以確定奈飛會員的平均長度在對照組和實驗組之間沒有顯著的差異,内容偏好、主要語言的選擇等也沒有顯著的差異。兩組之間唯一的差異是我們正在測試的新體驗,確定我們對新體驗影響的估計沒有任何偏差。

為了了解這有多重要,讓我們考慮另一種我們可以做決策的方式:我們可以把新的倒置盒子展位體驗(如上所讨論的)推給所有的奈飛會員,看看我們的度量名額是否有很大的變化。如果有證據表明該改變是積極的或者是沒有任何意義的,我們将保留新的體驗;如果有證據表明該改變是負面的,我們将復原到之前的産品體驗。

假設我們這樣做了(再說一遍——這是一個假設!),并在每個月的第 16 天将開關切換到上下倒置的體驗。如果我們收集到了以下的資料,你會怎麼做呢?

市值超 1.7 萬億的Netflix是如何做決策的?

圖 5:在第 16 天釋出新的倒置盒子展位産品體驗的假設資料。

資料看起來不錯:我們釋出了新的産品體驗,會員粘性大大提高了!但是,如果你有了這些資料,再加上知道産品 B 将使用者界面中的所有盒子展位倒置了,那麼你對新産品的體驗真的對我們的會員有益有多大的信心呢?

我們真的知道新産品體驗是導緻使用者粘性增加的原因嗎?還有其他可能的解釋嗎?

如果你還知道奈飛在推出新的倒置産品體驗的同一天還推出了一部熱門劇集,比如《怪奇物語》(Stranger Things)或《布裡奇頓》(Bridgerton)的新一季,或者一部熱門電影,比如《活死人軍團》(Army of the Dead),會怎麼樣呢?

現在對于使用者粘性的增加,有不止一種可能的解釋:可能是新的産品體驗,可能是社交媒體上的熱門劇集,也可能是兩者兼而有之。或者完全是别的什麼東西。關鍵的一點是,我們不知道新的産品體驗是否導緻了使用者粘性的增加。

相反,如果我們使用倒置盒子展位的産品體驗來進行 A/B 測試,讓一組會員在整個月内都接受目前的産品(“A”),另一組會員接受倒置産品(“B”),并收集到了以下的資料,會怎麼樣呢?

市值超 1.7 萬億的Netflix是如何做決策的?

圖 6:新産品體驗 A/B 測試的假設資料。

在這種情況下,我們得出了一個不同的結論:倒置的産品通常會導緻較低的使用者粘性(這并不奇怪!),并且随着大劇集的釋出,兩組的使用者粘性都在增加。

A/B 測試讓我們做出了原因陳述。我們隻在 B 組中引入了倒置的産品體驗,并且由于我們将會員随機配置設定到了 A 組和 B 組,是以這兩組之間的其他一切都保持不變。是以,我們可以很可能地得出結論(更多細節将在下次讨論),即倒置的産品導緻了使用者粘性的下降。

這個假設例子是極端的,但它告訴我們,總有一些事情是我們無法控制的。

如果我們将一種體驗推給所有人,并簡單地在改變前後衡量單一名額,那麼這兩個時間段之間可能存在相關差異,進而阻止我們做出因果推論。也許它是一部很受歡迎的新劇集。也許它是一種新的産品合作關系,可以讓更多會員享受到奈飛的樂趣。總有一些事情是我們不知道的。

在可能的情況下,進行 A/B 測試,能讓我們證明因果關系,并在知道我們的會員已經通過他們的行動投票支援他們的情況下自信地對産品進行更改。

4

一切都始于一個想法

A/B 測試始于一個想法——我們可以對使用者界面、幫助會員查找内容的個性化系統、新會員的注冊流程或奈飛體驗的任何其他部分進行一些更改,我們相信這些更改将為會員帶來積極的結果。我們測試的一些想法是漸進式創新,比如改進出現在奈飛産品中的文本副本的方法;有些則更為雄心勃勃,比如奈飛現在在使用者界面上展示的“前 10”(Top 10)劇集的測試。

與所有向奈飛全球會員推出的創新一樣,“前 10”最初隻是一個想法,後來變成了一個可驗證的假設。在這裡,核心思想是,在每個國家都受歡迎的劇集将在兩個方面都有利于我們的會員。首先,通過呈現熱門内容,我們可以幫助會員分享經驗,并通過對熱門劇集的讨論來互相聯系。其次,我們可以通過滿足人們參與共享對話的内在願望,來幫助會員選擇一些精彩的内容。

圖 7:Web 使用者界面上“前 10”呈現體驗示例。

接下來,我們将這個想法轉化為一個可檢驗的假設,即“如果我們做出改變 X,它将以某種方式改善會員體驗,進而使名額 Y 得到改善。”

對于“前 10”的例子,假設是:“向會員展示前 10 的體驗将幫助他們找到值得觀看的内容,進而增加會員的愉悅和滿意度。”這項測試(以及許多其他測試)的主要決策名額是衡量會員對奈飛的使用者粘性:我們正在測試的想法是否有助于我們的會員在任何特定的夜晚都選擇奈飛作為他們娛樂的目的地?

我們的研究表明,從長遠來看,這一名額(細節省略)與會員保留訂閱的機率相關。我們進行測試的其他業務領域,如注冊頁面體驗或伺服器端基礎設施,使用了不同的主要決策名額,但原則是一樣的:在測試期間,我們可以衡量哪些方面,才能長期為我們的會員提供更多的價值?

除了測試的主要決策度量名額外,我們還考慮了一些次要的度量名額,以及它們将如何受到我們正在測試的産品特性的影響。這裡的目标是闡明因果鍊,從使用者行為如何響應新産品體驗的變化,到我們主要決策度量名額的變化。

闡明産品變化與主要決策度量名額變化之間的因果鍊,并沿着這條鍊監控次要度量名額,有助于我們建立信心,即主要度量名額的任何變化都是我們假設的因果鍊的結果,而不是新特性導緻的意想不到的後果(或者誤報)。

對于“前 10”的測試,使用者粘性是我們的主要決策名額——但我們也會關注一些其他名額,如前 10 清單中出現的劇集的劇集浏覽率,來自該行的浏覽率與使用者界面其他部分浏覽率的比例關系,等等。

如果根據假設,“前 10”的體驗真的對我們的會員有益,那麼我們希望實驗組能夠顯示出“前 10”劇集的浏覽量是有所增加的,并且這一行的使用者粘性普遍比較高。

最後,因為并不是所有我們測試的想法都能使我們會員成為赢家(有時新特性也有 bug!)我們還研究了充當“護欄”的名額。

我們的目标是限制任何負面影響,并確定新的産品體驗不會對會員體驗産生意想不到的影響。例如,我們可以比較對照組和實驗組的客戶服務聯系率,以檢查新特性是否增加了聯系率,這可能表明會員會感到困惑或不滿意。

5

總結

這篇文章的重點是建立直覺認識:A/B 測試的基礎知識,為什麼運作 A/B 測試比推出特性更重要,為什麼要檢視更改前後的度量名額,以及我們如何将一個想法轉化為可檢驗的假設。

參考連結:

https://netflixtechblog.com/decision-making-at-netflix-33065fa06481

https://netflixtechblog.com/what-is-an-a-b-test-b08cc1b57962

繼續閱讀