五年前我加入了airbnb,成為公司第一位資料科學家。
當時人們連公司的名字都不會發音,如果不算正在接受心理咨詢的哥們兒,實習生,旁邊咖啡店裡的咖啡師,團隊隻有大約七個人。我們的公司就在創始人在soma的較高價的電梯大廈旁。工作環境也十分簡陋。
當時大資料的狂熱還未開始,人們僅僅認為資料會帶來一定的競争優勢。通常情況下人們會在公司成熟以後建立自己的資料團隊。而我們的創始人非常具有前瞻性,邀請我作為資料科學家在公司成立初期就迫不及待地着手籌建自己的資料團隊,并通過資料驅動不斷學習和疊代産品。深深地被公司的文化和願景吸引,在公司營運資料少的可憐的情況下,我決定加入。
在矽谷流傳着一句非常羅曼蒂克的話,準确決策和快速行動會讓任何小的創意成為大的變革。我對此深信不疑。當時我們并不非常了解airbnb的業務,任何洞察都十分有創造力。資料架構效率高,運作穩定并且可以做到資料的實時處理(我當時用mysql對我的産品資料進行檢索。由于公司很小,每個人都能了解公司的各個決定。資料團隊(我自己)着手處理一些單一次元的名額,方法論也相對初級。
五年之間我們經曆了430倍的增長,事物也越來越複雜了。
我很開心我的團隊能利用資料處理更複雜的問題。我們迅速将這些方法論與經驗規模化,這些給我們帶來過增長奇迹的經驗幫助我們更自如的面對現在出現的問題。
随着公司的成長,我們有必要将遇到的具體問題和概括性問題進行配對,借此總結一套解決問題的方法論。
如何建立以資料科學為中心支撐公司不同部門業務的商業模式呢?
我們可以分成三塊來看:
首先,如何針對不同部門的業務特點建立不同部門的資料科學,
其次,如何将資料科學應用到商業決策,
最後,如何将資料科學規模化以便于支援airbnb業務的方方面面。
我不敢說,airbnb的方方面面是完美的,但是我們的工作一直保持着創業早期的激情。
1資料不是數字,它代表客戶心聲
資料科學在airbnb存在的基石是公司無處不在的資料文化,你會在公司的各個領域感受到資料的存在。我們對資料重要性的認可是資料科學能在公司生根發芽的前提。
在過去資料并不受重視,僅僅被認為是用來衡量問題的工具而已。給人的感覺是資料科學家就像(星際迷航中的)spock博士,僅僅用來根據需求呈現統計資料結果而已。舉個例子,資料科學家(在過去)僅僅用來回答問題諸如我們在巴黎有多少房源?意大利最受歡迎的10大景點是哪些?
雖然回答簡單的資料問題和用資料對問題進行衡量确實是資料科學家的工作之一,但是在airbnb我們将資料賦予了更多人文色彩:資料是顧客的呼聲。一行資料代表一個動作或者一個事件。這些資料在大多數情況下反應的是一名客戶的決定。如果你能複現導緻決策産生的一系列事件,你就能從這個過程中有所收獲。這個過程本質上是通過一種間接的方式來告訴我們客戶喜歡什麼讨厭什麼。程式化的複現并且通過監控擷取一組客戶行為以及客戶使用的功能,比獨立的單個的統計哪些功能重要哪些功能不重要好得多。

通過程式化複現收集客戶資訊對于商業決策有重要意義,如果我們能很好的分析,那麼對于社群增長,産品研發,資源優化的意義簡直就像我們發現了金礦。其實資料科學就把客戶的呼聲用資料的語言去表示,畢竟資料呈現商業問題更簡約,更友善于商業決策。
傾聽客戶的聲音是我們公司的核心文化,這個想法也得到了airbnb所有人的認同。自從創業初期,我們團隊就市場與我們的社群成員互動,我們想更好的了解他們,設計出更好的産品來滿足他們的需求。我們現在依舊與他們互動,但是現在社群的規模已經無法讓我們輕松地與他們互動了。
是以資料成了我們最好的夥伴。我們用統計學的方法,去了解每一位客戶,并将他們産生的資料彙集起來形成整體去挖掘趨勢。正是對這些趨勢的掌控,我們能夠更好的去推進airbnb的業務。随着時間的變化,我們其他團隊的夥伴也逐漸了解了資料團隊不是(星際迷航)的瓦肯人(信仰嚴謹的邏輯和推理、去除情感的幹擾聞名)。資料團隊呈現着客戶的想法和呼聲。正是這個改變,為資料科學在airbnb結構與職能的改變鋪平了道路。
2主動出擊與被動統計收集
一個優秀的資料科學家可以讀懂客戶在使用我們産品時的心聲。當然如果僅僅挖掘出問題而沒有人去行動的話,沒有任何意義。
我們認為區分好與優秀的重要标準是影響力-通過(資料分析得到的)洞察去影響決策并且確定決策産生真正的效果。這看起來是再平常不過的事兒了,但是它卻不會自然而然的發生。緊張的工作總讓資料科學家感到時間不夠用,往往顧此失彼,有時候他們就把問題束之高閣去看别的問題了。這并不是因為他們不想去思考這些問題,而是有時候他們感到并不值得:往往他們花費巨大的人力和時間去了解資料,保證統計方法的嚴謹,確定統計結果解讀的準确性。做這麼多東西常常讓他們感到這不過是鎖碎的問題總結,被動地回應一些需求。他們感到這不會對公司未來産生什麼影響。
但是如果決策者不能解讀這些資料洞察,那麼他們肯定不會依據這些洞察采取行動。當然如果沒有采取行動,我們所做的分析也就沒了意義。是以資料科學家和決策者應該建立更加緊密的合作關系。在一些情況下,這是很自然的事兒。比如說當我們開發資料項目。在airbnb,多部門的合作機制也讓資料團隊在整個組織架構下有了新的呈現方式。
是否将資料科學團隊當作一個整體中心化,還是将團隊分散到不同職能部門中?這樣的讨論很多,但是我現在不想關注這一點。我想說的是在airbnb, 我們将這兩種方式融合到了一起。
我們最開始是用的中心化方式,因為這樣所有團隊成員可以近距離的互相學習并且大家有一緻的經驗,目标和方法論。我們最終的目的是商業決定,而采取中心化模式有時候不能成功。其他團隊有時候不清楚如何與我們互動,而資料科學團隊有時因為資訊的缺失而不知道自己要去解決什麼問題或者使問題解決方法具有實操性。慢慢地,資料團隊成了資源,别的團隊有需求時候才會有回應。我們被動回應統計需求而不是主動去發現新的機遇。
正因如此,我們我們對團隊架構進行了改組。将中心化模型逐漸改為混合式。我們依然遵從中心模型,所有的資料科學家在近日airbnb初期隸屬資料團隊,然後我們将資料團隊在劃分為幾個小型團隊,不同團隊和工程,設計,産品經理,市場聯系各自建立緊密關系。
這種變革加速了資料文化在公司的傳播,同時也讓資料科學家從傳統的資料統計收集者轉向主動發現問題的合作者。正因為我們并沒有将資料團隊全部分散到不同部門,我們可以很好的去觀察業務的方方面面,我們可以建立一套像神經網絡式的結構來幫助airbnb不同部門彼此學習。
3客戶驅動的決策
建構一套資料職能體系可以讓公司充分感受到資料科學帶來的變化。當然這隻是部分而已。一旦分析決策能夠順利落地,我們下一個要考慮的問題是以什麼樣的方法在什麼樣的時間發揮社群的呼聲對于商業決策的影響力。
雖然資料團隊和公司的方方面面建立了合作關系,在将資料與項目結合方面,我們依然受到很多觀點的挑戰。一些人僅僅是有興趣,隻是想用資料着手了解他們遇到的問題。另一些人将資料看作一種過去事件的總結,認為這對未來規劃意義不大,不過有趣的是他們會更加關注衡量一些(他們所做出但)感性決定的效果。
這兩種觀點很公平。完全的資料驅動可以進行局部優化;然而全局優化卻需要不斷的對整個系統進行改革。那麼資料在項目的何時開始發揮作用呢?
我們認為不同的資料科學元素能使以下四步決策過程受益:
我們首先要了解問題的背景,将過去的研究進行彙總,以此來發現一些可能的機會。這是一個探索的過程,以此來抓住機會和提出一些假設,這些假設能夠提供給我們一些落地的洞察。
我們将這些彙總轉化成計劃,這些計劃包括排優我們想要利用的一些杠杆,形成一些假設去分析我們所做工作的影響力。預測分析的方法在這個階段會比較适合,因為在這個階段我們必須做出一些決定:諸如我們應該遵從何種路線,當然我們希望我們所找的這條路線是會産生最大的影響力的那一條。
計劃完成後,我們需要設計對照實驗來檢測我們的計劃。a/btest很常見,但是因為airbnb可以整合公司所有業務資源,這樣我們不但可以将實驗應用的更加廣泛,(比如說以市場為基礎的營運測試。)還可以在更加傳統的線上環境中進行試驗。
最後,我們衡量試驗的結果,挖掘出我們的工作和工作所産生的影響力。
有時候決策過程非常簡單,比如我們設計一款手機應用并不需要太多的前期總結。但是我們一直遵循這一套行事方法,我們發現每個人在airbnb的影響力也就越來越大。畢竟我們這一套步驟使我們将目光集中在解決社群(客戶)大問題上。
4資料科學的民主化
如果我們有足夠的資料科學家儲備,那上面的模型非常好。但是初創公司快速增長,做決策頻率也大幅增長,這種增長速度要遠大于資料團隊擴增速度。 2011年airbnb 迅速全球擴張,這一點展現點更加明顯了。2011年初期,我們隻是一個在三番的小公司,隻有三個科學家(當然我們團隊十分高效)。
六個月以後,我們在全球新擴張了10個新的辦公室。與此同時我們的的産品,市場營銷,客戶支援團隊也擴張十分迅速。而這也導緻了資料科學團隊與其他員工的合作效果大幅降低。
我們無法滿足社群成員的需求,與其他成員的交流也變的十分困難。我們需要找到一種方法去讓工作民主化,将個體交流擴大為團隊交流,公司交流,和社群交流。
通過對資料科技的不斷投資,我們讓民主決策成為現實。我來給大家分享幾個不同階段資料科學民主化的例子。
如果資料科學家使用的工具更加強大迅速,那麼(公司内的)個人交流就會更有效。資料基礎層面的建設是重要的杠杆。這可以使我們通過更先進更可靠的技術去處理迅猛增長的資料。讓etl過程更穩定也非常有價值,例如我們研發的airflow系統。
讓團隊獲得更多的權利意味着給資料科學家們移除一些負擔,比如說簡單的報表和基本的資料查探之類的工作就沒必要讓資料科學家們來做了,這樣他們就可以關注更重要的事情。看闆是一個通常的解決問題的方法。我們也研發了更好的工具airpal,一個讓人們檢索更穩健,更直覺的資料倉庫。
在小型團隊中我們經常做一些技能型工作,除了這些以外,我們以培養資料文化為己任。從大的方面來說,我們培養人們思考公司的資料生态系統,具體一些我們對一些資料工具如airpal 進行教育訓練。一旦人們能夠使用這些工具,他們就能由着自己的好奇心進行探索資料了。和授權團隊一樣,這也我們就不會陷入處理日常統計需求的煩惱之中了。
資料科學規模化最廣泛的一個例子是讓房客和房主能夠直接了解彼此。通過我們的資料産品,将機器學習的模型應用于解讀從一個社群成員發出的信号,然後借此去幫助其他成員。地點相關性模型也是一個例子,不過這個模型在公司其他團隊對這個問題的探究越來也越常見。我們也已經研發了新的工具去使用和了解這些模型。
規模化資料科學團隊在一家極速增長的公司并不容易。如果公司每個人認為資料科學是公司的基本部分而不是錦上添花的部分。那這就可以發生。
5資料驅動的機遇和挑戰
這五年,我們學到了很多。我們提升使用資料去解決問題的能力。我們與決策者的交流也越來越好,于此同時我們還把資料分析的思維向全公司推廣。但是我們所做的這些工作到底有多成功呢?
衡量資料科學團隊的作用和影響力并不是一件容易事兒,但是所有人都認為技術背景的人和業務人員都應該去用資料支援他們的決策。資料科學家團隊在決策過程中起到了咨詢師的作用。現在我們和決策者共同決策,并不是被動的收集需求。
資料科學團隊的另一個影響是我們深入挖掘我們所做工作的所帶來的影響。做這件事情其實比想象的還要複雜,因為airbnb的資料生态系統非常複雜。市場供需平衡會收到網絡影響,季節性很很強波動較大,交易周期也具有不确定性,時間範圍也很長。當然這些挑戰兒讓我們更加興奮。雖然我們取得了不少成績,但是我們的潛力還沒有被挖掘出很多。
現在我們資料底層很穩定,工具功能強大,而且資料倉庫建構清晰可依靠。而且我們也有了更大目标,去解決更多問題。首先我們要将資料的批次分析提升為資料的實時分析。建立一套更強健有力的資料庫異常偵查系統。更深入地去了解網絡影響,增強我們對房東房客配比和個性化需求的了解。
當然這些想法隻是開始。我們知道資料是客戶的心聲。客戶會将我們指引到他們想要到達的地方。
原作者:riley newman
譯者:檀潤洋
<b></b>
<b>本文來自雲栖社群合作夥伴"dbaplus",原文釋出時間:2016-04-12</b>