jeremy stanley 是日用雜貨當日送達初創企業 instacart 主管資料科學的副總裁,daniel tunkelang 是前 linkedin 的資料主管。作為在資料科學領域身經百戰的老将,他們在這篇文章中為那些想打造一支屬于自己的資料科學團隊的公司 ceo 們提供了一些建議,主要涵蓋了這幾個問題:資料科學為什麼對很多創業公司如此重要?公司應該在什麼時候在資料科學方面進行投入?應該将資料科學團隊放在公司裡的什麼位置上?如何營造一個尊重資料科學的文化氛圍?
你可能很難相信,“資料科學家” 在 2008年 才開始成為一個真正意義上的職業頭銜。當時,為了迎合市場對資料分析、工程學和産品這種跨學科技能人才日益增長的需求,facebook 的 jeff hammerbacher 和 linkedin 的 dj patil 率先提出了 “資料科學家” 這個概念。今天,市場上對資料科學家的需求極其旺盛,越來越多的公司都想更好地了解如何打造一支屬于自己的資料科學家團隊。
作為在資料科學領域身經百戰的過來人,jeremy stanley 和 daniel tunkelang 已經見識了不同行業的不同公司在不同發展階段在打造資料科學家團隊方面的成功和失敗案例。他們發現,這裡面的挑戰不僅在于如何招聘頂尖的資料科學家,還包括如何最大限度地發揮他們的價值,以及如何在日趨激烈的人才競争中留住他們。
在這篇文章中,我們為那些想打造一支屬于自己的資料科學團隊的公司創始人提供了一些建議。資料科學為什麼對很多創業公司如此重要?公司應該在什麼時候在這方面進行投入?應該将資料科學團隊放在公司什麼位置上?如何營造一個尊重資料科學的文化氛圍?
第一個問題:你想實作什麼樣的目的?
資料科學主要有兩個方面的功能:一是改善使用者所使用的産品;二是為公司決策提供支援,改善決策品質。
資料驅動型産品利用資料科學和工程學來持續改進産品性能,例如,提供更好的搜尋結果、更個性化的推薦等等。
資料決策科學利用資料來分析業務名額,例如增長資料、使用者黏性資料、盈利點和使用者回報資料等,進而為制定公司戰略和關鍵性的業務決策服務。
兩者的差別可能看起來非常顯而易見,不過在打造和擴充自己的資料科學團隊的過程中,記住這兩者之間的差別非常重要。接下來我們就詳細探讨這兩點。
利用資料科學打造更好的産品
資料産品可以利用資料科學去提升産品的性能表現。他們依靠的是這樣一個良性循環:産品搜集使用者使用資料,這些資料成為算法素材後再反過來為使用者提供更好的産品使用體驗。
那麼在搜集到資料之前是怎樣的呢?你的産品的第一個版本必須解決資料科學稱之為 “冷啟動” 的問題,也就是說産品的初始版本必須提供足夠好的體驗才能夠啟動 “資料搜集—資料驅動産品提升” 這個良性循環。要想做到這一點,這就需要依靠産品經理和工程師制定足夠好的解決方案。
例如,當使用者打開 instacart 應用的時候,這款應用會在 “再次購買” 欄向自動給使用者展示他們最近購買過的日用雜貨品。這是一個使用者很喜歡的功能,不過它幾乎用不到資料科學或是需要足夠多的資料來支撐。隻有當我們為使用者推薦一些他們之前沒有購買過的商品的時候,這時資料科學才能發揮它真正的作用。例如,要向 a 使用者推薦他之前從未購買過的商品,這就需要資料科學家對所有使用者的購買行為進行分析,進而确定和 a 使用者比較類似的 b 使用者,然後再根據 b 使用者過去的購買行為來為 a 使用者推薦商品。這就是資料科學利用資料創造價值、進而使使用者更容易地發現他們自己可能沒發現的好産品的一個案例。
為了改善産品,資料科學家必須和工程師進行持續而緊密地合作。此外,你還需要決定是産品科學家自己去落實産品改進方案還是與工程師一起去落實。這兩種方法都可以,不過最好能對其進行規定,讓它成為公司員勞工人皆知的一個流程與規範。
使用資料科學為做出更好的決策提供支援
資料決策科學利用資料分析與可視化來為公司業務和産品決策提供支援。公司裡可能誰都有可能是決策者,例如産品經理對如何制定路線圖的優先級進行決策,公司高管對公司層面的戰略性問題進行決策。決策科學問題涉及的範圍很廣,不過它們有一些共同的特點。第一,它們是公司之前尚不需要解決的一些新問題;第二,它們通常是主觀性的問題,需要資料科學家在有未知變量和缺少上下文的情況下處理的問題。第三,它們通常是非常複雜的問題,問題的不同部分之間缺少明确的因果關系。與此同時,決策科學問題又是可以衡量且影響非常重大的,做出決策後能對業務産生具體而重大的影響。
上面說得聽起來很像資料分析,事實上,資料分析和資料決策科學之間的差别并不是一直都非常清楚的。不管怎樣,決策科學要做的事遠不限于僅僅是制作報告和圖表。資料科學家不應該做那些利用市場上現有的商業智能工具就能完成的工作。
在 linkedin,公司管理團隊就曾利用資料決策科學做出一個非常關鍵的商業決策:有關在搜尋結果中其他會員資料的可見性。在之前,隻有付費使用者才能檢視自己三度人脈網絡裡成員的全部資料。這種可見性規則非常複雜,linkedin 想對其進行簡化,但同時又不想影響自己的營收。其中的風險還是很大的。
最後提議的可見模型是對非付費使用者每月的使用進行限制。linkedin 的決策科學家利用使用者曆史行為來預測這個改變對營收和使用者黏性可能會造成的影響。這個分析必須在一個模型上推斷過去的行為進而在另一個完全不同的模型上預測使用者未來的行為。
結果證明,新的可見性規則不僅對公司業務産生了積極影響,同時也讓數百萬使用者更加滿意我們的産品,它還幫我們卸下了之前産品開發中規則過于複雜的沉重負擔。有些使用者抱怨新的可見性規則方面對檢視資料上做出的限制,然而這部分人正是 linkedin 認為應該付費使用自己産品的使用者。在資料決策科學的幫助下,這個項目非常成功。
并不是所有的決策都需要依靠資料決策科學。有些決策太無關緊要,是以不值當在資料決策科學上進行大量投入。還有一些決策可能非常重要,但缺乏需要的資料對其進行有意義地分析。在這種情況下,就需要依靠直覺和實驗。
資料決策科學和資料産品需要的技能有的是類似的,很少資料科學家能在這兩個方面都非常擅長。資料決策科學依靠的是業務和産品感覺、系統思維能力和優秀的溝通能力。資料産品需要的是機器學習知識和産品級别的工程技能。如果你的資料科學團隊規模還很小,你可能需要找一個在這兩方面都比較擅長的超級英雄。當團隊規模慢慢變大後,你最好能招在這兩個方面分别比較擅長的人才。
你是否應該在資料科學上進行投入?
資料科學并不适合所有公司。隻有當它對公司成功與否至關重要時,你才需要在資料科學上進行投入。在你決定是否投入打造一支資料科學團隊之前,建議先問自己下面這四個問題:
(1)你決心利用資料科學來為制定戰略決策服務或是打造資料驅動型的産品嗎?
如果你還不确定是否會利用資料科學為制定戰略決策服務或是打造資料驅動型的産品的話,那麼建議暫時不要招聘資料科學家。
隻有當你決心打造一個資料驅動型的決策文化時,資料科學才能更好地為制定戰略決策服務。你可能并不是一開始就需要它,不過要招到合适的資料科學家是需要一定的時間的,讓資料科學家了解你的資料和業務同樣是需要一定的時間的。在你打算利用資料科學驅動決策之前,這些工作都需要提前做。
資料驅動型産品可以通過利用資料持續改善和優化産品,進而創造更多的價值并取悅更多的使用者。如果你這些在你的産品路線圖上,那麼你應該盡早招資料科學家進來。資料科學家可以在産品設計、資料搜集和系統架構等方面做出關鍵性決策,這對于打造一款真正優秀的産品非常重要。
(2)你能夠搜集到你需要的資料并且讓資料驅動行動嗎?
公司的創始工程師可以依靠很少産品和設計指導的情況下就能開發一個最小可行性産品。資料科學則需要大量的資料。推薦系統依靠監測你的産品來追蹤使用者行為,優化業務決策則需要依靠對關鍵性的活動和輸出進行精密測量。
光搜集資料是遠遠不夠的,隻有資料能夠真正驅動行動的時候,資料科學的價值才能顯現。資料應該去推動産品的疊代完善,同時能夠驅動公司的關鍵績效名額(kpi)。
為了真正落實這一理念,這就需要在全公司範圍内明确每款産品需要搜集什麼資料,同時制定清晰的搜集和維護資料的架構和流程。這需要資料科學家、工程師和産品經理的協同配合,而所有這些又都需要管理層的支援和承諾。同樣的道理,資料驅動型決策也需要公司 ceo 自上而下的支援和決心,確定全公司都能決心依靠資料來做決策,而不是依靠依靠職位高的人的意見進行決策。
(3)你搜集的資料裡有足夠多有用的信号來幫你擷取有意義的見解嗎?
很多人将大量資料和資料科學等同起來,然而數量并不是一切。真正的資料科學是從噪音中的資料裡提取有用的資料信号。
有用的信号不光取決于資料量的大小,還取決與信号和噪音的比例。舉個例子,一個廣告産可能會從數十億的廣告曝光中搜集資料,然而隻有少數使用者與廣告互動的情況下才是真正有用的資料信号。是以,通常情況下大量的資料隻能産生少量有用的信号。
(4)你是否需要讓資料科學成為你的核心競争力,或是否可以将資料科學工作外包出去?
要打造一支資料科學團隊是非常困難而且是需要大量資金支援的。如果通過外包就能完全滿足你在資料科學方面的需求的話,那麼不妨将這項工作外包出去。有人建議可以明智地利用外部的顧問來做這項工作,不過還有一個更好的建議,那就是通過利用市場上現有的産品和解決方案來擷取資料、建立模型、實作自動化操作并給出關鍵的分析報告。它可能不是專門為你的需求量身定制的完美解決方案,不過為了能快速推進業務、同時能夠讓核心團隊成員專注在能創造最多價值的工作上,在這方面做一點點妥協也是值得的。
你什麼時候需要将資料科學作為自己的核心競争力呢?如果資料科學正在解決對你能否成功起着至關重要作用的問題的話,這時你就不能将這項工作外包出去了。市場上現有的解決方案很多時候也非常死闆不靈活。如果你的公司正在嘗試利用一種獨特的方法解決一個新問題的話(例如搜集全新類型的資料或是以全新的方法使用資料),這時市場上現有的解決方案可能就無法滿足你的需求了。
(jeremy stanley 在位于舊金山的 instacart 總部)
那麼你什麼時候應該開始組建資料科學團隊呢?
資料科學,首先需要足夠多的資料才能開展下面的工作,而大部分公司一開始并沒有足夠多的資料的。
在招聘資料科學主管或組建資料科學團隊之前,要確定你有工作可以讓他們可做。同時,你需要盡早開始搜集一些關鍵資料,一旦你準備好之後,資料科學團隊就可以立刻施展身手、發揮作用。
如果你還沒有資料,這時誰負責決定該搜集什麼樣的資料、何時搜集資料呢?這個決策者并不一定需要是資料科學家,但最好是能了解不同資料集的潛力且能夠做資料投資政策決策的人。如果你已經知道自己将會花很多的時間和金錢在資料的擷取上,這時你或許就應該做一些少量的投入去招聘你的第一個資料科學家了。
可能你現在立刻就需要資料,因為你的業務就是提供資料産品。然而你的最小可行性産品可能并不是資料驅動型産品。這時你隻能将賭注壓在你的直覺上,看你的直覺是否能為市場所驗證。在這種情況下,過早地在資料擷取和資料科學上進行投入隻會浪費你寶貴的資金和時間,這些時間和金錢應該用在将最小可行性産品推向市場上。一旦你有可供資料科學家處理使用的資料後,同時也決心投入大量的産品、工程和業務資源來支援你的資料科學工作的話,這時,你就應該快速組建一支資料科學團隊了。
要在公司在灌輸一種重視資料的文化,越早越好。從使用者擷取到産品釋出再到收購,所有這些重要決策都應該基于資料而非大家的意見。将資料科學引入公司的另一個好處就是它能夠讓大家認識到資料是公司的一級資産。
一次成功的産品釋出應該是能否幫你搜集足夠多的資料供學習的。如果讓我們給出一個最重要的建議的話,那就是:在你驗證了你的最小可行化産品(mvp)之後,這時你就應該考慮在資料科學上進行投入了。
你應該将資料科學團隊放在公司裡的什麼位置上?
你将資料科學團隊放在公司裡的什麼位置上,這對團隊以及整個公司的業務都會産生很大的營銷。目前有三種方法:一個完全獨立的資料科學團隊,嵌入型團隊,完全整合型的團隊。每種方法其實都各有利弊。
(1)讓資料科學團隊完全獨立
在資料科學團隊完全獨立情況下,這個團隊和其它諸如工程團隊是并列的。資料科學團隊的負責人可能會想産品 / 工程副總裁、甚至是 ceo 直接彙報工作。
這種獨立模式的優勢的它有充分的自主權。這種資料科學團隊可以自主決定解決它認為最有價值的那些問題。作為一個完全獨立的團隊存在還有另外一個象征性的優勢,就是它彰顯了公司是将資料視為一級資産的,這有助于公司吸引更多頂尖的資料科學人才加入。
這種獨立的模式對于那些決策科學團隊尤其有幫助。盡管基于資料決策的科學家是和産品團隊緊密合作的,不過他們獨立的身份可以幫助他們更好地做出艱難地決策,例如可以告訴産品經理他們的産品名額還不夠好,是以暫時還不能釋出。
這種作為一支獨立團隊存在的模式的弊端就是它可能會面臨被邊緣化的風險。随着公司裡産品團隊規模慢慢擴大,他們經常傾向于一切都能自給自足。雖然他們可以從與資料科學家的合作中受益,但産品團隊還是不希望依靠他們自己無法徹底掌控的資源。他們想一切都能依靠自己,為此,産品團隊甚至會以招聘 “研究工程師” 的名義招聘自己的資料科學家,這樣他們什麼就可以掌控了。如果産品團隊拒絕和獨立的資料科學團隊合作的話,那麼資料科學團隊就面臨被邊緣化的風險,無法發揮應有作用。這時很多優秀的資料科學家也将離你而去。
linkedin 最初的資料科學團隊也是一個獨立的團隊,自主性讓這個團隊在 linkedin 的很多産品上都做出過關鍵性的貢獻,從提升 “你可能認識的人” 的推薦品質到有效監測虛假賬号等等。然而随着 linkedin 規模日益壯大,作為獨立團隊的資料科學團隊與産品團隊的有效協作變得越來越難,尤其是當産品團隊後來自己招聘了具有和資料科學團隊類似技能的工程師後更是如此。最終根據實際需要,linkedin 決定不再将資料科學團隊作為一個獨立的團隊。
(2)讓資料科學團隊作為一個嵌入型團隊
在嵌入型模式下,資料科學團隊将人招進來後,會将這些人派遣到公司不同部門和項目中去。這時雖然還有一個資料科學主管,但他 / 她充當的主要是招聘經理和指導員的角色。
作為一種嵌入型團隊,為了確定團隊成員效用,它放棄了自主權。最好的情形是,資料科學家分别加入最需要他們技能的産品團隊中,幫助解決公司記憶體在的一系列問題。
這種嵌入型的團隊模式當然也是有自己的弊端的。并不是所有資料科學家都願意放棄自主權(事實上很多都不願意放棄)。資料科學家的職位描述裡非常看重創意和首創精神,然而作為一個嵌入角色,通常要求他們完全服從被嵌入團隊的主管的上司。
還有就是,作為嵌入團隊成員,這會讓資料科學家感覺自己是個 “二流公民”,被嵌入團隊的上司會認為自己不應該對這些安插到自己團隊中的資料科學家的職業發展負責,而資料科學團隊主管也會認為這些人不直接歸自己管理。我們發現很多公司采用的都是這種方式,其實隻有當你的資料科學團隊規模比較大時才适合采用這種方法。
(3)完全整合型
在完全整合型的模式裡,已經沒有單獨的資料科學團隊了。事實上,這時是由産品團隊自己去招聘和管理自己需要的資料科學家。
完全整合型有利于公司内部合作。讓資料科學家成為産品團隊裡的 “一流人員” 解決了獨立團隊和嵌入型團隊的一些弊端。這時,資料科學家、軟體工程師、設計師和産品經理都圍繞共同的産品目前通力協作,讓大家更有團隊意識,有效避免團隊内部出現縫隙。
然而完全整合型模式的弊端是它稀釋了資料科學家的身份。每一個資料科學家都隻能與所在的産品團隊相關聯,而沒有一個集中式的資料科學團隊。此外,這種模式沒有嵌入型團隊模式靈活,因為在完全整合型團隊模式下,你更難根據每個資料科學家的興趣和技能對他們進行靈活調動。最後,完全整合型的團隊模式也給資料科學家的職業發展帶來了挑戰,因為每個資料科學家所在的團隊的上司可能并不能客觀地評估他們的價值或是獎勵他們取得的成績。
在 instacart,資料科學家就是完全被整合進産品團隊的。每一個産品團隊都有自己的工程師、資料科學家、設計師和産品經理,工程師和資料科學家都向技術主管彙報工作,而技術主管自己可能并不是工程師或資料科學家。這個組織結構保證了工程師和資料科學家能夠緊密合作,他們可能做任何有助于實作所在團隊目标的工作。而作為資料科學副總裁,jeremy 主要為資料科學家和他們的團隊上司提供指導。
上面介紹的三種模式各有利弊,你必須确定哪種方法适合自己的公司情況,并且做好根據實際需要實時調整的準備。有時候最好的方法不是一個單一的模式,而是混合模式。
(圖中是 daniel tunkelang)
如何打造一個尊重和重視資料科學的公司文化
随時公司規模的不斷壯大,你可能需要招聘越來越多的資料科學家。這裡順帶推薦 jeremy 的另一篇不錯的文章:《怎樣才能持續聘到優秀的資料人才?》。如果你能盡早在公司内部打造一個尊重和重視資料科學的文化,這将為公司後續發展帶來諸多益處。
很多公司聲稱自己是資料驅動的公司,他們搜集很多資料,在資料工程上也投入了很多錢,但最後還是功虧一篑。
行動勝于雄辯,隻有在一個真正基于資料做決策的公司裡,資料科學才能真正發揮價值。
你需要在公司内部建立這樣的原則和可信度:即使是有悖于常識或是可能會造成公司内部的權利劇變,你依然會基于資料進行決策。隻有這樣,才能真正在公司裡形成尊重資料科學的文化并讓資料科學發揮最大的價值。
和其他人一樣,資料科學家也希望自己的工作被認可。隻要做到尊重和重視資料科學,這就會形成一種良性的回報循環,資料科學家将會更有動力攻克一些艱難的重大問題,同時確定他們的解決方案是可以衡量的。
承認和認可資料科學家的貢獻有時是非常困難的,尤其當他們被整合到其他團隊中時更是如此,這就需要你的資料科學主管非常優秀而且有影響力,同時公司高層管理人員應該定期去了解和認識到資料科學家對公司業務做出的貢獻。
如果資料科學家不和産品經理、工程師和設計師緊密合作的話,他們是無法開發出卓越的産品的。如果主管上司不重視和欣賞他們的見解的話,資料科學家也将無法對産品産施展影響。
在 jeremy 剛開始加入 saithru 擔任資料主管的時候,公司内的整個工程師團隊對資料科學是持一個非常中立的看法的。為了讓大家重視資料科學,在前兩個月,他将自己 30%的時間都用在了給工程師團隊設計和教授一門有關統計學習的課程。在這門課程上,他将的所有例子使用的都是 sailthru 的資料,給大家講述打造資料驅動産品的各種一處。這門課程很快改變了工程師團隊對資料科學的看法。最後證明,jeremy 為了讓大家認識到資料科學的重要性而花的大量時間是非常值得的。
随着時間的推移,你打造的資料科學團隊的成員将有不同的技能組合、不同的背景和世界觀,這時他們也将發揮越來越大的影響。最後,為了讓資料科學團隊能更高效地工作,資料科學家必須要被團隊成員、使用者和公司決策者所信任。在組建團隊的過程中,要招聘那些真正認同公司價值觀的人,因為他們日後将給公司造成的影響是非常巨大的,或好或壞,他們做的決策可能會塑造公司的未來。
往期精彩文章推薦,點選圖檔可閱讀
[幹貨] 一個資料科學家的新年計劃
[譯]天龍八步:8步讓你變成資料科學家
原文釋出時間為:2016-04-26
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号