本文是機器學習入門教程的第四篇,前三篇分别是:
一個“傳統”的産品團隊由設計師、工程師和産品經理組成,而資料分析師有時也會包含在其中,但大多數情況下是多個團隊共享這個稀缺的資源。在資料科學成為公司dna一部分的時候,資料科學家必須要成為産品團隊的一個重要組成部分,而不是被視為一個單獨的個體。開發具有業務影響力的模型需要設計師、項目經理、工程師與資料科學家一起通力協作。
我們以前讨論過機器學習的開發過程。在這裡,我們将重點介紹團隊的組成,以及在開發過程中不同人員角色的職責。
構思階段:在這個階段,需要有對問題相關領域有深入研究的專家,他們知道哪些因素可能會影響選擇或者結果。例如,如果你正在建立房屋估值模型,那麼你需要一個真正的房地産專家,他們知道如何對房屋進行估價以及影響價格的因素。即使資料科學家碰巧在這個領域有一些經驗,但是從其他組織或者團隊的商業專家那引入新的想法來檢查你自己的想法也不失為一個好的主意。
資料準備:這通常由資料科學家主導,在工程師的幫助下收集資料、整合api等等。産品或業務人員必須重度參與進來,依靠現有的人際關系協助進行外部資料的采集。
原型化與測試:這個主要是資料科學家的工作。産品或者商務人士必須非常緊密地伴随在一旁,檢視結果并幫助确定結果是否具有商業意義或是否需要進一步的疊代。
産品化:這需要資料科學與工程進行結合。支撐資料收集的任務在很大程度上依賴于資料需求和來源。如果使用外部資料,你可能需要通過建構刮闆來收集資料,需要具備前端知識、調用各種api或從各種供應商和合作夥伴那裡擷取資料。另外,還需要對生産化資料和擴充資料進行清理和處理,這在很大程度上屬于後端任務。工程師還要與資料科學家通力合作,確定模型的規模化,驗證生産結果的品質是否符合要求。
整體系統架構:要確定整體系統滿足業務需求,需要有具備架構和擴充複雜分布式系統經驗的工程師。系統的複雜程度取決于要完成的任務。
資料科學是一個相對較新的領域,它以一種新的方式将各種現有領域融合在一起。在大學裡,直到現在還沒有“資料科學”學位,是以人們傾向于将其看成是一個由各種相關學科和背景組成的領域。
資料科學的關鍵是統計學、計算機科學、經濟學或計量經濟學。
不同背景和技能的組合對于一個團隊來說可能是非常重要的。團隊中的每個人都會帶來不同的東西。特别是在你處于一個新興領域,并需要大量新思維的時候,結合不同的背景往往會給問題的解決帶來多種不同的創新方案。
資料科學家對工程團隊的依賴程度各不相同。模型工程師通常能夠端到端地工作,在沒有其他人幫助的情況下進行模型地原型設計和系統部署,而其他人則需要工程團隊的更多幫助。根據工程團隊的可用性群組成,你可能需要一個或多個獨立的資料科學家。另一個需要考慮的,是問題所屬的領域。例如,擁有計量經濟學的背景對于選股應用程式比自主駕駛車輛更為重要。
工程、産品和資料科學之間有着緊密的聯系。從傳統上來講,人們傾向于将資料科學包含在工程中,然而,随着資料科學在組織中作用的不斷變化,新的結構正在出現。我看過三個不錯的結構,每一個都有自己的優缺點。
将資料科學劃歸給工程部門能夠使學科之間保持完全一緻,并且無需将資料科學和工程技能割裂開來。許多與資料科學家一起工作的工程師對這門學科都很好奇,期望能深入學習來充實自己的技能。我看到一些工程師們對機器學習就像對“填字遊戲”一樣的熱衷,而其他一些人則選修了機器學習課程,希望有朝一日能成為一名資料科學家。團隊之間的界限越小,就越能培養出具備端到端工作能力(包括構模組化型并生成代碼)的資料科學家和工程師。
這種組織結構還有助于簡化整個系統,包括資料科學使用的用于原型設計的機器學習架構,以及工程團隊支撐的産品化系統和架構。這還有助于確定機器學習的架構和架構能得到它們應有的重視。
由于産品需求是資料科學發展的外部驅動因素,是以将資料科學劃歸給産品部門可以保證原有目标和可傳遞成果之間的一緻性。從本質上講,産品負責人對所有資料科學項目和活動都有報告級别的可見性,這有助于讓項目成員優先考慮資料科學,并確定資料科學推動業務的發展。這也有助于促進産品和資料科學之間的緊密合作,這是至關重要的。這個的先決條件是産品部門的人,他既要了解資料科學和産品是如何協同工作的,還要緻力于産品開發和資料科學基礎設施的開發。
這有利于提高資料科學團隊的知名度,使其對于整個組織的接觸更加便捷。這種模式能讓資料科學團隊負責人更直接地了解高層戰略決策,并通盤考慮所有業務利益相關者的意見和需求。
并不存在一個“正确的答案”,這一切都取決于組織、目标、團隊和團隊上司的力量。根據經驗,聯合組織結構通常能促進團隊之間的一緻性,因為在頂層隻有一個決策者。考慮一下在組織中哪些領域更容易發生溝通和協作問題,并讓這些團隊向同一個主管彙報。
文章原标題《roles, skills and org structure for machine learning product teams》,作者:yael gavish,譯者:夏天,審校:主題曲哥哥。