大咖丨IBM首席資料官:高效的資料科學團隊如何建設

資料科學是一項團隊活動。這一點不僅基于我們IBM内部的工作經驗，對于那些經常向我們咨詢應如何在自己的組織内組建資料科學團隊的企業客戶也同樣适用。

然而在此之前要記住，對于一個資料科學項目，其所需的各種技能都是非常罕見和獨特的。是以我們需要確定團隊中的每個成員都能專注于他們自己最擅長的事情。

資料科學項目的角色配置設定、以及每個角色所需的技能如下表所示：

雖然每個角色配置設定都是明确的，但每個團隊成員都必須具備T形技能——這意味着他們不僅需要深入自己的角色，而且還要粗略了解相鄰角色。

下面讓我們更深入地探索上述圖表中的四個角色。

産品所有者

産品所有者是所負責産品的主題專家，他們對特定的業務部門及其相應關心的問題有深入的了解。在一些情況下，産品所有者将主要負責業務方面，他們也定期與資料科學團隊合作以解決特定的資料科學等一系列問題，然後再回到更宏觀的主題專家角色上去。

事實上，回到原始角色是資料科學團隊的一個好處。這意味着産品所有者作為模型的最終使用者，可以提供具體的回報和請求。這也意味着産品所有者可以從業務部門本身提倡資料科學。

産品所有者主要負責：

定義業務問題并與資料科學家合作來定義工作假設

根據需要幫助查找以及管理資料

代理和解決資料品質問題

資料工程師

資料工程師是将所有資料移動到重心并通過服務和消息隊列連接配接資料的向導。他們還通過建構API以使資料可用于企業，他們負責将資料設計到最适合團隊需求的平台上。作為一位資料工程師，需要具備下面三大技能：

熟練掌握以下至少三種語言：Python，Scala，Java，Ruby，SQL

熟練使用和建構REST API

能熟練的将預測和規範模型整合到應用程式和流程中

資料科學家往往指的是兩個不同的角色之一：機器學習工程師和決策優化工程師。由于市場條件導緻“資料科學家”成為相當熱門的角色，是以做出這種區分可以幫助消除了解上的困惑。

機器學習工程師需要建立機器學習模型，也即識别每個模型中使用的重要資料元素及其特征。他們确定要使用哪種類型的模型，并測試這些模型的準确性和精度；他們還負責模型的長期監測和維護。他們需要這三大技能：

應用機率和統計的教育訓練和經驗

具有資料模組化和評估經驗，對有監督和無監督機器學習有深入的了解

能在以下至少兩種語言中進行程式設計：Python，R，Scala，Julia或Java，其中偏好Python專業知識

決策優化工程的技能和經驗與機器學習工程師重疊，但也有一些重要的差異。決策優化工程師需要這三大技能：

具備通過應用數學模組化和/或限制規劃的經驗解決一系列行業問題的能力

熟練的Python程式設計技巧，具備将預測模型應用于決策優化問題的能力

具有建立蒙特卡羅模拟/優化進行假設情景分析的經驗

接下來是資料記者，他們在推動資料的背景下呈現模型輸出，并且可以清楚地表達業務問題。成為一名資料記者，我們尋找這三大技能：

具備Python、Java或Scala編碼技能

具備在業務問題的背景下整合資料、預測模型和預定性模型輸出的相關經驗

熟練掌握資料解析、抓取和糾錯

如果你能把一個擁有這些基本技能的團隊聚集在一起，并且能確定他們互相協作、保持對彼此工作的深刻了解，那麼你定将發現你的洞察力和了解能力，可以成為你上司任何組織的超強動力。

但是如果沒有他們，你将會迷失方向。

Seth Dobrin是IBM Analytics的副總裁兼首席資料官。

原文釋出時間為：2018-01-10

本文作者：文摘菌

大咖丨IBM首席資料官:高效的資料科學團隊如何建設

繼續閱讀

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

在python中建立excel并寫入