本節書摘來自異步社群《資料科學與大資料分析——資料的發現 分析 可視化與表示》一書中的第2章,第2.7節,作者【美】emc education services(emc教育服務團隊),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
在最後這個階段,團隊更廣泛地言傳項目的好處,并建立一個試點項目以可控的方式來部署項目成果,然後再将成果應用到整個企業或者使用者生态系統。在第4階段,團隊在分析沙箱中對模型進行評估。如圖2.8所示,第6階段是大多數分析團隊第一次在生産環境中部署新的分析方法或模型。團隊在大規模部署模型之前,可以先在小範圍内實驗性地部署, 進而學習部署經驗和有效地管控風險。這種方法使得團隊可以在小規模的生産環境中研究模型的性能和相關限制,并在完全部署前作相應的調整。在試點項目中,團隊可能需要考慮在資料庫中運作算法,而不是在r等記憶體工具中,因為算法跑在資料庫中明顯比在記憶體中更快和更高效,尤其是當資料集很大時。

在設定試點項目中涉及的工作時,還要考慮針對一組離散的産品或單條業務線在生産環境中運作模型的情況,這将在實際場景中測試模型。這讓團隊從部署中學習,并在整個企業釋出模型前進行任何必要的調整。請注意,這個階段會引入一系列新的團隊成員,通常是負責生産環境的工程師,他們有不同于核心項目團隊的新問題和關注點。該技術團隊需要確定模型能在生産環境中平滑運作,并能內建到相關的業務流程。
實施階段的任務包括建立一個對模型精度持續檢測的機制,并且在精度下降時,設法重新調試模型。如有可能,設計當模型運作出界(out-of-bounds)時産生警報。出界情況包括輸入超出模型訓練的範圍,這可能會導緻模型的輸出不準确或無效。如果該情況經常發生,則需要新的資料來重新訓練模型。
分析項目常常會對人們認識膚淺或者認為不可能探索的業務、問題或想法産生新的見解。要滿足大多數利益相關者的需求,可以建立四種主要可傳遞成果。其建立方法将在第12章中詳細讨論。
圖2.9描述了一個分析項目中每一個主要利益相關者的關鍵輸出,以及他們預期的項目結論。
業務使用者通常試圖确定項目的結果對業務産生的效益和影響。
項目發起人通常會問問題,關于項目的業務影響力、風險和投資回報率(roi),以及項目在組織機構内外的推廣方式。
項目經理需要确定該項目是否按時完成,是否控制在預算内,以及目标是否達成。
商業智能分析師需要知道他管理的報告和儀表闆是否會被影響以及是否需要改變。
資料工程師和資料庫管理者(dba)通常需要共享他們在分析項目中的代碼,并建立技術文檔來介紹實作細節。
資料科學家需要共享代碼并向他的同伴、經理和其他利益相關者解釋模型。
雖然這7個角色在一個項目中有各自的興趣點,這些興趣點通常存在重疊,其中大部分可以通過4種主要的可傳遞成果來滿足。
針對項目發起人的示範文檔:這包括給高管級别利益相關者的資訊,其中有些關鍵資訊可以幫助他們進行決策。文檔要注重簡潔和圖案,以友善示範人員進行講解,同時便于聽衆掌握。
針對分析師的示範文檔:描述業務流程的變化和報告的變化。資料科學家可能想要細節,并且習慣于技術圖表(比如,觀測者操作特征(roc)曲線、密度圖和在第3章和第7章所示的直方圖)。
針對技術人員的代碼。
實施代碼的技術規範。
一般而言,當閱聽人越是高管,越需要表達簡潔。大多數高管項目發起人每周或每天都會參加很多報告會,是以確定陳述迅速切入要點,并闡述結果對發起人組織機構的價值。例如,如果團隊正在與一家銀行合作分析信用卡欺詐的案例,則要重點強調欺詐頻率,在過去一個月或一年發生欺詐的次數,以及對銀行造成的成本或營收的影響(或者關注對立面,即如果解決了欺詐問題,銀行可以增加多少收入)。這樣做比深層次的方法論更能展現業務影響力。示範則需要包括與分析方法和資料源相關的支援資訊,但通常隻作為輔助細節,或確定閱聽人對分析資料使用的方法有信心。
當向擁有量化背景的閱聽人做介紹時,應該花更多的時間來介紹方法論和發現。這時,團隊可以更加詳細地描述成果、方法論,以及分析試驗。這些閱聽人對技術更感興趣,尤其是當團隊開發了一種新的方法來處理或分析資料,而且該方法可以在将來重用或者用到類似的問題上。此外,盡量使用圖例或資料可視化。雖然可能需要花費更多的時間來制作圖例,但是人們更容易記住用圖檔來示範的内容,而不是一長串資訊 [25]。資料可視化和示範将在第12章繼續讨論。