天天看點

像資料科學家一樣思考:12步指南(下)

第三階段-完成

一旦産品建構完成,你仍然需要做一些事情來使項目更加成功并使你的未來生活更輕松。那麼我們如何完成資料科學項目呢?

10-傳遞産品

像資料科學家一樣思考:12步指南(下)

完成階段的第一步是産品傳遞。為了建立可以傳遞給客戶的有效産品,首先必須了解客戶的觀點。其次,你需要選擇最佳的方式将項目成果回報給客戶。最後,你必須選擇要包含在産品中的資訊和結果以及要放棄的内容。在産品建立和傳遞過程中做出好的選擇可以大大提高項目的成功機會。

溝通媒介可以采取多種形式。在資料科學中,産品最重要的一個方面是客戶是否積極參與産品并且能夠使用産品來回答多種可能的問題。具體的溝通媒介有很多方式:

·      

向客戶送出結果可能是最簡單的選項,其中包括文本、表格、圖表和其他資訊,這些資訊可以解決你的項目要回答的部分或全部問題。

在一些資料科學項目中,資料集的分析和結果也可用項目原始資料範圍之外的資料,其中可能包括原始資料生成的資料、其他不同來源的類似資料、或由于某種原因尚未分析的其他資料。在這種情況下,如果你可以為客戶建立可以執行分析新資料集并生成結果的分析工具,對客戶有所幫助。同時客戶可以有效地使用此分析工具,并繼續在将來和各種(但類似的)資料集中回答他們的主要問題,這是最好的情況。

如果你想提供比分析工具更好的産品,你可能需要建構某種類型的完整的應用程式。如果你正在考慮提供互動式圖形應用程式,那麼你必須設計,建構和部署它。通常,這些都不是一項小任務。如果你希望應用程式具有許多功能并且具有靈活性,那麼設計它并建構它将變得更加困難。

除了決定提供結果的媒介外,你還必須決定它将包含哪些結果。有些結果和内容可能是包含的明顯選擇,但對于其他資訊位,可能不那麼明顯。通常,你希望包含盡可能多的有用資訊和盡可能多的結果,但你希望避免客戶可能誤解或誤用你選擇包含的結果。在許多情況下,這可以是微妙的平衡,并且它在很大程度上取決于具體項目以及客戶和其他人對結果的知識和經驗。

11-進行修訂

像資料科學家一樣思考:12步指南(下)

産品傳遞後,我們會在初步回報後繼續修改産品。一旦客戶開始使用該産品,就有可能出現一系列全新的問題。盡管你付出了最大努力,但你可能沒有預料到客戶使用産品的方式的各個方面。即使産品完成了它應該做的事情,你的客戶和使用者也可能不會做這些事情并且有效地完成這些工作。

通常很難從客戶、使用者或其他任何人那裡獲得建設性的回報。是以一些資料科學家提供完産品後就會忘記它們,一些資料科學家提供産品後會選擇等待客戶提供回報。進行産品修訂可能會非常棘手,找到合适的解決方案和實施政策取決于你遇到的問題類型以及你需要更改以解決問題的方法。如果在整個項目過程中,你始終保持對不确定性和許多可能結果的認識,那麼你發現自己現在面臨的結果與你之前預期的結果不同可能就不足為奇了。但是,如果你一直勤奮,問題很小,修複相對容易。

一旦你發現産品出現問題并弄清楚如何修複産品,仍然需要決定是否修複産品。一些人最初的傾向是每個問題都需要解決,這不一定是真的。如果有理由可以說服你不想進行修複問題,那就需要慎重考慮了,因為如果選擇盲目地修複發現的每個問題,那一定會花費大量的時間和精力。

12-結束項目

像資料科學家一樣思考:12步指南(下)

資料科學過程的最後一步是将其包裝起來。随着資料科學項目的結束,似乎所有的工作都已完成,剩下的就是修複任何剩餘的錯誤,然後才能完全停止思考并繼續下一個。但在完成項目調試之前,你可以采取一些措施來增加未來成功的機會,無論是擴充同一個項目還是完全不同的項目。

現在有兩種方法可以增加你未來成功的機會。一種方法是確定在将來的任何時候你都可以輕松地再次擷取該項目并重做、擴充或修改它。通過這樣做,你将增加在後續項目中獲得成功的機會,是以,你需要從現在開始開始挖掘項目材料和代碼并記下你用什麼做的或者你是怎麼做到的。最實用的方法是通過文檔和存儲。

提高未來項目成功率的第二種方法是盡可能多地從這個項目中學習,并将這些知識帶到每個未來的項目中。通過進行項目分解,你可以從中梳理出有用的知識,這包括審查舊目标、舊計劃、技術選擇、團隊協作等。是否可以應用于未來項目,通過項目回溯在事後進行思考,可以幫助發現有用的知識,使你能夠以不同的方式做事,并在下次更好。

不确定性充斥在我們每個人工作的方方面面,記住過去給你帶來問題的所有不确定因素,可以防止類似的事情再次發生。從資料到分析再到項目目标,幾乎任何事情都可能在短時間内發生變化。了解所有可能性不僅是一項艱巨的挑戰,而且幾乎是不可能的。良好的資料科學家和偉大的資料科學家之間的差別在于能夠預見可能出現的問題并做好準備。

結論

資料科學仍然具有新領域的光環。它的大多數組成部分:統計學、軟體開發、基于證據的問題解決等等,這些可能是屬于舊領域的知識,但資料科學似乎是這些部分的新組合成新的東西。資料科學的核心并不關心特定的資料庫實作或程式設計語言,即使這些對于從業者來說是必不可少的,其核心應該是資料内容,給定項目的目标以及用于實作這些目标的資料分析方法之間的互相作用。

本文由阿裡雲雲栖社群組織翻譯。

文章原标題《how-to-think-like-a-data-scientist-in-12-steps》作者:

James Le

譯者:虎說八道 審校:袁虎

文章為簡譯,更為詳細的内容,請檢視

原文

繼續閱讀