天天看點

大資料項目緣何失敗?分析模型需要與業務相結合

現在通常是資料科學家和統計分析人員自己寫算法,建構預測模型。pitts認為,算法和分析模型需要經曆建立、測試和運作的階段,在資料産生之前,這些工作應該是已經做好了的。“要解決一個問題,其實百分之八十的時間都花在資訊收集上,而資訊收集一開始就應該和業務相關聯。”

技術與業務不能各自為政

咨詢公司hurwitz & associates的總裁兼ceo judith hurwitz也同意pitts的觀點。她認為,大資料分析項目主要是對資料進行挖掘,找出和企業相關的資訊。這個過程中,需要模組化人員與業務使用者的合作。模組化工作不能孤立地完成。

咨詢公司abbott analytics的總裁dean abbott也認為,如果模組化人員不了解業務,預測分析就不能發揮出價值。“無論是不是大資料,模組化都應該以特定的業務問題為基礎。我見到過很多公司的資料項目都因為技術人員不懂業務而失敗,結果往往是模組化本身很好,但卻沒法實際應用。”

成功的項目來源于無數次的失敗

pitts介紹到,在他的公司,業務問題和相關的資料集一旦确立,預測模型的開發基本上是一個可疊代的過程。分析團隊會建立多種不同的模型,比如線性回歸模型和神經網絡模型,進而找出最适合使用的應用程式。在模組化的同時,技術人員會建立獨立的資料沙箱,包含相關資訊,并且與資料庫隔開。這樣技術人員就可以深入了解不同的選項,測試不同的樣機模型。確定模型能夠正常傳遞使用。

pitts所在的highmark公司使用的是sas軟體供應商的資料模組化、資料挖掘和分析工具。他們的模組化首先關注的是對保險理賠和健康檔案的分析,公司借此判斷哪些患者需要額外的醫療服務(比如沒有接受接種育苗、後期護理的人)、哪些人的症狀表明他有可能患有疾病(比如糖尿病、心髒病)。分析團隊也會關注臨床幹預,幫助患者快速恢複健康,或降低醫療成本。

因為資料科學家需要嘗試不同的方法建構資料模型,是以這個過程要花費較長時間,而且經常會失敗。pitts指出,正因為如此,項目需要獲得高層上司者的支援,這樣才能保證項目能夠持續下去。項目管理者要讓業務上司和企業上司了解項目的特點,不能讓項目因為失敗或成本過高而流産。

繼續閱讀