雲栖号: https://yqh.aliyun.com 第一手的上雲資訊,不同行業精選的上雲企業案例庫,基于衆多成功案例萃取而成的最佳實踐,助力您上雲決策!
如何確定你的項目保持在正軌上。
如果你是産品經理,想要用機器學習來做一些事情,這裡列出了 4 件最重要的事情:
- 優先考慮工程而不是資料科學

一個機器學習項目首先是一個軟體項目。許多資料科學家在建構架構良好、可靠、易于部署的軟體方面缺乏經驗。當你建構一個生産系統時,這将成為一個問題。
根據經驗,工程師掌握資料科學技能的速度要比資料科學家掌握工程經驗的速度快。如果有疑問,請與擁有 5 年以上經驗、對人工智能充滿激情的 python 工程師合作,而不是首次嘗試建構商業應用的資料科學博士。
-
保持高效
盡早降低風險很重要。用具體的裡程碑來組織你的項目:
完成原型:檢視你的想法是否有希望在 1-2 周内完成
離線測試系統:對模型進行調優,并在 2-4 周内對現有資料進行嚴格測試
線上測試系統:最終确定模型并在 2-4 周内進行測試
上線:自動化資料更新、模型訓練和代碼部署 2-4 周
持續改進:(可選)12 個月
總時間:1-3 個月
一個有經驗的團隊應該能夠為幾乎所有的項目遵循這些時間表。讓團隊在 1-3 個月内建立一個實時系統。上線後,再決定是否值得進一步改進。
這些誘惑會不必要地延長你的項目:
等待完美的資料
使用錯誤的工具(太複雜或太慢)
可擴充性的過度工程化
無休止地玩弄算法(見下一點)
- 算法不重要
機器學習系統有很多有趣的按鈕可以使用。不要這麼幹。
這些改進值得花時間(按重要性排序):
擷取更多(相關)輸入資料
對資料進行更好的預處理
選擇正确的算法并進行正确的調優。
算法是最不重要的因素。簡單地選擇一個可行的算法。無休止地更新算法是很誘人的,但它可能不會提供你期望的結果。
- 交流,交流,交流
分享盡可能多的業務場景
一旦工程團隊開始建構,他們必須做出許多選擇。他們越了解你的輕重緩急,就越能做出正确的決定。至少,你應該告訴他們:
戰略重點
這是一個關鍵的問題嗎?它是否需要每天處理數百萬個請求?這是不是一個未來産品的研究?
目前的問題
目前處理流程是否太長?是不是太不準确了?還是有很多資料沒有機器學習就無法計算?
輸入和輸出
輸入:你(作為一個人)将使用哪些資料來做出正确的決策?輸出:誰将使用輸出?使用的頻率?它需要是實時的嗎?
性能名額
最重要的名額是什麼:點選率?銷售?投資回報?假陽性?
預計精度
如果你想要優化轉化率,那麼它可能不值得再花 2 周的時間來獲得 2%的準确率。如果你建立了醫療診斷系統,那麼即使是 1%的假陰性也是不可接受的。
TL;DR
工程優先于資料科學。
通過精益來降低風險。
不要被算法分心。
與開發人員共享所有業務需求。
原文釋出時間:2020-01-15
本文作者:datarevenue
本文來自阿裡雲雲栖号合作夥伴“
AI公園”,了解相關資訊可以關注“
”