雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
機器學習似乎已成為每個人都追求的一個宏大目标,超過80%的公司都正在研究至少一個AI項目。

圖源:unsplash
在開始之前,最好先詢問自己以下三個問題:
- “此機器學習模型的準确性如何?”
- “教育訓練時間多長?”
- “需要多少教育訓練資料?”
使用者通常想知道新模型的裝載需要多長時間,以及它的性能或推廣效果如何,他們想要一種根據性能衡量總體成本的方法。但遺憾的是,以上問題的答案并不能解決這個問題。
它們甚至具有誤導性。
模型訓練隻是冰山一角。擷取合适的資料集以及清理、存儲、聚合、标記、建立可靠的資料流和基礎架構管道需要巨大成本,但大多數使用者和AI / ML公司都忽略了這一點。
根據最近的研究,公司在AI / ML項目中将80%以上的時間用于資料準備和工程業務。換句話說,如果将大部分精力放在建構和訓練模型上,則總的工程工作量和成本可能是預計的五倍。
此外,機器學習模糊了使用者和軟體開發商之間的界線。
AIaaS或MLaaS已經開始出現。随着資料的增長,雲端模型不斷改進。也正因如此,MLaaS的業務比SaaS更具挑戰性。
資料來源:黃Bastiane
機器模型從訓練資料中學習,是以缺乏高品質的資料,模型将無法良好運作。在大多數情況下,使用者并不了解生成或注釋适當資料集的最佳做法。
當系統性能不佳時,使用者往往會歸咎于模型。是以,AI / ML公司通常花費大量時間和資源進行教育訓練并與使用者合作,以確定資料品質,這成為AI公司與其客戶之間的共同責任。
例如,要訓練生産線上的缺陷檢查模型,計算機視覺公司需要與客戶合作,以正确的角度和位置安裝攝像頭,檢查分辨率和幀頻,確定每個場景都有足夠的正負面訓練樣本。
某些時候機器人或車輛需要人為操作,是以使用機器人技術或自動駕駛汽車應用程式進行資料收集更加耗時且成本更高。
即使進行了教育訓練課程,且看完了所有使用者手冊和指南,你仍然不能完全控制使用者生成的資料。一家機器視覺相機公司告訴我,他們的工程師會手動驗證所有資料以確定其完整輸入。
所有這些經常被忽視的額外教育訓練、手動檢查、資料清理和标記任務會給AI公司帶來巨大的間接費用。這就是為什麼要建立更具可擴充性的AI/ML項目的原因。那麼該如何解決這個問題呢?
- 可擴充性是關鍵。
确定大量客戶願意購買的正确用例,并使用相同的模型體系結構解決。最後,你需要在沒有标準産品的情況下為不同的公司建構和訓練不同的模型。
- 盡量提供自助服務。
盡可能使教育訓練和資料管道自動化,以提高營運效率并減少對體力勞動的依賴。相比較内部工具或自動化,公司更看重開放客戶可見的功能,但是前者很快就會收到回報,你需要確定為内部流程自動化配置設定足夠的資源。
- 最後,确定并跟蹤成本,尤其是隐性成本。
工程師花費了多少時間清理、過濾或聚合資料?他們花費多少時間來確定第三方正确完成注釋?他們需要多久幫助客戶設定環境并正确收集資料?其中有多少可以自動化或外包?
練級之路可能艱難而漫長,但有些問題是遲早都需要面對的。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/live立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-04-14
本文作者:讀芯術
本文來自:“
51CTO”,了解相關資訊可以關注“
”