天天看點

破解機器學習的誤區——常見機器學習神話究竟從何而來?術語不是很容易了解不切實際的期望無法了解機器學習的機率性質忽略重要細節無法了解機器學習“成功”的含義要記住的7個技巧

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

如果一個人對機器學習有很多誤解,可能會對他的職業和聲譽産生負面影響。

破解機器學習的誤區——常見機器學習神話究竟從何而來?術語不是很容易了解不切實際的期望無法了解機器學習的機率性質忽略重要細節無法了解機器學習“成功”的含義要記住的7個技巧

Forrester Research最近釋出了一份名為“ 粉碎機器學習的七個神話”的報告。在其中,作者警告說:“不幸的是,一些對機器學習項目做出重要決策的企業上司者,普遍存在機器學習的誤解。”

當高管和經理談論AI以及機器學習時,他們有時會犯一些事實錯誤,顯示出他們真正的知識水準。

卡爾森說:“當産品負責人說諸如“我們正在使用強化學習,因為我們将使用者回報納入趨勢模型中”時,這可能不是一件好事。“我曾經和其他分析師一起參加過座談會,聽到的聲音是,'無監督的學習中,您不再需要人工參與或教育訓練',而您正在等什麼呢?”

ABI首席分析師 Lian Jye Su表示,根據他的經驗,大多數高管圍繞機器學習的基本知識和“垃圾進,垃圾出”的原則有一些想法,但是他們中的大多數人都認為機器學習模型是黑匣子,而機器學習需要大量資料。

“我認為這主要是由于卷積神經網絡的普遍存在,它需要大量資料,并且在更多數量的卷積層上可以更好地工作,而且我相信,一旦其他機器學習算法變得越來越流行,這種看法就會慢慢消失,Lian Jye Su說。

一個問題是教育。決策者究竟應該在哪裡學習有關機器學習的真相?盡管Forrester的Carlsson認為兩者之間的交集不見了,但從業人員和企業級别的選擇仍然很多。

“我認為我們需要做最多工作和最大幫助的地方是幫助業務方面的人們充分了解該技術,進而知道這實際上有什麼用?我可以将其應用于哪些類型的問題?” 卡爾森說。

以下是導緻常見誤解的一些因素。

術語不是很容易了解

問題的一部分是術語本身。人們有時将人工智能解釋為像人一樣思考的機器,而将機器學習解釋為像人一樣學習的機器。

ABI Research的Su說:“資料科學家并不是最擅長的術語。” “我認為我們應該部分歸咎于分析師,因為我們經常用大膽的話來介紹新技術。”

不切實際的期望

人們普遍誤以為AI是一門強大的東西,這導緻人們相信AI可以做任何事情。替代地,當不同的技術适合于不同類型的用例時,有時将深度學習解釋為比其他形式的機器學習“更好”。

Forrester的Carlsson說,僅僅從您想要的東西開始,例如用虛拟座席替換呼叫中心中的每個人,并不是很有幫助。他們以增強的方式建立起來,以幫助呼叫中心中的某人。

ABI Research的Su表示,不切實際的期望是炒作接管理性思考的一種情況。根據他的經驗,高管們對期望不可能或不可能實作的想法越來越少。

無法了解機器學習的機率性質

傳統上,軟體是确定性地建構的,這意味着給定的輸入應導緻給定的輸出。基于規則的AI也是如此。另一方面,機器學習有一定的誤差。

Forrester的Carlsson說:“在機器學習世界中,您極有可能永遠無法預測要預測的事物,因為信号不在您擁有的資料中。”

ABI Research的Su表示反對使用機器學習的論點之一是結果的機率性質。它從來沒有像工業機器視覺中使用的正常基于規則的AI那樣清晰。

忽略重要細節

一家發動機制造商希望預測何時需要更換零件。該公司擁有大量有關發動機和發動機故障的資料,但是所有資料都是實驗室資料。現場沒有運作發動機傳感器。是以,該模型實際上無法按預期部署。Forrester的Carlsson說:“在組織中,實際上沒有人監督資料工程方面(機器學習方面)的所有不同僚務。”

在技術能力和這些能力的ROI之間可能會丢失一些常識。例如,已經建立了一些模型,可以為銷售人員推薦良好的客戶。問題是銷售人員已經知道了這些帳戶。

無法了解機器學習“成功”的含義

外行對機器學習和AI的期望往往超出實際。盡管100%的精度看似合理,但在一些情況下,可以花大量時間和金錢再提高1%的精度。

(1) 上下文很重要

例如,當某人的生命或自由受到威脅時,準确度水準會有所不同,而某個百分比的人口可能會因某些事情而受到輕微冒犯。

“圍繞量化問題,有一種完整的思路,根據AI任務的性質,可以合理地降低AI模型的精度,這是一個折衷方案,但前提是這需要在AI上進行部署。邊緣裝置”,ABI Research的Su說。“畢竟,我們的人通常不那麼準确。話雖如此,某些應用程式,例如對象分類,缺陷檢查和裝配線上的品質保證,确實有要求重複性的嚴格要求,而這正是傳統的基于規則的AI所在的地方。

(2) 可能是首選

弗雷斯特(Forrester)的卡爾森(Carlsson)說,每個人都可以建立一個模型,該模型幾乎可以産生99.99%的準确性。預測恐怖主義就是一個例子。這種情況很少發生,是以如果該模型始終都沒有預測到恐怖主義,那麼它将是一個非常準确的模型。

(3) 未能輕易獲勝

科幻小說和廣告使人們相信,有些情況下,他們應該在AI和機器學習方面做得非凡。

Carlsson說:“當您說機器學習或AI時,人們會自動認為他們應該去模仿人類的行為,而這往往會錯過這項技術的巨大潛力。” “機器學習技術确實擅長大規模處理資料,并進行我們人類真正可怕的大規模分析。”

破解機器學習的誤區——常見機器學習神話究竟從何而來?術語不是很容易了解不切實際的期望無法了解機器學習的機率性質忽略重要細節無法了解機器學習“成功”的含義要記住的7個技巧

要記住的7個技巧

(1) 了解機器學習的功能和局限性,并在某種程度上了解适合不同技術的用例。這樣,您不太可能說出技術上不準确的内容。

(2) 一種機器學習技術并不适合所有情況。分類(例如識别貓和狗的圖檔)不同于在資料中查找以前未發現的信号。

(3) 機器學習不是“一勞永逸”技術的集合。生産中的模型傾向于“漂移”,這意味着它們變得不太準确。機器學習模型必須進行調整和重新訓練,以保持其準确性。

Forrester的Carlsson表示:“在軟體開發中,人們對疊代的必要性有這種了解。” “當涉及到依賴機器學習模型的應用程式時,它們必須進行更多的疊代,因為您要疊代資料,實際業務和您串聯使用的方法。因為我們不知道您擁有哪些資料,或者您不知道該資料可以支援哪些業務場景,是以它确實固定在項目開始時。”

(4) 機器學習的準确性與實際資料有關。除了考慮與潛在錯誤相關的風險外,還應了解随着時間推移可能發生的變化。

Carlsson說:“ 50.1%的計算機視覺模型很棒。或者您可以說60%或70%的精度比我們以前做的要好得多。”

(5) 上下文至關重要。無論上下文如何,人工智能和機器學習都無法獲得相同的結果。上下文确定了更好或更差的技術以及給定情況下可接受或不可接受的置信度。

上下文還與解決某個問題所需的資料以及偏差是可接受的還是不可接受的有關。例如,歧視通常被認為是一件壞事,但是為什麼銀行不會隻向任何人貸款數百萬美元,這是可以了解的。

Su說:“在很多情況下,機器學習絕對不利于識别隐藏在資料中的過去偏差。在其他情況下,資料品質很重要,例如像素數,清晰的注釋和幹淨的資料集。” 。

另一方面,如果資料錯誤,則最幹淨的資料将無濟于事。

“人們以為機器學習,甚至AI都将在資料不存在且行不通的情況下以某種方式做出神奇的事情。相反,人們假設隻要我們擁有大量資料, Forrester的Carlsson說,我們将能夠做一些神奇的事情,而這通常都不成立。“在正确的事情上擁有不良品質的資料實際上可以比在錯誤的事情上擁有大量資料更好。”

(6) 了解機器學習是硬體和軟體的結合。具體來說,ABI Research的Su說,軟體功能将僅與硬體可以傳遞或旨在傳遞的能力一樣好。

(7) 傳統的基于規則的AI可能會與基于機器學習的AI并存相當長的一段時間。蘇說,某些任務将繼續需要确定性的決策,而不是機率性的決策。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-04-01

本文作者:CDA資料分析師

本文來自:“

51CTO

”,了解相關資訊可以關注“

繼續閱讀