天天看點

專訪吳恩達:AI未來10年,從硬體至上到資料為王

專訪吳恩達:AI未來10年,從硬體至上到資料為王

新智元報道

編輯:David 拉燕

【新智元導讀】AI先驅吳恩達接受專訪,談了他對未來10年AI大趨勢的展望。他認為,未來的技術落地,重點會從硬體轉向資料,形成「資料為中心」的AI。

你是否曾經覺得你已經受夠了你目前的工作,想要換個方向?如果你有,你絕對不是一個人。然而,除了參加大辭典,還有一些不太激進的方法,比如吳恩達的方法。

吳恩達是當今人工智能領域最傑出的人物之一。

他是Landing·AI和DeepLearning.AI的創始人,Coursera的聯合主席和聯合創始人、斯坦福大學兼職教授。此前還曾擔任百度首席科學家和谷歌大腦項目的創始人之一。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

不過據他自己講,他目前的重點已經轉移,從數字世界轉移到了現實世界,正所謂「從比特到事物」。

2017年,吳恩達創立了Landing AI,這是一家緻力于促進人工智能在制造業中的應用的創業公司。

我們采訪了吳恩達,讨論了他所說的人工智能的以資料為中心的方法",以及它與他在Landing AI的工作和當今人工智能的大背景之間的關系。

從數字化到落地

吳恩達表示,他的動機是面向行業的。他認為制造業是 「對每個人的生活有巨大影響的偉大行業之一,但對我們許多人來說是如此不可見。」

許多國家,包括美國在内,都對制造業的衰落感到悲哀。吳恩達希望 「采用已經改變網際網路企業的AI技術,利用它來幫助在制造業工作的人。」

這是一個不斷增長的趨勢。根據2021年的一項調查,制造業中65%的上司者正在努力試點AI。預計在未來五年内将達到57.2%的複合年增長率。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

雖然AI正在越來越多地應用于制造業,但這個過程比吳恩達想象的要難得多。他坦言,當Landing AI開始時,主要專注于咨詢工作。

但在參與了許多客戶項目後,吳恩達和Landing AI開發了一個新的工具包和遊戲手冊,讓AI在制造業和工業自動化領域發揮作用。

Landing Lens緻力于使制造業和工業自動化領域的客戶能夠快速、輕松地建立和部署視覺檢測系統。吳曉波不得不調整他在消費者軟體方面的工作,以針對制造業的人工智能。

例如,人工智能驅動的計算機視覺可以幫助制造商完成識别生産線上的缺陷等任務。但這不是一件容易的事,他解釋說。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

「在消費者軟體中,你可以建立一個單一的AI系統,為一億或十億使用者提供服務,并以這種方式真正獲得大量的價值,但在制造業中,每個工廠制造的東西都不一樣。是以每個制造廠都需要一個定制的AI系統,根據他們自己的資料進行訓練。」

吳恩達說,AI領域的許多公司面臨的挑戰是,如何幫助1萬家制造廠建立1萬個客戶系統。

以資料為中心的方法認為,AI已經達到了資料比模型更重要的地步。如果将AI視為一個有移動部件的系統,那麼就應該保持模型的相對固定,專注于高品質的資料來微調模型,而不是繼續推動模型的邊際改進。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

有這種想法的人并不多。在斯坦福大學上司Hazy研究小組的Chris Ré是另一個以資料為中心的方法的倡導者。當然,如前所述,資料的重要性并不新鮮。有成熟的數學、算法和系統技術來處理資料,這些技術已經發展了幾十年。

然而,如何在現代AI模型和方法的基礎上建立并重新審視這些技術,才是新的要求。

就在幾年前,我們還沒有長壽的AI系統,也沒有目前這種規模的性能強大的深度模型。吳恩達指出,自從他在2021年3月開始談論以資料為中心的AI以來,他得到的反應讓他想起了大約15年前他和其他人開始讨論深度學習的時候的場景。

吳恩達說「今天人們的反應是:“我一直都知道這個,沒有什麼新東西”,到'這不可能成功'。"但也有一些人說'對,我一直覺得這個行業需要這個東西,這是一個偉大的方向'。」

「資料為中心」的AI與基礎模型

假如說,以資料為核心的人工智能是正确的方向,那麼該如何在現實世界運作這一切呢?吳恩達指出,指望機構訓練各自的定制AI模型是不現實的。

唯一一個走出這種困境的辦法就是設計一種工具,讓客戶有能力設計自己的模型,收集資料,表達各自領域的知識。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

吳恩達和Landing AI将通過Landing Lens實作這一點,賦予各領域專家通過資料标記的方式傳達知識的能力。吳恩達指出,在生産領域,一般沒有大量的資料來做參照。比方說,如果目标是識别出錯的産品,那麼一條還算不錯的生産線就沒那麼多廢品的圖檔來參照。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

在生産領域,有時候全世界隻有50張圖檔做參照。這對現有的AI來說根本不夠。這也就是為什麼現在關注的重點應該轉向讓專家通過收集資料來記錄他們所擁有的知識。

吳恩達說,Landing AI的平台正在做這件事。該平台可以幫助使用者找到最有用的案例,來建構最一緻的标簽,并且提高輸入到算法裡的圖檔和标簽的品質。

這裡的關鍵是「一緻性」。吳恩達和他之前的一些人發現,專業知識并不能被單一專家定義。對一位專家來說有缺陷的東西可能會被另一位專家重視。這種現象并不是才有,但隻有在不得不生成注釋相同的資料集時才會浮出水面。

吳恩達表示,「這就是為什麼我們需要好的工具和工作流程來讓專家能快速達成一緻。沒有必要在已經打成共識的地方花時間。相反,我們的目标是關注專家們沒有達成一緻意見的部分,這樣他們就可以通過讨論來解決存在缺陷的部分。事實證明,想讓AI系統快速獲得良好性能,達成整個資料的一緻性至關重要。」

這種方法不僅很有意義,而且也有一些相似之處。吳恩達所描述的過程顯然背離了當今 AI 經常采用的「投入更多資料」的方法,而是更多指向基于管理、中繼資料和語義協調的方法。

事實上,像Google前機器翻譯主管David Talbot這樣的人一直在傳達這麼一個思想:除了從資料中學習之外,應用各個領域内的知識對機器翻譯也很有意義。在應用機器翻譯和自然語言處理 (NLP) 的情況下,所說的領域内的知識就指的是語言學。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

我們現在已經達到了一個新階段,我們擁有所謂的NLP基礎模型:比方說像GPT3這樣的巨大模型。經過大量資料訓練,人們可以使用這些模型針對特定的應用程式或領域進行微調。然而,這類NLP基礎模型并沒有真正上利用各領域的知識。

計算機視覺的基礎模型能不能做到這一點呢?如果能的話,我們該如何實作,以及何時能實作?實作又将帶來什麼?根據吳恩達的說法,基礎模型既是規模問題,也是傳統問題。他認為這是可以實作的,因為有很多研究組正在嘗試建立計算機視覺的基礎模型。

吳恩達說,「這不是說,頭一天它還不是基礎模型,到第二天就是了。在NLP的案例中,我們看到了模型是在發展的,從Google的BERT模型、transformer模型、GPT2到GPT3。

這是一系列規模越來越大的模型,在越來越多的資料上進行訓練,然後人們将其中一些新興的模型稱為基礎模型。

吳恩達說,「我相信我們會在計算機視覺中看到類似的東西。很多人多年來一直在ImageNet上進行預訓練,我認為趨勢逐漸會是對越來越大的資料集進行預訓練,越來越多地在未标記的資料集上進行預訓練,并且越來越多地将會在視訊上進行預訓練。」

AI的下一個10年

作為一名計算機視覺的内部人士,吳恩達非常清楚人工智能正在取得的穩步進展。他認為,在未來的某個時候,媒體和公衆将宣布,計算機視覺模型屬于基礎模型。然而,能否準确預測何時會應驗則是另一回事。

對于擁有大量資料的應用程式,例如NLP,輸入系統的領域知識量随着時間的推移而不斷下降。吳恩達解釋說,在深度學習(包括計算機視覺和 NLP)的早期,人們通常會訓練一個小型的深度學習模型,然後将其與更傳統的各領域知識庫的方法結合起來,這是因為深度學習的效果不佳。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

但随着模型的規模越來越大,資料越來越多,注入的各領域的知識也越來越少。根據吳恩達的說法,人們傾向于認為大量資料有是一種學習算法。這就是為什麼機器翻譯最終證明了學習方法的端到端的純度可以表現得不錯。但這僅僅适用于需要學習大量資料的問題。

當擁有的是相對較小的資料集時,領域知識确實變得很重要。吳恩達認為人工智能系統提供了兩種知識來源——資料和人類經驗。當我們擁有大量資料時,人工智能将更多地依賴資料,而不是人類知識。

然而,在資料匮乏的領域,比如在制造業,我們隻能依賴人類知識。技術上的方法就是建構工具,讓專家得以表達他們的知識。

這似乎指向了諸如魯棒人工智能、混合人工智能或神經符号人工智能之類的方法,以及用于表達領域知識的知識圖譜等技術。然而,雖然吳恩達知道這些技術,并覺得它們很有趣,但 Landing AI并沒有與它們合作。

吳恩達還發現所謂的多模态AI或結合不同形式的輸入(例如文本和圖像)是有發展前景的。在過去十年裡,關注的重點是建設和完善單一模态的算法。現在人工智能社群變得更龐大了,并且已經取得了進展,那麼追求這個方向就是有意義的。

雖然吳恩達是最早使用GPU進行機器學習的人之一,但如今的他卻不太關注硬體方面了。雖然擁有一個蓬勃發展的人工智能晶片生态系統是一件好事,包括英偉達、AMD 和英特爾等老牌企業以及擁有新穎架構的新貴,但這并不是終點。

在過去的十年裡,人工智能的大部分焦點都集中在大資料上——也就是說,讓我們利用巨大的資料集訓練規模更大的神經網絡。這是吳恩達本人幫助推廣的。

但是,雖然在大模型和大資料方面存在進展,但吳恩達表示,他認為如今AI的發展重點應該轉向小資料和以資料為中心的AI。

專訪吳恩達:AI未來10年,從硬體至上到資料為王

吳恩達說,「十年前,我低估了發展深度學習所需的工作量,我認為今天很多人都低估了發展以資料為核心的AI所需的工作量、創新、創造力和工具。但是,我們未來幾年在這方面将會取得進展,我認為它将支援更多的人工智能應用,我對此感到非常興奮。」

參考資料:

https://venturebeat.com/2022/03/21/andrew-ng-predicts-the-next-10-years-in-ai/

繼續閱讀