天天看點

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

新智元報道

編輯:LRS

【新智元導讀】ImageNet見證了計算機視覺發展的輝煌曆程,在部分任務性能已超越人類的情況下,計算機視覺的未來又該如何發展?李飛飛最近發文指了三個方向:具身智能,視覺推理和場景了解。

在深度學習革命程序中,計算機視覺依托大規模資料集ImageNet,在圖像分類、目标檢測、圖像生成等多個任務都表現出驚人的性能,甚至比人類的準确率還要高!

但CV為何能取得如此巨大的成就?未來将向何處發展?

最近,「華人AI女神」李飛飛在美國文理科學院的會刊 D dalus 上發表了一篇文章,以計算機視覺中的物體識别任務為切入點,研究了ImageNet資料集及相關算法的發展曆程。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

文章連結:https://www.amacad.org/publication/searching-computer-vision-north-stars

文章認為技術的發展很大程度上源于對北極星(North Stars)的追求。「北極星」在這裡指的是研究人員專注于解決一個科學學科中的關鍵問題,可以激發研究熱情并取得突破性的進展。

在ImageNet和物體識别的成功之後,越來越多的北極星問題湧現出來。

這篇文章主要講述了ImageNet的簡要曆史、其相關工作以及後續進展。其目的是激發更多北極星問題相關的工作,以推動該領域乃至整個人工智能的發展。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

文章第二作者Ranjay Krishna是華盛頓大學艾倫計算機科學與工程學院的助理教授,2021年從斯坦福大學博士畢業,導師為李飛飛,主要研究方向為計算機視覺和人機互動的交叉領域,利用源于社會和行為科學的架構來開發機器學習模型的表示、互動、模型、訓練範式、資料收集pipeline和評估協定。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

ImageNet的前世今生

對大部分普通使用者來說,人工智能是一個飛速發展的領域,當然,一切都是源于現代計算機科學的工程壯舉,尤其是近幾年,AI的工程進展速度越來越快。

從垃圾電子郵件的過濾到個性化的推薦系統,再到汽車裡的智能自主刹車,系統内都是大量的工程實踐。

工程背後的科學往往被忽視了。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

作為AI領域的研究人員,往往對工程和科學有着深刻的認識,會認為二者是密不可分、相輔相成。在實踐中激發新的思路和探索,随着時間的推移,将之付諸為工程實踐。

一旦确定了基本問題,找到了下一個北極星,你就已經處于領域的前沿了。正如愛因斯坦所說:提出一個問題往往比解決這個問題更重要。

自1950年起,人工智能領域就由各種北極星問題所驅動,當時圖靈巧妙地提出了如何判斷一台計算機是否值得被稱為智能的問題,即「圖靈測試」

6年後,當人工智能的創始者計劃舉辦達特茅斯會議時,他們設定了另一個雄心勃勃的目标,提議建造能夠「使用語言、形成抽象和概念、解決現在留給人類的各種問題,并改進自己」的機器。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

如果沒有這道指路明燈,我們可能永遠無法解決新問題。

在人工智能的研究中,視覺是核心,一些進化生物學家假設,動物眼睛的優先進化導緻了物種的不同。

那如何教計算機看東西呢?

在世紀之交時,受之前大量相關工作的啟發,李飛飛及合作者提出一個物體識别的問題:計算機正确識别給定圖像中出現的内容的能力。

這似乎是一個有前途的北極星問題,在1990年到2000年初的十幾年時間裡,物體識别的研究人員已經朝着這個艱巨的目标取得了巨大的進步,但由于現實世界物體的外觀千差萬别,取得的進展十分緩慢。

即使在一個單一的、具體的類别(如房子、狗或花)中,物體看起來也可能完全不同。例如,能夠準确将照片中的物體識别為狗的AI模型,無論它是德國牧羊犬、貴賓犬還是吉娃娃,無論是從正面還是側面拍攝,奔跑接球或四肢着地,或者脖子上圍着藍色頭巾,都應該能正确識别。簡而言之 ,狗相關的圖像種類繁多,令人眼花缭亂,而過去教計算機識别此類物體的模型無法應對這種多樣性。

一個主要原因是過去的模型傾向于使用手工設計的模闆來捕捉圖像中的特征,模型缺乏大規模圖像資料的輸入,無法應付物體的多樣性。

這意味着,我們需要一個全新的資料集來實作三個設計目标:大規模、多樣性和高品質。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

首先是規模,心理學家假設,類似人類的感覺需要接觸上千種不同的物體。當幼兒開始學習時,他每天的生活已經開始接觸大量的圖像。例如,六歲的孩子大概已經看過了三千個不同的物體,并且學到了足夠多的特征來幫助區分三萬多個類别。

而當時,最常用的物體識别資料集隻包含20種物體,是以擴充資料集很重要,我們從網際網路搜集了1500萬張圖像,并将其标注出對應的物體類别。

參照WordNet,李飛飛将新的資料集命名為ImageNet

第二是多樣性。從網際網路上搜集的圖像涵蓋了許多類别,光鳥類就有八百多種,總共包括21841個類别來組織這上千萬張圖像。為了讓訓練後的模型更魯棒,ImageNet中的資料包含了各種場景下的圖像,例如「廚房中的德國牧羊犬」等,并且還給類别标注了上下位詞,如哈士奇包括「阿拉斯加哈士奇」和「重毛北極雪橇犬」

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

第三點是品質。為了創造一個可以複制人類視力敏銳度的金标準資料集,ImageNet隻接收高分辨率的圖像。為了讓标簽的準确率更高,研究團隊請普林斯頓大學的大學生來标記并驗證這些标簽,後來使用了亞馬遜的衆包平台,最終在2007年至2009年間迅速從167個國家和地區雇傭了大約5萬名标注人員來标記和驗證資料集中的物體。

有了ImageNet資料,如何讓它發揮作用成了關鍵。

ImageNet團隊一緻認為:免費開放給任何感興趣的研究人員,還設立了年度競賽來激勵相關模型的開發。

轉折點出現在2012年,AlexNet橫空出世,首次将卷積神經網絡應用于物體識别,并且準确率碾壓第二名參賽者。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

雖然此前神經網絡已經研究了幾十年,但正是ImageNet讓神經網絡發揮了其本來的威力。

一年之内,幾乎所有的AI論文都是關于神經網絡了。随着更多人參與研究,物體識别的準确率也越來越高。

2017年,挑戰賽完結。八年來,參賽選手将算法正确識别率從71.8%提升到97.3%,這樣的精度甚至已經超越了我們人類自己(95%)。

學會識别物體隻是學習「看」的一種形式,計算機視覺領域還有更多的任務,如目标檢測等,但它們之間都存在着某些相似之處,這也意味着經驗可以用來參考借鑒。

從理論上來講,計算機應該可以利用到這些相似之處,這一過程也稱之為「遷移學習」

人類非常擅長遷移學習,并且遷移學習對AI也有極大的幫助,目前幫助計算機進行遷移學習的方法就是預訓練,起點就是用ImageNet資料集學習物體識别。

但這并不是說ImageNet對所有計算機視覺都有用。

一個例子是醫學成像。在概念上講,對醫學圖像(如篩查惡性良性腫瘤)進行分類的任務與識别手機拍攝的圖像沒有本質差別,都需要視覺圖像和類别标簽,也可以經過适當訓練的模型來判斷。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

但ImageNet資料集并不能用來篩查惡性良性腫瘤,因為裡面根本沒有這個任務的相關資料。更重要的是,使用衆包平台也基本不可行,标注醫療診斷相關的資料需要非常高的專業知識,稀缺且昂貴。

計算機視覺當然也有其他應用場景,例如分析衛星圖像來幫助政府評估作物産量,水位、森林砍伐和野火的變化,并跟蹤氣候變化。

ImageNe的使用也帶來一個問題,人們過于關注大規模資料,而忽視了單一資料的影響。例如某些「對抗樣例」通過修改單個像素,就可以讓模型錯誤地分類圖像,目前有研究人員也在緻力于研究如何抵禦攻擊。

最後,ImageNet的廣泛影響使資料集接受了一些批評,也引起了一些創立之初沒有充分考慮的問題。

其中最嚴重的是人物肖像的公平問題。盡管我們很早就知道要過濾掉一些諸如種族、性别歧視等公然诋毀的圖像标簽,但資料集中還是存在一些微妙的問題:例如那些本質上不是貶義,但應用不當可能會引起冒犯的标簽。

盡管這些公平問題很難完全消除,但也有一些工作緻力于減輕偏差的影響。

CV北極星在哪?

計算機視覺的下一步朝哪發展?

作者認為其中最具潛力的領域是具身人工智能(embodied AI),即能夠用于導航、操作和執行指令等任務的機器人。

機器人并不是指有頭、兩條腿走路的人形機器人,任何在空間中移動的有形智能機器都是一種具身人工智能的形式,無論是自動駕駛汽車、機器人吸塵器,還是工廠裡的機械臂。正如ImageNet旨在代表現實世界廣泛而多樣的圖像一樣,具身人工智能的研究需要解決人類任務的複雜多樣性,小到疊衣服,大到探索新城市。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

另一顆北極星是視覺推理(visual reasoning),例如了解一個二維場景中的三維關系等。可以想象一個場景,即使是讓機器人執行一個看似非常簡單的指令,如「将杯子帶回麥片碗的左邊」也需要視覺推理。執行這樣的指令當然需要比視覺更多的東西,但視覺是一個重要的組成部分。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

了解場景中的人,包括社會關系和人的意圖,又增加了另一個層次的複雜性,這種基本的社會智能也是計算機視覺的一顆北極星。比如看到一個女人摟着腿上的小女孩,這兩個人很可能是母女關系;如果一個男人打開冰箱,他可能是餓了。但目前計算機還沒有足夠的智能來推斷這些事情。

CV往哪卷?李飛飛指出三顆“北極星”:具身智能,視覺推理和場景了解

計算機視覺,就像人類視覺一樣,不僅僅是感覺,還需要深入的認知。毫無疑問,所有這些北極星都是巨大的挑戰,比ImageNet還大的挑戰。

通過看圖檔來識别狗或椅子是一回事,而思考和浏覽無限的人和空間的世界是另一回事。

但這是一組非常值得追求的挑戰:随着計算機視覺智能的展開,世界可以成為一個更好的地方。醫生和護士将擁有一雙不知疲倦的眼睛來幫助他們診斷和治療病人,汽車将更安全地運作,機器人将幫助人類勇闖災區來拯救被困者和傷員。

而科學家們可以在更強大的智能機器的幫助下,突破人類的盲點,發現新的物種、更好的材料,以及探索未知的領域。

參考資料:

ttps://www.amacad.org/publication/searching-computer-vision-north-stars

繼續閱讀