天天看點

十問科學家|關于多模态預訓練,楊紅霞這麼說

楊紅霞

阿裡巴巴達摩院人工智能科學家

楊紅霞在達摩院緻力于研發新一代人工智能,帶領團隊開發的“M6超大規模、多模态、低功耗、預訓練模型”,穩定地支援了淘寶天貓的搜尋和廣告、犀牛智造等核心業務場景。

加入阿裡巴巴之前,楊紅霞曾任IBM Watson全球研發中心研究員,雅虎主任資料科學家。在頂級會議和機器學習國際學術期刊發表論文80餘篇,擁有9項美國專利,帶領團隊獲得2019世界人工智能大會最高獎項卓越人工智能引領者(Super AI Leader,簡稱SAIL獎),2020年國家科學技術進步獎二等獎和2020年杭州市領軍型創新團隊等榮譽,畢業于美國杜克大學。

Q1: 如何向一個國小生描述你現在正在研究的方向——超大規模、多模态、低功耗、預訓練模型?

楊紅霞:超大規模、多模态、低功耗、預訓練模型, 我們稱之為M6,它就是下一代人工智能的基礎,可以帶來真正的軟硬結合的突破,讓機器具備類人的認知能力、了解能力和更大的創造力。

Q2: 為什麼要做多模态預訓練模型?

楊紅霞:有幾個重要的原因。

首先,模型的承載能力足夠大,意味着機器智能化的水準足夠強。比如OpenAI的GPT-3擁有1750億參數(已被微軟收購),谷歌Switch Transformer擁有1.6萬億參數,這都已經超過人腦神經元數量了(人腦神經元約1000億),或許可以具備人腦的能力。

第二,它必須能耗足夠低,而且今天也倡導低碳AI。如果靠高能耗,支援人工智能的發展,這其實非常不可持續:當初OpenAI訓練一次GPT-3花費1200萬美元,能耗相當于一輛車開70萬公裡,被媒體稱之為“富人的遊戲”。而人腦的能耗消耗是非常低的,我們在冥思苦想的時候每秒消耗1.5卡路裡的熱量。

第三,因為上一代人工智能主要以CNN(卷積神經網絡,Convolution Neural Network)為主,是一個拟合的能力,缺乏真正意義上的創造力。而M6“更接近于”AGI(Artificial General Intelligence,通用人工智能),但是目前還不能說它“是”AGI,因為我們其實離AGI還有很長的一段路。

第四,在多模态預訓練模型出現之後,人工智能的訓練路徑發生了一個很大的變化。

我們以前是用大資料抽象出大知識,例如,上一代人工智能做圖檔分類時,可能需要學習幾千張圖檔才能準确判斷圖上是一隻狗還是一隻貓。

而多模态預訓練的整體構模組化式是一個“Pre-train(預訓練)&Finetune(微調)”的模式。Pre-train可以認為是一個擁有千億/萬億參數的模型,是一個超級大腦;Fine-tune由成千上萬個下遊的任務組成,包括自然語言處理、計算機視覺、分類、預測等,可以通過學習下遊的少量樣本找到規律,可以做到Zero-shot Learning(零次學習)或者Few-shot Learning(小樣本學習)。就像一個3歲的小朋友,他看了兩次貓狗,即便下一次狗貓的顔色、大小發生了變化,他是不會判斷錯的。

最後一點,是它的使用範圍将會特别廣泛。在李飛飛等斯坦福研究者聯合釋出的一篇研究中,他們給大規模預訓練模型取了一個統一的名字——Foundation Model,他們認為所有的技術都以Transformer為基礎進行統一,上層的應用包括自然語言處理、計算機視覺也都做了統一,甚至把隐私等風險也能涵蓋和解決,這是真正意義上的“AI大一統”,是一件跨時代的事情,可以把技術、應用、社會性問題全部統一。

Q3: 如何了解M6與深度學習的差異?

楊紅霞: 深度學習相比于傳統的Machine Learning,開發量減少很多。但“多模态預訓練模型”相比于上一代的人工智能,尤其是以CNN為基礎的深度學習模型,總體的模型建設上還是有了更高的要求和标準,是以開發量會更少。我們認為它就是下一代AI的基礎,尤其是對于我們這些研究算法的人來說,建設這個大模型的過程中,對系統層該怎麼做,對算法的優化、網絡層的優化,提出了非常多、非常高的要求。并且可以帶來真正的軟硬結合,原來說所謂的軟硬結合聯系沒有那麼緊密,但是今天這個多模态預訓練模型的出現,其實是真正的把軟硬結合在一起了。

Q4: 目前世界領先的水準是什麼樣的?

楊紅霞:我認為目前業界最高水準就是谷歌的Switch Transformer和微軟的OpenAI。

2018 年,谷歌BERT奠定了預訓練的開創性地位,雖然它當時的參數不到10億,但它的出現讓整個搜尋引擎效率提升了10%,這是一個跨時代的提升。我們自己在做搜尋推薦,很清楚在大流量上提升1%,效果都是非常顯著的。在今年年初,微軟OpenAI的GPT-3則是實作了參數規模達到1750億,這是一個質的飛躍,最重要的一點是證明了它具有小樣本學習的能力。也是在今年年初,谷歌Switch Transformer是第一個超過萬億規模的預訓練大模型。

Q5: 目前達摩院取得的主要進展是什麼?

楊紅霞:我們今年投了三篇論文,分别是關于千億參數模型、根據文本的圖像生成,以及10萬億參數模型的介紹。達摩院的M6現在已經具備了10萬億的參數,而且隻需要512張GPU卡;千億的參數隻需要6張GPU卡。

我們可以做一個簡單的對比,但不是一個絕對值的比較,這裡涉及到機器的配置和GPU/TPU的型号:英偉達使用3072張GPU實作萬億參數、谷歌Switch Transformer使用2048張TPU實作1.6萬億參數大模型,華為盤古實作2000多億參數使用了2000多張昇騰900。

Q6: 為什麼低功耗如此重要?

楊紅霞:隻有低功耗才能讓超大規模多模态預訓練模型更普惠,讓更多人參與進來,讓更多場景使用。比如現在6張GPU卡就可以跑千億參數模型,那就意味着,學校的實驗室就能用得起,中小企業也能投入使用展開研究。

Q7: 多模态預訓練模型有哪些深度學習做不到的能力?

楊紅霞:比如“文本到圖像”的生成能力——就是給一段話就能生成一個對應的圖檔,在多模态預訓練模型出現之前,這個能力是不存在的。

在效果方面,OpenAI生成圖檔清晰度是256×256,現在達摩院做到了1024×1024。達摩院為什麼做到這麼高?因為我們是被逼的,M6要直接應用到犀牛智造的商業場景中落地,比如服飾設計、汽車設計、家裝設計,需要清晰度足夠高的圖檔,才能投入到生産當中。

Q8: 目前多模态與訓練模型實際應用到哪些場景中?

楊紅霞:今天真正意義上大規模落地的,隻有谷歌和達摩院。谷歌是直接用在搜尋引擎上。我們主要是用在阿裡巴巴新制造平台“犀牛智造”和淘寶天貓的搜尋。

我舉兩個簡單的例子,一個是M6與犀牛智造的合作,犀牛智造是一種非常領先的C2M的模式,但這種模式要上規模、大面積鋪開,前提是有非常多有效的設計師稿件來支撐。但人工設計師的數量和速度總是有限的,我們就使用了“文本到圖像”的能力,生成非常清晰的服飾圖檔,直接投入到生産當中。

我們做了個測試,把人工智能生成的圖檔,與設計師的設計圖混在一起,讓商家去選擇,他們會選那些預計收益比較大的方案投入生産,測試效果非常令人震驚——人工智能設計稿被選中的機率是人工設計師的4倍。

是以這項技術真的有機會改變智能制造業——設計更好。而且現在M6需要學習的打标樣本很少,隻要傳統的深度學習5%的樣本量,就可以超過業内平均水準。

另一個應用是搜尋引擎,因為消費者有非常多個性化的需求。

今天的搜尋引擎,是把輸入的關鍵詞去和商品的标題文字做比對,比如要搜尋“日式表面凹凸的咖啡杯”,如果“表面凹凸”這幾個詞沒有被賣家寫在商品的标題中,使用者是沒有辦法把商品搜出來的。但是利用多模态預訓練模型,即便關鍵詞不寫在标題中,系統還是能了解,知道這個杯子是表面凹凸的,使用者就可以搜出來。這樣一來,搜尋引擎的效率會大幅度提高,這也是為什麼Google BERT主要用在搜尋引擎上的原因。

此外,多模态預訓練模型還可以根據商品圖檔,給賣家推薦描述文字,讓他寫在标題中。M6很強大,可以抓住圖檔中非常多的細節,比方“連衣裙、兩側大口袋、北歐風格”,它都可以了解出來。

Q9: 很多人認為,人工智能時代,人類必須學會承擔更具創造性、設計性的工作。但聽你的分享,未來像設計的工作也會被替代嗎?

楊紅霞:我覺得技術不會替代人類,而是會催生更高階的合作方式,就是人機協同。技術不可能把人類抛在一邊,但人工智能代替更多的是人類設計師的基礎性、重複性的工作,比如通過技術來生成大量基礎素材,這對人類設計師會有很大幫助,也會激發他更多的靈感。

不管是設計業,還是其他行業,技術都會給效率帶來成倍的提升。人類曆史上,技術的确替代了一些工作,但也創造了更高階的職業,這些更高階的職業讓人類的生活變得更美好了。

Q10: 深度學習一直都有一個很難解決的“算法黑盒子”的問題——資料從進去運算到出來結果,整個路徑很難去監測,也很難看到它的邏輯推理。M6會加劇這種情況,還是會解決?

楊紅霞: 人類探索腦科學已經這麼多年,我們真的了解人腦是怎麼工作的嗎?其實根本不了解。

深度學習模型,所謂的“Set up”,本身就具有一定的不可解釋性。随着不斷的探索,比如《自然》或者《科學》雜志上有一些文章,也在嘗試做一些分析。

但我覺得可解釋性這件事情到底是不是必需的,本身就是一個值得探讨的問題。随着技術不斷發展,我們肯定會對這個模型有更深入的了解,但是同時又會帶來新的模型架構,比如深度學習現在是以Google Switch Transformer為基礎,原來是以CNN為基礎,這兩個模型架構已經完全不一樣了,但Transformer裡,就有一個叫自注意力的機制子產品,這一點已經和人很像了。

繼續閱讀