十問科學家｜關于多模态預訓練，楊紅霞這麼說

楊紅霞

阿裡巴巴達摩院人工智能科學家

楊紅霞在達摩院緻力于研發新一代人工智能，帶領團隊開發的“M6超大規模、多模态、低功耗、預訓練模型”，穩定地支援了淘寶天貓的搜尋和廣告、犀牛智造等核心業務場景。

加入阿裡巴巴之前，楊紅霞曾任IBM Watson全球研發中心研究員，雅虎主任資料科學家。在頂級會議和機器學習國際學術期刊發表論文80餘篇，擁有9項美國專利，帶領團隊獲得2019世界人工智能大會最高獎項卓越人工智能引領者（Super AI Leader，簡稱SAIL獎），2020年國家科學技術進步獎二等獎和2020年杭州市領軍型創新團隊等榮譽，畢業于美國杜克大學。

Q1: 如何向一個國小生描述你現在正在研究的方向——超大規模、多模态、低功耗、預訓練模型？

楊紅霞：超大規模、多模态、低功耗、預訓練模型, 我們稱之為M6，它就是下一代人工智能的基礎，可以帶來真正的軟硬結合的突破，讓機器具備類人的認知能力、了解能力和更大的創造力。

Q2: 為什麼要做多模态預訓練模型？

楊紅霞：有幾個重要的原因。

首先，模型的承載能力足夠大，意味着機器智能化的水準足夠強。比如OpenAI的GPT-3擁有1750億參數（已被微軟收購），谷歌Switch Transformer擁有1.6萬億參數，這都已經超過人腦神經元數量了（人腦神經元約1000億），或許可以具備人腦的能力。

第二，它必須能耗足夠低，而且今天也倡導低碳AI。如果靠高能耗，支援人工智能的發展，這其實非常不可持續：當初OpenAI訓練一次GPT-3花費1200萬美元，能耗相當于一輛車開70萬公裡，被媒體稱之為“富人的遊戲”。而人腦的能耗消耗是非常低的，我們在冥思苦想的時候每秒消耗1.5卡路裡的熱量。

第三，因為上一代人工智能主要以CNN（卷積神經網絡，Convolution Neural Network）為主，是一個拟合的能力，缺乏真正意義上的創造力。而M6“更接近于”AGI（Artificial General Intelligence，通用人工智能），但是目前還不能說它“是”AGI，因為我們其實離AGI還有很長的一段路。

第四，在多模态預訓練模型出現之後，人工智能的訓練路徑發生了一個很大的變化。

我們以前是用大資料抽象出大知識，例如，上一代人工智能做圖檔分類時，可能需要學習幾千張圖檔才能準确判斷圖上是一隻狗還是一隻貓。

而多模态預訓練的整體構模組化式是一個“Pre-train（預訓練）&Finetune（微調）”的模式。Pre-train可以認為是一個擁有千億/萬億參數的模型，是一個超級大腦；Fine-tune由成千上萬個下遊的任務組成，包括自然語言處理、計算機視覺、分類、預測等，可以通過學習下遊的少量樣本找到規律，可以做到Zero-shot Learning（零次學習）或者Few-shot Learning（小樣本學習）。就像一個3歲的小朋友，他看了兩次貓狗，即便下一次狗貓的顔色、大小發生了變化，他是不會判斷錯的。

最後一點，是它的使用範圍将會特别廣泛。在李飛飛等斯坦福研究者聯合釋出的一篇研究中，他們給大規模預訓練模型取了一個統一的名字——Foundation Model，他們認為所有的技術都以Transformer為基礎進行統一，上層的應用包括自然語言處理、計算機視覺也都做了統一，甚至把隐私等風險也能涵蓋和解決，這是真正意義上的“AI大一統”，是一件跨時代的事情，可以把技術、應用、社會性問題全部統一。

Q3: 如何了解M6與深度學習的差異？

楊紅霞：深度學習相比于傳統的Machine Learning，開發量減少很多。但“多模态預訓練模型”相比于上一代的人工智能，尤其是以CNN為基礎的深度學習模型，總體的模型建設上還是有了更高的要求和标準，是以開發量會更少。我們認為它就是下一代AI的基礎，尤其是對于我們這些研究算法的人來說，建設這個大模型的過程中，對系統層該怎麼做，對算法的優化、網絡層的優化，提出了非常多、非常高的要求。并且可以帶來真正的軟硬結合，原來說所謂的軟硬結合聯系沒有那麼緊密，但是今天這個多模态預訓練模型的出現，其實是真正的把軟硬結合在一起了。

Q4: 目前世界領先的水準是什麼樣的？

楊紅霞：我認為目前業界最高水準就是谷歌的Switch Transformer和微軟的OpenAI。

2018 年，谷歌BERT奠定了預訓練的開創性地位，雖然它當時的參數不到10億，但它的出現讓整個搜尋引擎效率提升了10%，這是一個跨時代的提升。我們自己在做搜尋推薦，很清楚在大流量上提升1%，效果都是非常顯著的。在今年年初，微軟OpenAI的GPT-3則是實作了參數規模達到1750億，這是一個質的飛躍，最重要的一點是證明了它具有小樣本學習的能力。也是在今年年初，谷歌Switch Transformer是第一個超過萬億規模的預訓練大模型。

Q5: 目前達摩院取得的主要進展是什麼？

楊紅霞：我們今年投了三篇論文，分别是關于千億參數模型、根據文本的圖像生成，以及10萬億參數模型的介紹。達摩院的M6現在已經具備了10萬億的參數，而且隻需要512張GPU卡；千億的參數隻需要6張GPU卡。

我們可以做一個簡單的對比，但不是一個絕對值的比較，這裡涉及到機器的配置和GPU/TPU的型号：英偉達使用3072張GPU實作萬億參數、谷歌Switch Transformer使用2048張TPU實作1.6萬億參數大模型，華為盤古實作2000多億參數使用了2000多張昇騰900。

Q6: 為什麼低功耗如此重要？

楊紅霞：隻有低功耗才能讓超大規模多模态預訓練模型更普惠，讓更多人參與進來，讓更多場景使用。比如現在6張GPU卡就可以跑千億參數模型，那就意味着，學校的實驗室就能用得起，中小企業也能投入使用展開研究。

Q7: 多模态預訓練模型有哪些深度學習做不到的能力？

楊紅霞：比如“文本到圖像”的生成能力——就是給一段話就能生成一個對應的圖檔，在多模态預訓練模型出現之前，這個能力是不存在的。

在效果方面，OpenAI生成圖檔清晰度是256×256，現在達摩院做到了1024×1024。達摩院為什麼做到這麼高？因為我們是被逼的，M6要直接應用到犀牛智造的商業場景中落地，比如服飾設計、汽車設計、家裝設計，需要清晰度足夠高的圖檔，才能投入到生産當中。

Q8: 目前多模态與訓練模型實際應用到哪些場景中？

楊紅霞：今天真正意義上大規模落地的，隻有谷歌和達摩院。谷歌是直接用在搜尋引擎上。我們主要是用在阿裡巴巴新制造平台“犀牛智造”和淘寶天貓的搜尋。

我舉兩個簡單的例子，一個是M6與犀牛智造的合作，犀牛智造是一種非常領先的C2M的模式，但這種模式要上規模、大面積鋪開，前提是有非常多有效的設計師稿件來支撐。但人工設計師的數量和速度總是有限的，我們就使用了“文本到圖像”的能力，生成非常清晰的服飾圖檔，直接投入到生産當中。

我們做了個測試，把人工智能生成的圖檔，與設計師的設計圖混在一起，讓商家去選擇，他們會選那些預計收益比較大的方案投入生産，測試效果非常令人震驚——人工智能設計稿被選中的機率是人工設計師的4倍。

是以這項技術真的有機會改變智能制造業——設計更好。而且現在M6需要學習的打标樣本很少，隻要傳統的深度學習5%的樣本量，就可以超過業内平均水準。

另一個應用是搜尋引擎，因為消費者有非常多個性化的需求。

今天的搜尋引擎，是把輸入的關鍵詞去和商品的标題文字做比對，比如要搜尋“日式表面凹凸的咖啡杯”，如果“表面凹凸”這幾個詞沒有被賣家寫在商品的标題中，使用者是沒有辦法把商品搜出來的。但是利用多模态預訓練模型，即便關鍵詞不寫在标題中，系統還是能了解，知道這個杯子是表面凹凸的，使用者就可以搜出來。這樣一來，搜尋引擎的效率會大幅度提高，這也是為什麼Google BERT主要用在搜尋引擎上的原因。

此外，多模态預訓練模型還可以根據商品圖檔，給賣家推薦描述文字，讓他寫在标題中。M6很強大，可以抓住圖檔中非常多的細節，比方“連衣裙、兩側大口袋、北歐風格”，它都可以了解出來。

Q9: 很多人認為，人工智能時代，人類必須學會承擔更具創造性、設計性的工作。但聽你的分享，未來像設計的工作也會被替代嗎？

楊紅霞：我覺得技術不會替代人類，而是會催生更高階的合作方式，就是人機協同。技術不可能把人類抛在一邊，但人工智能代替更多的是人類設計師的基礎性、重複性的工作，比如通過技術來生成大量基礎素材，這對人類設計師會有很大幫助，也會激發他更多的靈感。

不管是設計業，還是其他行業，技術都會給效率帶來成倍的提升。人類曆史上，技術的确替代了一些工作，但也創造了更高階的職業，這些更高階的職業讓人類的生活變得更美好了。

Q10: 深度學習一直都有一個很難解決的“算法黑盒子”的問題——資料從進去運算到出來結果，整個路徑很難去監測，也很難看到它的邏輯推理。M6會加劇這種情況，還是會解決？

楊紅霞：人類探索腦科學已經這麼多年，我們真的了解人腦是怎麼工作的嗎？其實根本不了解。

深度學習模型，所謂的“Set up”，本身就具有一定的不可解釋性。随着不斷的探索，比如《自然》或者《科學》雜志上有一些文章，也在嘗試做一些分析。

但我覺得可解釋性這件事情到底是不是必需的，本身就是一個值得探讨的問題。随着技術不斷發展，我們肯定會對這個模型有更深入的了解，但是同時又會帶來新的模型架構，比如深度學習現在是以Google Switch Transformer為基礎，原來是以CNN為基礎，這兩個模型架構已經完全不一樣了，但Transformer裡，就有一個叫自注意力的機制子產品，這一點已經和人很像了。

十問科學家｜關于多模态預訓練，楊紅霞這麼說

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希