基于超大規模預訓練模型的小樣本和零樣本學習

演講嘉賓：蘇中

内容概要：

一、人工智能進入三輪同時驅動的時代

二、M6：中文多模态預訓練模型

三、M6超大規模預訓練模型的應用場景

四、超大規模中文預訓練語言模型PLUG

五、大規模預訓練模型AliceMind在VQA任務上的突破

六、從弱人工智能（Narrow AI)到通用人工智能(Artificial General Intelligence)

人工智能學習裡有一個很大的難點，如果我們希望讓計算機認識蘋果，可能要給它1萬張甚至10萬張蘋果的圖檔，它才可能認得清楚。而人有特殊的能力，如果是小朋友，我們可能隻需要給Ta一幅很抽象的畫可能就足以讓Ta辨識出蘋果。如果給Ta一個真實的蘋果，Ta甚至可以舉一反三，這就是本文想闡述的小樣本學習在生活中的例子之一。

零樣本學習也是人特有的一項能力，我們可以将自己在某個領域裡面的經驗運用到另外一個領域，比如我原來是在企業的研究院做技術，現在在産業的研究院工作，做的工作跟以前不一樣，很多東西就是零樣本學習，這項能力是人特有的。

有時候人工智能并沒有那麼智能，我們會說它是人工癡呆，但隻要我們能從過去的海量資料裡面總結出經驗就好。

人工智能有三個輪子，分别是資料、算力和算法。這些年在自然語言領域裡預訓練的技術，給我們提供了一個特别好的場景，就是可以給機器無窮無盡的資料，不用做标注。比如，我們可以把全世界曆史上所有的詩詞歌賦全部交給計算機去讀。我們還發明了一些很好的技術，比如基于注意力模式有很多方式可以從語言的内容裡找到關聯，把人類所有的知識融在深度學習模型裡，建構出一個非常龐大的語言模型。

我們做了一個簡單的統計，在2019年之前，我們的算法模型沒有超過10億參數的。但從2019年以後，從GPT-2開始，出現了10億以上的模型，接着開始出現千億、萬億的模型。

在萬億的模型裡面，機器好像開始融會貫通學到了一些東西。把這些内容放進去以後，尤其是GPT-2那些看起來非常炫酷的Demo，我們就可以跟它做自由交流了。它可能會通過圖靈測試，讓我們甚至不知道自己是在跟一個機器交流。

在這個場景下，我們發現通過算力、海量的資料能解決小資料或零樣本學習的問題，取得了一定的突破。

(Multi-Modality to Multi-Modality Multitask Mega-transformer)

阿裡在這方面做了一些工作，比如M6。

M6項目于2020年起步，從最初幾億的規模到2021年5月份萬億的規模，最近又突破了十萬億的大關，這個過程經曆了很多挑戰。為了讓幾百片顯示卡能夠很好地工作，這裡面不光涉及到人工智能的算法，也涉及到很多計算機體系架構，海量計算、綠色計算等的能力。

有了這樣的萬億模型，我們能幹什麼？

和Google的模型不一樣，M6項目組做了多模态，把圖檔和文本放在一起學習。比如大家去淘寶網站上，可以看到任何産品都會有照片，照片旁邊會有一段說明。我們可以把資訊放到模型裡，機器從當中去抽取一些規律，得到的結果令人驚詫。

上圖是模型裡的一個真實示範。我們每次都可以得到不同的答案，比如我們輸入“男女外套保暖棉襖連帽輕棉衣”，也可以輸入任何稀奇古怪的内容，比如乞丐服等等，模型都會生成一個衣服的款式，因為它能在所有的圖檔裡找到與我們輸入的文字資訊和圖檔内容之間的關聯。

我們輸入了棉衣，機器并不了解什麼叫棉衣，但它可以從海量的資料裡找到棉衣應該具備哪些特征，然後用這種方式來生成一個高清晰度的圖，這樣的技術未來或許也可以用來做時裝設計。

在電商領域還遇到一個挑戰，比如有一個新的産品，我們應該用什麼樣的廣告詞比較合适呢？

我們可以輸入産品的一個圖，機器會輸出許多文案，你可以從中挑選，甚至跟機器做互動回報。它相當于把多種模型的能力建構在一起，有些能力可能已經超過普通人，這就是多模态大模型可能帶來的一些非凡能力。

預訓練語言模型PLUG是百億的參數，可能是中文領域裡最大的模型。

預訓練語言模型PLUG把這些可以拿到的所有資料，比如把菜單放進去讓機器去學習，學完了以後機器就掌握了一些規律，輸入蕃茄炒胡蘿蔔，它就給我們一個菜單，再點選一下還可以得到其他蕃茄炒胡蘿蔔的菜單。

預訓練語言模型還有一個比較有意思的能力是小說續寫，比如我們給它一段紅樓夢，它可以往後續寫。該模型不光是把語言本身的規律找到了，甚至找到了語言之間的關聯，将故事串起來，類似于一個小朋友學會了講故事，這一點是大模型計算機比普通人強的地方。

如果我們把海量的資料給到模型，它從中找到規律，通過這個規律去擴充，這上面就可以延伸出很多應用。比如讓人頭疼的各種報告彙報的撰寫，在未來也許我們隻需要給幾個關鍵詞，機器就可以幫我們寫得很好。

接下來看一下大規模預訓練模型AliceMind在VQA任務上最新的進展。

上圖是AI在“讀圖會意”的場景。給計算機一個圖，問它一個問題，然後它給一個答案，這就是VQA的場景。這個比賽已經進行了很多年，是以問題還是很複雜的，比如圖中下方這個女生的胡子是用什麼做的。準确的答案是香蕉，人類回答的正确率大概是80.83%，AliceMind團隊的最新結果是81.26%，在這個資料集上它超過了人類的能力。

我們知道，一直以來深度學習在感覺的某些方面早已超過了人類，比如在視覺、語音識别等方面，當然它還是跟資料集相關。但人類有些能力仍然特别，比如我從來沒聽過廣東話，但當我到廣東的時候還是能聽懂一些，而機器如果完全沒有聽過廣東話，那麼它得到的結果可能完全不同。但是在非常複雜的資料集上，機器已經可以做到跟人一樣，甚至更好。

我們可以設想一個場景，如果有海量的資料，海量多模态之間的關聯，用大模型的技術有可能解決認知智能裡小樣本或無樣本學習的場景。

以前我在研究機構樹立的目标是要做通用的人工智能，就是讓機器可以像人一樣學習思考，解決一些複雜問題，不局限于像電子拍攝違章等場景，而是能幫人做決策，可以像人一樣主動發現問題，找到問題，甚至定義問題，最終目标是從感覺到認知，真正實作從弱人工智能到通用人工智能。

基于超大規模預訓練模型的小樣本和零樣本學習

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希