天天看點

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

機器之心分析師網絡

作者:王子嘉

編輯:H4O

一文帶你了解Transformer 大家族。

最近,大語言模型軍備戰争占據了朋友圈的大部分篇幅,關于這些模型能做什麼和有什麼商業價值,已經有很多文章探讨。然而,作為一個在人工智能領域浸淫多年的小小研究員,我更關注的是這場軍備競賽背後的技術原理,以及這些模型是如何工程化并造福人類的。相比于看這些模型怎樣賺錢和工程化以便為更多人帶來好處,我更想探索的是這個現象背後的原因,以及在 AI 取代人類之前,我們這些研究員還能為實作 “被 AI 取代然後光榮退休” 做些什麼。

三年前,當 GPT-3 在技術界掀起軒然大波時,我曾嘗試以史書的方式剖析 GPT 背後的龐大家族。我按時間順序梳理了 GPT 背後的技術脈絡(圖 1),并試圖解釋 GPT 的成功背後的技術原理。今年,GPT-3 的小兒子 ChatGPT 似乎更加聰明,能夠用聊天的方式與人交流,這讓更多人了解了自然語言處理領域的最新進展。在這個曆史性的時刻,作為 AI 史官,我們或許應該花些時間回顧一下最近幾年發生了什麼。第一篇文章是以 GPT-3 作為起點,是以這個系列其實是對于後 GPT 時代的記錄(後 GPT 書),而在探索 GPT 家族的變化時,我意識到大多數故事都與 Transformer 有關,是以這篇文章的名字就是 Transformer 世家。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 1.  GPT 舊族譜

前情回顧

在正式開始介紹 Transformer 世家前,我們先按照圖 1 回顧一下過去發生了什麼。從 Word Embedding [1,2] 開始,向量(一串數字)以一種奇特但有效的方式将文字的語義包含了進來,圖 2 展示這種表征方式的說明:用數字表示的(國王 - 男人 + 女人 = 女王)。以這個為基礎,這一支龐大的 NLP(自然語言處理)家族就創立了。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 2.  Word2Vec 圖解 (King - Man + Woman = Queen)

在這之後,他的大兒子 ELMo [3] 發現了語境的重要性,比如以下兩句話:

“哦!你買了我最愛的披薩,我愛死你了!”

“啊,我可真愛死你了!你把我最愛的披薩給蹭到地上了?”

“我愛死你了” 的意思顯然不同。ELMo 順利的通過 “給定一個模型一串詞,然後讓模型預測下一個詞和上一個詞(前後文語境)” 解決了這個問題。

與此同時,Word Embedding 的一個遠房表親發現了另一個問題 —— 人在了解一句話的時候,是會有重點的關注一部分詞的,一個很明顯的現象就是我們在讀自己母語的時候很多錯别字會被輕易地忽略掉,這是因為我們在了解這段話的時候注意力并不在這上面。是以,他提出了 Attention(注意力)機制 [4],但是此時的 Attention 機制很初期,并不能單獨工作,是以隻能依附在類似于 RNN,LSTM 這種序列模型上。圖 3 展示了 attention 機制與 RNN 的結合過程,也說明了為什麼 Attention 自身無法單獨工作。這裡簡單說一下 NLP 模型的工作過程,首先我們有一句話,比如 “我愛你中國”,這就是五個字元,可以變成圖 3 裡的 x_1-x_5,然後每個字元會變成剛剛所說的 word embedding (一串數字),也就是圖 3 裡的 h_1-h_5,然後他們再最後變成輸出,比如 “I love China”(翻譯任務),也就是圖 3 裡的 x_1’-x_3’。圖 3 裡剩下沒說的部分就是 attention 機制了,也就是圖 3 裡的 A,他相當于給每個 h 賦予了一個權重,這樣我們就知道在轉換目前這個詞的時候,哪些字比較重要了。具體的細節可以參考我最開始寫的那篇文章(

從 word2vec 開始,說下 GPT 龐大的家族系譜

)。可以看出,這裡的數字表征是整個任務的基礎,這也是為什麼 Attention 機制無法單獨工作的原因。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 3.  早期照片 - Attention 與 RNN 強強聯合(source: Attention for RNN Seq2Seq Models (1.25x speed recommended) - YouTube)

此時,作為驕傲的皇族直系親屬,Transformer 不認可這種依附他人的工作方式,在論文 “Attention is all you need”(你隻需要注意力機制就夠了)[5] 中提出了自己獨立的方式, 将 “注意力機制” 加了一個字變成了 “自注意力機制”,隻用注意力機制就能生成那串數字。我們用中醫開藥來說明這個變化。最開始的 Attention 機制可以說是每種材料的劑量,但是最終去拿藥的時候,藥品是存在 RNN 或者 LSTM 這種采藥者手裡的,我們開出的藥方當然也要基于藥房(RNN、LSTM)裡有什麼藥。Transformer 做的隻是将采藥權要了回來(加入了 value 矩陣),然後換了一種開藥方的方式(加入 key 和 query 矩陣)。此時,Source 可以看作一個中藥鋪子的儲物箱,儲物箱裡的藥品由位址 Key(藥品名)和值 Value(藥品)組成,目前有個 Key=Query(藥方)的查詢,目的是取出儲物箱裡對應的 Value 值(藥品),即 Attention 數值。通過 Query 和儲物箱内元素 Key 的位址進行相似性比較來尋址,之是以說是軟尋址,指的是我們不隻從儲物箱裡面找出一中藥物,而是可能從每個 Key 位址都會取出内容,取出内容的重要性(量的多少)根據 Query 和 Key 的相似性來決定,之後對 Value 進行權重求和,這樣就可以取出最終的 Value 值(一副中藥),也即 Attention 值。是以不少研究人員将 Attention 機制看作軟尋址的一種特例,這也是非常有道理的 [6]。

從此之後,Transformer 正式開始帶領家族走向繁榮。

Transformer 繼位

其實從圖 1 也可以看出,transformer 就是爺爺家族裡子嗣最旺盛的一支了,也證明了當年”Attention is all you need” 這個題目狂的确實有理有據。雖然剛剛講過他提出的自注意力機制是什麼,前面那篇文章 (

從 word2vec 開始,說下 GPT 龐大的家族系譜

) 已經詳細講過 transformer 的演化過程了,這裡還是快速給新來的同學回顧一下 transformer 這個架構到底是什麼。

簡單來說,我們可以将 Transformer 看作一個 “演員”,對這個 “演員” 來說,編碼器就像是演員的記憶,負責将台詞轉化為一個中間表示(抽象成腦海裡我們不知道是什麼的東西,也就是演員的了解),而解碼器則像是演員的表演,負責将腦海裡的了解轉化成熒幕上的展示。這裡面最重要的自注意力機制則充當了演員的專注力,能夠自動調整演員在不同位置的注意力,進而更好地了解所有台詞,使其在不同的情境中表演得更加自然流暢。

更具體一點來說,我們可以将 Transformer 看作一個大型 “語言處理工廠”。在這個工廠中,每個勞工(編碼器)都負責處理輸入序列中的一個位置(比如說一個字),對其進行加工和轉換,然後将其傳遞給下一個勞工(編碼器)。每個勞工都有一份詳細的工作說明書(自注意力機制),其中較長的描述了如何處理目前位置的輸入以及如何與前面的位置建立關聯。在這個工廠中,每個勞工都可以同時處理自己的任務,是以整個工廠可以高效地處理大量的輸入資料。

Transformer 一登場,直接因為其強大的實力和兩個争氣的兒子(BERT 和 GPT)毫無懸念的奪下皇位。BERT (Bidirectional Encoder Representations from Transformers) [1] 繼承了 Transformer 的 Encoder 部分,赢得了前半程比賽,但是因為其限制性,在通用性上輸給了 GPT。老實的 GPT (Generative Pre-trained Transformer)[7-10] 繼承了 Decoder 部分,老老實實從頭學起,學習人類的交流方式,最終在後半程實作了了反超。

當然,Transformer 的野心顯然不止于此,”Attention is all you need”,指的并不隻是 NLP 領域。在介紹 GPT 和 BERT 之間的恩怨情仇之前,先看看他們老當益壯的父親都做了些什麼吧。

新族譜 - 諸侯林立

“父親,時代變了。我們家族會因為我的努力,走上真正的輝煌。”

——Transformer

在了解了 Transformer 的機制之後,我們可以來看看在 Transformer 的強力發展下,Transformer 世家現在發展到什麼程度了(新族譜)。從前面的 “演員” 例子可以看出,Transformer 代表了一種符合人類邏輯的學習方式,是以它不僅可以處理文字,還可以處理圖像。圖 2 總結了 Transformer 世家強大的家族背景。除了讓 GPT 和 BERT 在最開始的 NLP(自然語言處理)領域繼續開疆裂土外,Transformer 還開始涉足計算機視覺領域。它的小兒子(谷歌提出的 ViT 等)也在這個領域發光發熱。2021 年,Vision Transformer 迎來了大爆發,一大批基于 Vision Transformer 的工作席卷了計算機視覺任務。自然而然地,作為一個世家,Transformer 家族總會互通有無,連接配接文本和圖像(AI 作畫)的 CLIP 應運而生。2022 年底,Stable Diffusion 在 ChatGPT 之前風光無限。除此之外,CLIP 還為 Transformer 世家打開了多模态的新大門。除了文字和圖像,文字是否也能做音樂,是否也能畫圖?多模态和多任務 Transformer 也應運而生。總之,每個領域都是一個諸侯,一個 NLP 領域白手起家的 Transformer,在努力發展後成了可以分封諸侯的 “周王”。

諸侯林立,當是盛世。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

 圖 4.  Transformer 世家日益繁盛的家族族譜

牛刀小試 - Vision Transformer [12]

在說 GPT 之前,還是要先說說 Transformer 做出的第一個大膽嘗試 - 那就是讓小兒子去摻和 CV 領域。先看看小兒子生平:

其父親 Transformer 出生于 2017 年一篇叫做 Attention is All You Need 的論文中。

2019 年,Google 提出了一種 Vision Transformer(ViT)的架構,可以直接處理圖像,而不需要使用卷積層(CNN)。論文題目一如既往的直白:“An image is worth 16x16 words”(一張圖檔就是 16*16 個詞)。如圖 5 所示,它的基本思想是把輸入的圖像分成一系列的小塊,每個小塊可以了解成過去處理文章時候的一個文字,然後把這些小塊轉換成向量,就像在普通的 Transformer 中處理文字一樣。如果說在自然語言處理(NLP)領域,Transformer 的注意力機制試圖捕捉文本中不同單詞之間的關系,那麼在計算機視覺(CV)領域,ViT 則試圖捕捉圖像中不同部分之間的關系。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 5.  ViT 如何處理圖檔(source: Are Transformers better than CNN’s at Image Recognition? | by Arjun Sarkar | Towards Data Science)

在那之後,各種基于 Transformer 的模型層出不窮,而且在相應的任務上都取得了超越 CNN 的成績。那 Transformer 的優勢是什麼呢,我們先回到電影的例子上,看看 Transformer 和 CNN 的差別:

想象你是一位導演,要拍攝一部電影,你需要給演員安排好位置,把不同的元素放在合适的位置上,比如說,将演員放在适當的背景下,使用合适的光線,使整個畫面看起來和諧美觀。對于 CNN 來說,它像是一個專業的攝影師,會逐像素地拍攝每一幀畫面,然後從中提取出一些邊緣、紋理等低層次特征。然後,它将這些特征組合起來,形成更高層次的特征,例如人臉、動作等,最終得到一幀畫面。随着電影的進行,CNN 會不斷重複這個過程,直到完成整部電影的拍攝。

而對于 ViT 來說,它像是一個藝術指導,會把整個畫面看作是一個整體,考慮到背景、光線、顔色等因素,為每個演員配置設定合适的位置和角度,創造出一個完美的畫面。然後,ViT 會把這些資訊彙總成一個向量,并使用多層感覺器對它們進行處理,最終得到一幀畫面。随着電影的進行,ViT 會不斷重複這個過程,直到完成整部電影的創作。

回到圖像處理任務上,假設我們有一張 224x224 像素的貓的圖檔,我們想要用一個神經網絡對它進行分類。如果我們使用傳統的卷積神經網絡,它可能會采用多個卷積層和池化層來逐漸縮小圖像的大小,最終得到一個較小的特征向量,然後通過全連接配接層進行分類。這種方法的問題是,在卷積和池化的過程中,我們會逐漸丢失圖像中的資訊,因為我們不能同時考慮所有像素點之間的關系。此外,由于卷積和池化層的順序限制,我們無法進行全局的資訊互動。相比之下,如果我們使用 Transformer 和 self-attention 機制來處理這個圖像,我們可以直接将整個圖像視為一個序列,并對它進行 self-attention 計算。這種方法不會丢失任何像素點之間的關系,并且可以進行全局的資訊互動。

此外,由于 self-attention 計算是可并行化的,是以我們可以同時處理整個圖像,大大加快了計算速度。舉個例子,假設我們有一個句子:“I like to eat ice cream”, 其中包含 6 個單詞。現在假設我們正在使用一個基于自注意力機制的模型來了解這個句子,Transformer 可以:

最小化每層的總計算複雜度:基于自注意力機制的模型中,我們隻需要計算每個單詞與所有其他單詞之間的注意力權重,這樣每一層的計算量隻取決于輸入長度而不是隐藏層的大小。在這個例子中,輸入長度為 6 個單詞,是以每一層的計算複雜度隻取決于這 6 個單詞的數量。

最大化可并行化的計算量:基于自注意力機制的模型可以同時計算每個單詞與其他所有單詞之間的注意力權重,是以計算可以高度并行化,進而加速模型的訓練和推斷。

然而,ViT 需要大規模資料集和高分辨率圖像才能發揮其全部潛力 ,是以,雖然 Vision Transformers 在 CV 領域表現不凡,CNN 在計算機視覺領域的應用和研究仍然更為廣泛,并且在目标檢測和分割等任務中具有優勢 。

但是沒關系,你做的已經夠好了,你父親涉足 CV 的初衷也不是為了取代 CNN,他有更宏大的目标。

這個目标的基礎,就是前面我說的 “此外”。

初露峥嵘 - CLIP [13]

前面我說過,Transformer 還有更宏大的目标,那就是 “大模型”,超級超級大的模型。除了我在前一篇文章裡說的 transformer 可以更好地獲得全局資訊外,更小的計算複雜度和更好的并行度成為了支撐大模型的基礎。

2021 年,除了 Vision Transformer 有了長足進展以外,GPT 那一支還在緊鑼密鼓的籌備 GPT3.5,閑不下來的勞模 Transformer 又引領了一個新的高潮 —— 連結文本和圖像。這個高潮也為 “大模型” 計劃打響了除 NLP 領域外的第一槍。而此時,Transformer 在視覺任務上的缺點,在這裡反而變成了優勢。”ViT 需要大規模資料集和高分辨率圖像才能發揮其全部潛力 “如果換個說法,就是 “ViT 可以處理大規模資料集和高分辨率圖像”。

老規矩,先說 CLIP 是什麼。

CLIP 的全稱是 Contrastive Language-Image Pre-Training,很明顯其基本思想就是傳統 CV 領域裡的對比學習 (Contrastive learning)。當我們學習新知識時,我們會閱讀不同的書籍和文章,擷取大量的資訊。但是,我們并不是隻記住了每個書籍或文章中的所有單詞和句子。相反,我們會試圖找到這些資訊之間的相似性和差別。例如,我們可能會注意到在不同的書中,某個主題的描述方式和關鍵概念的表述方式可能會有所不同,但它們所描述的概念本質上是相同的。這種尋找相似性和差別的方式就是對比學習的基本思想之一。我們可以将每本書或文章看作不同的樣本,而相同主題的書籍或文章可以被視為來自同一類别的不同執行個體。在對比學習中,我們會訓練模型來學習如何區分這些不同類别的樣本,以此來學習它們的相似性和差別。

接下來更學術一點,假設你想訓練一個模型來識别汽車品牌。你可以有一組帶标簽的汽車圖像,每個圖像都有一個品牌标簽,例如 “奔馳”、“寶馬”、“奧迪” 等等。在傳統的監督學習中,您可以将圖像和品牌标簽一起輸入模型,并讓模型學習如何預測正确的品牌标簽。

但在對比學習中,你可以使用未标記的圖像來訓練模型。假設你有一組未标記的汽車圖像,你可以将這些圖像分為兩組:正樣本和負樣本。正樣本是同一品牌的不同角度的圖像,而負樣本是不同品牌的圖像。接下來,就可以使用對比學習來訓練模型,以便将同一品牌的正樣本彼此靠近,而将不同品牌的負樣本彼此遠離。這樣,模型可以學會從圖像中提取品牌特定的特征,而不必明确地告訴它每個圖像的品牌标簽。

很明顯,這是一個自監督學習模型,CLIP 也是一個類似的自監督學習模型,隻不過它的目标是将語言和圖像聯系起來,進而使計算機能夠了解文本和圖像之間的關系。

想象你正在學習一組詞彙表,其中每個單詞都有其定義和相應的圖像。對于每個單詞和其對應的圖像,你可以将它們視為一對(pair)。你的任務是找出這些單詞和圖像之間的互相關系,即哪些單詞與哪些圖像比對,哪些不比對。

如圖 6 所示,對于對比學習算法而言,這些單詞和圖像對就是所謂的 “anchor”(錨定樣本)和 “positive”(正樣本)。“anchor” 指的是我們想要學習的對象,而 “positive” 則是與 “anchor” 比對的樣本。與之相對的是 “negative”(負樣本),即與 “anchor” 不比對的樣本。

在對比學習中,我們将 “anchor” 和 “positive” 組成一對,并嘗試将它們區分開來。同時,我們也會将 “anchor” 和 “negative” 組成一對,并嘗試将它們區分開來。這個過程可以了解為是在尋找 “anchor” 和 “positive” 之間的相似性,以及在排除 “anchor” 和 “negative” 之間的相似性。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 6. 對比學習(Contrastive Learning)圖示 [14]。Anchor 就是原始圖像,positives 一般是經過裁切、旋轉後的原始圖像,或是已知的相同類别的圖像,negatives 可以被簡單粗暴的定義為未知的圖像(有可能是同一類别),或者是已知的不同類别的圖像。

為了達到這個目标,CLIP 首先對大量的圖像和文本進行預訓練,然後使用預訓練的模型進行下遊任務,例如分類、檢索和生成等。CLIP 模型采用了一種新的自監督學習方法,即同時處理文本和圖像,通過訓練來學習如何将它們聯系起來。它在文本和圖像之間共享注意力機制,并使用一組簡單的可調參數來學習這個映射。它用的是基于 transformer 的文本編碼器和基于 CNN 的圖像編碼器,然後計算圖像和文本嵌入之間的相似度。CLIP 通過使用對比學習目标來學習關聯圖像和文本,該目标最大化資料中存在的圖像 - 文本對之間的一緻性,并最小化随機采樣的圖像 - 文本對之間的一緻性。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 7. CLIP 圖示 [13]。相比圖 6,可以簡單了解成圖 6 中的 positive 和 negative 都是文字了。

舉個例子,如果我們想用 CLIP 來識别一張圖檔是否是 "紅色的沙灘",我們可以輸入這個文本描述和一張圖檔,CLIP 将生成一個向量對來表示它們的聯系。如果這個向量對的距離很小,那麼就說明這張圖檔可能是 "紅色的沙灘",反之則不是。通過這種方法,CLIP 可以實作圖像分類和圖像搜尋等任務。

回到全稱,CLIP 的最後一個詞是 pretraining,是以其本質還是預訓練模型,但是它可以用于涉及比對圖像和文本的各種下遊任務,例如圖像分類、零樣本學習和圖像描述生成等。例如,CLIP 可用于将圖像分類為自然語言标簽給出的類别,例如 “狗的照片” 或 “風景畫”。CLIP 還可用于通過使用以 CLIP 提取的圖像特征為條件的語言模型來為圖像生成說明文字。此外,CLIP 可用于通過使用以 CLIP 提取的文本特征為條件的生成模型從文本生成圖像。

DALL-E & Stable Diffusion

在 CLIP 的幫助下,一個新的諸侯崛起了 - 他叫 AIGC(AI generated content)。其實 ChatGPT 本質上也是 AIGC 的一種,但是在這個小節,我們主要說的是 AI 作畫。先來看看 AI 作畫這個小家族的發展史:

2021.01,OpenAI 釋出 DALL-E [15](AI 作畫軟體),它改進了 GPT-3 進而讓 GPT-3 生成圖像,而不是文本 (Image Transformer Network)

幾乎同時(2021.01),OpenAI 釋出 CLIP [13]

2021.05,Google Brain 和 DeepMind 釋出 Stable diffusion [17],并持續疊代新版本。它采用 frozen CLIP 文本編碼器來根據文本提示調整模型。Stable diffusion 将圖像生成過程分解為運作時的 “擴散”(diffusion)過程。從僅有的噪聲開始,它逐漸修正圖像,直到沒有任何噪聲,讓其更接近提供的文本描述。 

2022.04,DALL-E-2 [16] 釋出。它可以根據自然語言的描述建立逼真的圖像和藝術品。DALL-E-2 采用由先驗和解碼器組成的兩部分模型。先驗是一個 GPT-3 模型,根據文本提示生成 CLIP 圖像嵌入。解碼器是一個擴散模型,根據 CLIP 嵌入生成圖像。DALL-E-2 還可以進行 outpainting, inpainting,以及對現有圖像的變化。

這個家族的脈絡可見一斑,大哥 CLIP 連結了圖像和文本,其雙胞胎兄弟 DALL-E 順勢提出了文本到圖像的任務。為了改進這個任務,一個遠房表親 Stable diffusion 改進了生成圖像的算法,最後 DALL-E-2 取長補短,結合了 GPT-3,CLIP 以及 stable diffusion 的優勢,完成了自己的 AI 作畫系統。

對于最開始的 DALL-E, 假設你是一位畫家,而 DALL-E 就是你的工具箱。在這個比喻中,工具箱中有兩個主要的工具:一個是畫筆,另一個是調色闆。

畫筆是 DALL-E 的解碼器,它可以将給定的文字描述轉換為一張圖像。調色闆則是 DALL-E 的編碼器,它可以将任意的文字描述轉化為一個特征向量。

當你得到一句文字描述時,你會首先用調色闆來生成一個特征向量。然後你就可以拿起畫筆,并使用特征向量來生成一張與描述相符的圖像。當你需要細節時,你會使用更精細的畫筆,反之則會使用更粗糙的畫筆。

與畫家不同的是,DALL-E 使用的是神經網絡,而不是畫筆和調色闆。這個神經網絡使用了一種名為 Image Transformer Network 的結構。在生成圖像時,DALL-E 使用先前提到的 GPT-3 模型生成與文本描述相對應的 CLIP 圖像嵌入。然後,DALL-E 使用束搜尋算法生成一系列可能的圖像,這些圖像與輸入的文本描述相比對,并将它們送入一個解碼器來生成最終的圖像。這種嵌入向量是通過使用稱為對比學習的技術來訓練的,該技術可以将相似的圖像和文本嵌入到相鄰的空間中,以便更容易地将它們組合起來。注意,這裡 DALLE 并沒有直接包含 CLIP,但是它使用了 CLIP 的文本和圖像嵌入來訓練變換器和 VAE。

至于在生成圖像過程中使用的束搜尋算法,實際上是一種貪心搜尋算法,它可以在有限的候選集合中找到最優的序列。束搜尋的基本思想是,每次擴充目前序列時,隻保留機率最高的 k 個候選(k 稱為束寬度),并舍棄其他低機率的候選。這樣可以減少搜尋空間,提高效率和準确度。DALLE 中使用束搜尋生成圖像的具體步驟如下:

将輸入的文本描述編碼為一個向量,并作為變換器模型的初始輸入。

從一個特殊的開始符号開始,逐像素地生成圖像序列。每次生成一個像素時,都用變換器模型預測下一個像素的機率分布,并從中選擇機率最高的 k 個候選像素,作為目前序列的延伸。

對每個延伸後的序列,計算其累積機率,并保留機率最高的 k 個序列,舍棄其他序列。

重複步驟 2 和 3,直到生成一個特殊的結束符号或達到最大長度限制。

傳回機率最高的序列作為最終生成的圖像。

同樣一幅畫,stable diffusion 是怎麼畫的呢?當我們想要畫一幅藝術作品時,通常需要一個良好的構圖和一些具體的元素來建構。Stable diffusion 就是這樣一種生成圖像的方法,它将圖像生成的過程分成了兩個部分:擴散過程和重構過程。擴散過程可以想象成是将一堆零散的畫筆、顔料和畫闆混合在一起,慢慢地在畫闆上創造出越來越多的元素。這個過程中,我們并不知道最終畫面會是什麼樣子,也無法确定每個元素最終的位置。但是,我們可以逐漸添加和調整這些元素,直到整幅畫完成。然後,輸入的文本描述就像是我們對于要畫的作品的大緻描述,通過束搜尋算法來在文本描述和生成的圖像之間進行精細的比對。這個過程就像是我們在不斷地修改和調整元素,讓它們更好地比對我們想要的畫面。最終,生成的圖像将與文本描述緊密比對,呈現出我們想象中的藝術作品。

如圖 8 所示,這裡的擴散模型是一種生成模型,它通過逐漸向資料添加噪聲,然後逆向恢複原始資料的過程來學習資料的分布。stable diffusion 使用了一個預訓練的變分自編碼器(VAE)來将圖像編碼成低維潛在向量,并使用一個基于變換器的擴散模型來從潛在向量生成圖像。stable diffusion 還使用了一個當機的 CLIP 文本編碼器來将文本提示轉換成圖像嵌入,進而對擴散模型進行條件化。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 8. Stable Diffusion 過程。首先是上面的箭頭,一張圖檔被不斷加入噪聲,最後變成純噪聲圖,然後走下面的箭頭,逐漸消除噪聲,然後重建最開始的圖檔。(圖源:From DALL・E to Stable Diffusion: how do text-to-image generation models work? | Tryolabs)

值得注意的是,Stable Diffusion 中的擴散過程是一種随機的過程,是以每次生成的圖像都會有所不同,即使是相同的文本描述。這種随機性使得生成的圖像更加多樣化,同時也增加了算法的不确定性。為了讓生成的圖像更加穩定,Stable Diffusion 使用了一些技巧,如在擴散過程中加入逐漸增加的噪聲,以及使用多次重構過程來進一步提高圖像品質。

Stable Diffusion 在 DALL-E 的基礎上有了很大的進步:

分辨率:stable diffusion 可以生成高達 1024×1024 像素的圖像,而 DALL-E 目前隻能生成 256×256 像素的圖像。

速度:stable diffusion 需要進行多次疊代才能生成圖像,是以速度較慢。DALL-E 則可以一次性生成圖像,是以速度較快。

靈活性:stable diffusion 可以對現有的圖像進行擴畫、修補和變化,而 DALL-E 隻能從文本提示生成圖像。

真實性:stable diffusion 可以生成更真實和細緻的圖像,尤其是在複雜和抽象的描述下。DALL-E 則可能生成一些不符合實體規律或常識的圖像。

這也是為什麼 DALL-E-2 也将擴散模型加入到其模型中去了。

潛伏的強者 - GPT3.5 [18] 

& Instruct GPT [19]

在其他諸侯把改革開展的如火如荼的時候,GPT 這一支也一直在默默努力着。開頭說過,GPT-3 剛釋出的時候已經有很強的能力了,但是使用方式不那麼 “非技術人員友好”,是以掀起的浪花都是在技術界,這些本就不算很熱烈的浪花,又因為它不低的收費而日益消散。

Transformer 十分不滿意,GPT 想了想,那就改革!

第一個響應改革号召,邁出第一步的是 GPT 3.5:

“我比較笨,想不出什麼好辦法改革,那就先把基礎打牢吧。”

于是,GPT3.5 基于 GPT-3 ,使用了一種叫做 Text+Code 的訓練資料,即在文本資料的基礎上,增加了一些程式設計代碼的資料。簡單來說,就是用了更大的資料集。這樣可以使模型更好地了解和生成代碼,提高模型的多樣性和創造性。Text+Code 是一種基于文本和代碼的訓練資料,它是由 OpenAI 從網上收集并整理的。它包括兩部分:文本和代碼。文本是一些用自然語言描述的内容,如文章、評論、對話等。代碼是一些用程式設計語言編寫的内容,如 Python、Java、HTML 等。

Text+Code 訓練資料可以使模型更好地了解和生成代碼,提高模型的多樣性和創造性。例如,在程式設計任務中,模型可以根據文本描述生成相應的代碼,并且代碼具有較高的正确性和可讀性。在内容生成任務中,模型可以根據代碼描述生成相應的文本,并且文本具有較高的一緻性和有趣性。Text+Code 訓練資料也可以使模型更好地處理多語言,多模态,多領域的資料和任務。例如,在語言翻譯任務中,模型可以根據不同語言之間的對應關系,進行準确和流暢的翻譯。在圖像生成任務中,模型可以根據文本或代碼描述,生成相應的圖像,并且圖像具有較高的清晰度和逼真度。

第二個響應号召的是 Instruct GPT,他發現了新的問題:

“要想跟人類打成一片,我們就需要更有效的聽取他們的意見。”

于是,出現了大名鼎鼎的新晉外援,也就是 RLHF 訓練政策。RLHF 是一種基于強化學習的訓練政策,它的全稱是 Reinforcement Learning from Human Feedback。它的核心思想是在訓練過程中,給模型提供一些指令,并根據模型的輸出給予獎勵或懲罰。這樣可以使模型更好地遵循指令,提高模型的可控性和可信度。其實 GPT-3.5 也有人類回報(Human Feedback),那加入了強化學習(Reinforcement learning)之後,發生了什麼改變呢?

GPT3.5 的人類回報是直接用于微調模型的參數,而 Instruct GPT 的 RLHF 是用于訓練一個獎勵模型,然後用這個獎勵模型來指導模型的行為。

GPT3.5 的人類回報是基于單個輸出的評價,而 Instruct GPT 的 RLHF 是基于多個輸出之間的比較。

GPT3.5 的人類回報隻進行了一次,而 Instruct GPT 的 RLHF 可以進行多次疊代,不斷收集新的比較資料,訓練新的獎勵模型,優化新的政策。

也就是說,更少的人力投入,但是給模型帶來了更大的收益。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 9. RLHF 過程(圖源:GPT-4 (openai.com))

如圖 9 所示,RLHF 訓練政策分為兩個階段:預訓練和微調。在預訓練階段,模型使用和 GPT-3 相同的資料集進行無監督學習,學習語言的基本知識和規律。在微調階段,模型使用一些人工标注的資料進行強化學習,學習如何根據指令生成合适的輸出。

人工标注的資料包括兩部分:指令和回報。指令是一些用自然語言描述的任務,如 “寫一首關于春天的詩” 或 “給我一個關于狗的笑話”。回報是一些用數字表示的評分,如 “1” 表示很差,“5” 表示很好。回報是由人類标注者根據模型的輸出給出的,反映了模型輸出的品質和合理性。

在微調階段,模型使用一個叫做 Actor-Critic 的算法進行強化學習。Actor-Critic 算法包括兩個部分:Actor 和 Critic。Actor 是一個生成器,它根據指令生成輸出。Critic 是一個評估器,它根據回報評估輸出的獎勵值。Actor 和 Critic 之間互相協作和競争,不斷地更新自己的參數,以提高獎勵值。

RLHF 訓練政策可以使模型更好地遵循指令,提高模型的可控性和可信度。例如,在寫作任務中,模型可以根據指令生成不同風格和主題的文本,并且文本具有較高的連貫性和邏輯性。在對話任務中,模型可以根據指令生成不同情感和語氣的回複,并且回複具有較高的相關性和禮貌性。

終于,經過前輩們的改革積累,GPT 家族裡更加靈活的小兒子 ChatGPT 覺得是時候了,順勢基于 Instruct GPT 推出了更貼合人類交流方式的對話模式,直接在人類社會掀起巨大的浪花(幾億使用者),而且它又是免費的,GPT 家族經過幾年的蟄伏,終于一鳴驚人,成為 Transformer 世家最受寵的皇子,直接在繼位之争上一舉奪魁,成為太子。

與此同時,對于 ChatGPT 來說,太子還不是全部,ChatGPT 繼承了 Transformer 巨大的野心:

“現在的局面太亂了,強大的王朝不需要這麼多諸侯,是時候統一他們了。“

統一諸侯 – 大模型時代

GPT-4:” 這個時代,是大模型的時代,我說的。”(bushi)

現在的 ChatGPT 已經是基于 GPT-4 的大門面了。GPT-4 因為懼怕于其競争對手的快速反應,其實大部分技術細節都是封閉的。但是從其功能上,已經看出 GPT 家族統一各諸侯的野心了,除了文字對話以外,GPT-4 也加入了 AI 作圖功能。GPT 家族從過去幾年的蟄伏經驗裡悟出了一個道理,大模型即正義,并想将這個道理推廣到各個領域。

如果深究這個道理背後的底氣,那可能就是大模型訓練的方式吧。GPT-3 是目前最大的語言模型之一,它擁有 1750 億個參數,比其前身 GPT-2 多了 100 倍,比之前最大的同類 NLP 模型要多 10 倍,也可以算是大預言模型的先驅者了。

是以,我們先來看看 GPT-3 的模型架構和訓練方法是如何實作這樣的規模和性能的:

分布式訓練:GPT-3 使用了分布式訓練的方法,即将模型和資料分散在多個計算節點上,并通過通信協定進行協調和同步。這樣可以利用多個節點的計算資源和記憶體空間,加速模型訓練的過程,并支援更大規模的模型和資料。

GPT-3 使用了約 2000 個 GPU 節點來進行分布式訓練,每個節點有 多塊 GPU,每塊 GPU 有 相同 的顯存。

GPT-3 使用了兩種分布式訓練的方法:資料并行和模型并行。

資料并行是指将資料分成多個子集,每個節點處理一個子集,并在每個節點上更新模型的參數,然後在所有節點間同步參數。

模型并行是指将模型分成多個部分,每個節點處理一個部分,并在每個節點上計算部分的輸出和梯度,然後在所有節點間傳遞輸出和梯度。

GPT-3 使用了一種混合的資料并行和模型并行的方法,即在每個節點内部使用資料并行,在不同節點之間使用模型并行。這樣可以充分利用 GPU 的計算能力和通信帶寬,同時減少通信開銷和記憶體占用。

激活函數檢查點:GPT-3 使用了一種叫做激活函數檢查點的技術,即在模型的前向傳播過程中,隻儲存部分層的激活函數的值,而不是所有層的值。這樣可以節省顯存空間,因為激活函數的值占用了大部分的顯存。在模型的反向傳播過程中,如果需要用到某些層的激活函數的值,就重新計算它們,而不是從顯存中讀取。這樣可以犧牲一些計算時間來換取更多的顯存空間,進而支援更大規模的模型和批量大小。

稀疏注意力機制:GPT-3 使用了一種叫做稀疏注意力機制的技術,即在計算自注意力時,隻考慮部分輸入序列中的詞,而不是所有詞。這樣可以減少計算量和記憶體占用,因為自注意力的複雜度和輸入序列的長度成平方關系。GPT-3 使用了一種基于局部視窗和全局塊的稀疏注意力機制,即将輸入序列劃分為多個塊,并且每個塊隻與相鄰的幾個塊進行注意力計算,同時每個塊還與一些随機選擇的全局塊進行注意力計算。這樣可以保證模型既能捕捉局部資訊,又能捕捉全局資訊,同時也能降低計算複雜度和記憶體占用。

看到這裡,ChatGPT 眉頭微皺,似乎有些不滿意 GPT-3 的方案:“這還不夠。”

"大模型确實是當下的趨勢,但是不應該隻是為了競争而盲目追求規模。在訓練大模型之前,我們需要考慮更多的細節和技術挑戰,才能確定其能夠穩定、高效地運作,并産生有用的結果。"

“首先,選擇合适的訓練超參數和模型初始化非常關鍵。學習率、批量大小、疊代次數等超參數的選擇對模型的收斂速度、穩定性和性能影響重大。而模型初始化則決定了訓練開始前的權重值,會影響到最終結果的品質。這些參數需要根據經驗實驗或理論分析進行仔細調整,以確定模型的最佳表現。”

“其次,為了獲得高吞吐量并避免瓶頸,我們需要優化訓練過程中的各個環節,比如硬體配置、網絡帶寬、資料加載速度和模型架構等。優化這些環節可以顯著提高模型的處理速度和效率。例如,使用更快的儲存設備或資料格式可以減少資料加載時間;使用更大的批量大小或梯度累積可以減少通信開銷;使用更簡單或更稀疏的模型可以減少計算時間等等。”

“最後,訓練大模型時可能會遇到各種不穩定和失敗的情況,例如數值錯誤、過拟合、硬體故障、資料品質問題等等。為了避免或恢複這些問題,我們需要密切監控模型的行為和性能,并使用調試工具和技術來識别和修複任何錯誤或缺陷。此外,我們還可以使用各種安全措施和防護機制,如裁剪、正則化、丢棄、噪聲注入、資料過濾、資料增強等等,以提高模型的魯棒性和可靠性。”

“在這個時代,大模型的确是重要的,但是僅僅是追求規模并不能讓模型産生有用的結果。隻有經過深思熟慮的訓練和優化,才能讓大模型真正發揮其潛力,為人類帶來更多的價值。”

太子說得對。

沒落的強諸侯 - BERT

最後,瘦死的駱駝比馬大,雖然 BERT 最近被 GPT 壓過風頭,但畢竟是曾經的強諸侯,在 GPT 勢不可擋的發展下,BERT 依然保留了自己的一份封地。當談及自然語言處理模型的時候,BERT(Bidirectional Encoder Representations from Transformers)一度是非常受歡迎的模型,因為它在很多任務上都表現得非常出色。當它第一次釋出時,它幾乎是無人能敵的,甚至比 GPT 更為成功。這是因為 BERT 的設計與 GPT 有着不同的目标和優勢。

BERT 的目标是将上下文模組化的能力推到一個全新的高度,以便更好地支援下遊任務,例如文本分類和問答。它通過訓練一個雙向 Transformer 編碼器來實作這個目标。這個編碼器能夠同時考慮輸入序列的左側和右側,進而獲得更好的上下文表示,是以 BERT 能夠對上下文更好地進行模組化,提高了模型在下遊任務中的表現。

但是,随着時間的推移,GPT 系列模型的出現使得 GPT-3 在多項任務上超越了 BERT。一個可能的原因是 GPT 系列的模型在設計上更加專注于生成性任務,比如文本生成和對話系統,而 BERT 則更注重分類和問答任務。此外,GPT 系列模型使用了更大的參數和更多的資料進行訓練,這也使得它們能夠在更廣泛的任務上取得更好的表現。

當然,BERT 仍然是一個非常有用的模型,特别是對于一些需要對文本進行分類或回答問題的任務。而 GPT 系列的模型則更适合用于生成性任務,例如文本生成和對話系統。總體來說,這兩個模型都有它們獨特的優勢和局限性,我們需要根據具體任務的需求來選擇适合的模型。 

奪嫡之争 - 來勢洶洶的 Segment Anything Model (SAM) [20]

前面說過,在大哥 GPT 默默努力的時候,勞模 Transformer 在 CV 領域(ViT)和多模态領域 (CLIP) 都掀起了不小的浪花,但是最終都成為了經驗寶寶,被老父親 Transformer 教給了受寵的太子 GPT,最終成就了 GPT-4 的所謂大一統。

骨子裡流淌着 Transformer 血液的 ViT 和 CLIP 當然很不開心:“王侯将相甯有種乎?大哥不是學我們嗎,我們也可以學他。” 

“但是,他在 NLP 領域太強大了,我們要找個新的戰場。”

于是,SAM 橫空出世。在官網,他們自己是這麼描述的:

Segment Anything Model (SAM): a new AI model from Meta AI that can "cut out" any object, in any image, with a single click

簡單來說,我們可以将 SAM 看作一個高效的 “圖像剪輯大師”,它能夠通過各種輸入提示來精确地識别和分割圖像中的各種對象。例如,當我們在圖像中用滑鼠點選一個點時,SAM 會像一個經驗豐富的畫家一樣,自動剪切出該點所在的對象;當我們輸入 “貓” 這個詞時,SAM 就會像一個聰明的偵探一樣,自動找出并剪切出圖像中所有的貓;當我們給 SAM 一個目标檢測框時,SAM 就會像一個熟練的手術醫生一樣,準确地剪切出框内的對象。SAM 的零樣本泛化能力使其成為一個真正的 “通用剪輯大師”。這意味着無論是常見的對象,如汽車、樹木和建築,還是罕見的對象,如恐龍、外星人和魔法棒,SAM 都可以毫不費力地識别和剪切。這種強大的能力源于其先進的模型設計和龐大的資料集。我從原論文裡選了四張很複雜的場景執行個體(圖 10),說明了 SAM 到底可以做什麼。

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 10. SAM 的效果執行個體。圖檔裡每個顔色的東西你都可以剪輯提取出來,相當于一個高效的 PS 大師(圖像剪輯大師)。

簡單來說,以前别人跟我們眉飛色舞地提需求的時候,我們總要無奈地問一句,先等一下,你們能提供什麼樣的資料?現在不需要了,至少在 CV 領域,已經更貼近非技術人群對 AI 的了解了。

為了實作上面說的強大能力,我們來看看 ViT 和 CLIP 是如何大聲密謀的:

ViT: “我雖然之前主要是做圖像分類任務,但我的架構同樣适用于圖像分割。因為我是利用 Transformer 架構将圖像分解成一系列塊然後對其進行并行處理的,如果內建我的優勢,SAM 就可以繼承我并行處理和全局注意力的優勢,進而實作高效的圖像分割。”

CLIP:“好呀,那我就帶着我聯合訓練的方法入股,基于這個思想,SAM 也可以處理不同類型的輸入提示(問題提示和視覺提示)。”

于是,SAM 的模型架構成型了 (圖 11),ViT 用來做 image encoder(圖像編碼器),而 CLIP 來編碼 prompt(提示)的資訊。想法是好的,具體該怎麼做呢 —— 當然是學習大哥啦!

“我們想要利用預訓練的語言模型來做圖像分割任務,就像用文字提示(prompt)來讓語言模型生成或預測文字一樣。有了 CLIP,我們的提示就可以很豐富了,可以是一些 point (點)、box(框)、mask,還有 Text (文本),它們告訴語言模型要在圖像中分割出什麼。我們的目标就是,給定任何提示,都能得到一個有效的分割 mask (分割結果)。有效的 mask 意味着,即使提示有歧義(比如說襯衫還是人),輸出也應該是其中一個對象的合理 mask。這就像大哥 GPT(語言模型)對一個有歧義的提示也能給出一個連貫的回應一樣。我們選擇這個任務,因為它可以讓我們用一種自然的方式來預訓練語言模型,并且通過提示來實作零樣本遷移到不同的分割任務上。”

後GPT書:從GPT-3開始,續寫Transformer龐大家族系譜

圖 11. SAM 模型架構

至于結果,前面提到的其強大能力已經證明了這個想法的可行性。但是,不得不提的是,雖然 SAM 确實不再需要重新訓練模型,但是像 chatGPT 剛推出時一樣,他還是有一些限制的。在論文的 Limitation 部分,作者頁明确指出了 SAM 的一些局限性和不足,比如在細節、連通性、邊界等方面的缺陷,以及在互動式分割、實時性、文本提示、語義和全景分割等任務上的挑戰,同時也承認了一些領域專用工具的優勢。

舉個例子,我在 demo 裡做了兩個簡單的測試:一個是醫療圖像領域的病竈檢測,因為病竈太小了,很難檢測到;第二個是人像切割,切出來的人像乍看不錯,但是發絲還是不是很自然,仔細看還是能看出來切割痕迹。

當然,這畢竟是一個很好的開始,這小哥倆創業未半,還在努力,要啥自行車?是以,這場奪嫡的結果如何,還是讓我們拭目以待吧!

總結 

Transformer 世家的龐大家族顯然不是這一篇文章可以說明的,當談到基于 Transformer 的成果時,我們可以看到這個領域的持續創新:Vision Transformer(ViT)展示了 Transformer 在計算機視覺領域的成功應用,它可以直接處理圖像像素資料,不需要手工特征工程。DALL-E 和 CLIP 則将 Transformer 應用于圖像生成和圖像分類任務,展示了它在視覺語義了解中的優越表現。Stable Diffusion 則提出了一種穩定的擴散過程,可以對機率分布進行模組化,這可以應用于圖像分割、生成等任務。這些成果共同揭示出 Transformer 模型的廣泛應用前景,讓我們不得不承認,未來某一天,可能真的”Attention is all you need”。

總之,我們可以從這些成果中看到人工智能領域持續創新的活力。無論是 GPT 還是 BERT,還是 Vision Transformer、DALL-E、CLIP、Stable diffusion 等,這些成果都代表着人工智能領域的最新進展。

而大考(ChatGPT)目前,現在的情景大概是這樣的:

學霸們這學期好好上課,翻開書本就能回想起當時那節課老師說這個知識點時的音容笑貌,甚至開始規劃下學期的學習計劃。

僞學霸們天天到課,占據前排,打開課本卻是一臉懵逼,開始跟學渣們一起 “一天一本書,一周一學期”,唯一的差別就是課本不是全新的,對課本内容還有一點點記憶,不算是在完全的學習新知識。

 至于真正的學渣們…… 

“知識來,知識來,知識從四面發八方來”

其實我倒覺得,不管是僞學霸還是學渣,都應該在期末考面前保持冷靜,看看這學期講了什麼,找學霸們借一下筆記,甚至可以選擇緩考。對學霸們來說,快是水到渠成的。對僞學霸和學渣們來說,快是有害的。

在人工智能領域的競争中,持續創新是至關重要的。是以,作為研究員,我們應該密切關注這個領域的最新發展,并且保持謙虛和開放的心态,以促進人工智能領域的不斷進步。

參考文獻

[1] Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv (https://en.wikipedia.org/wiki/ArXiv_(identifier)):1301.3781 (https://arxiv.org/abs/1301.3781) [cs.CL (https://arxiv.org/archive/cs.CL)].

[2] Mikolov, Tomas (2013). "Distributed representations of words and phrases and their compositionality". Advances in neural information processing systems.

[3] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, & Luke Zettlemoyer. (2018). Deep contextualized word representations.

[4] Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. "Neural machine translation by jointly learning to align and translate." arXiv preprint arXiv:1409.0473 (2014).

[5] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[6] attention 機制及 self-attention (transformer). Accessed at: https://blog.csdn.net/Enjoy_endless/article/details/88679989

[7] Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).

[8] Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.

[9] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[10] GPT-4 (openai.com)

[11] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].

[12] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

[13] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.

[14] Zheng, Laura, Yu Shen, and Ming C. Lin. "Exploring Contrastive Learning with Attention for Self-Driving Generalization."

[15] Reddy, Mr D. Murahari, et al. "Dall-e: Creating images from text." UGC Care Group I Journal 8.14 (2021): 71-75.

[16] Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 (2022).

[17] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[18] Chen, Xuanting, et al. "How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks." arXiv preprint arXiv:2303.00293 (2023).

[19] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

分析師介紹:

本文作者王子嘉,戴爾科技集團首席技術官辦公室人工智能科學家,英國帝國理工學院Al專業畢業,主要研究方向為計算機視覺、3D重建、AIGC等,重點關注在相關領域進行新技術的探索與創新,在新Al技術賦能的資料隐私保護以及AIGC技術在資料管理上的應用等方向上做過很多嘗試與創新。于2019年加入戴爾科技集團,在此期間,已在相關領域發表論文5篇、專利139項。

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閑暇時間,通過線上分享、專欄解讀、知識庫建構、報告釋出、評測及項目咨詢等形式與全球 AI 社群共享自己的研究思路、工程經驗及行業洞察等專業知識,并從中獲得了自身的能力成長、經驗積累及職業發展。

繼續閱讀