大模型系統和應用——基于大模型的文本了解與生成

引言

最近在公衆号中了解到了劉知遠團隊退出的視訊課程《大模型交叉研讨課》，看了目錄覺得不錯，是以拜讀一下。

觀看位址： https://www.bilibili.com/video/BV1UG411p7zv

自然語言處理&大模型基礎
神經網絡基礎
Transformer&PLM
Prompt Tuning & Delta Tuning
高效訓練&模型壓縮
基于大模型的文本了解與生成

NLP的主要應用

NLP的主要應用主要分為兩類：自然語言了解(NLU)和自然語言生成(NLG)。

其中資訊檢索是NLU非常有代表性的應用；而文本生成式NLG一個代表性例子；機器問答綜合了自然語言了解和自然語言生成兩個任務。

在這三種任務中，大模型都帶來了一定的變革。下面分别給一些例子。

資訊檢索

資訊檢索是非常古老、非常經典的任務。在這一方面，大模型可以幫助機器來提供更加智能、更加準确的搜尋結果。

從上面的搜尋中可以看到，不僅是進行相同單詞的比對，也能标出相近的單詞。

機器問答

我們問機器一些問題，希望機器能提供我們想要的答案。傳統的機器問答方法是基于模闆、或者基于知識庫的，這樣使得它的問答範圍受限。

但現在大模型允許機器回答更加複雜的問題，從上面的例子中，列出一些最先進的大模型可以回答的問題。我們可以看到，即使它背後沒有一個知識庫去支撐它搜尋相關的知識，大模型裡面蘊含的知識也足以幫助機器回答上述問題。

文本生成

我們利用大模型可以幫助機器生成更加流暢、自然的文本。

資訊檢索

背景

資訊以爆炸的形式增加，使用者對資訊檢索的需求也是在急劇增長。

可以看到全球的資訊使用者數量也非常龐大。

自動檢索的計數根據使用者的查詢，從海量的文本資訊中提煉出少量的與使用者需求高度相關的文檔，回報給使用者。

資訊檢索有很多典型的應用，比如搜尋引擎、問答系統和智能寫作等。

定義和評測

首先來看下如何定義資訊檢索(IR)任務。

給定一個查詢
給定一個文檔庫
IR系統計算相關系數得分
，然後根據該得分進行排序

一個典型的IR系統分為兩個階段：檢索和重排階段。在檢索階段，針對整個文檔庫，從中找到相關文檔的子集，它重視的檢索速度；在重排序階段針對上一步得到的少量文檔進行精排，看重的是性能和效果。

下面我們看如何評測IR系統的排序性能和效果。

IR中常用的三個名額是MRR、MAP和NDCG。後面的

@k

表示在評測中，我們隻要考慮top K個排序的結果。

下面分别來看這三個名額。

MRR是評估倒數排名，我們給定一個待評測的查詢集合

，MRR隻會考慮哪個查詢排名最靠前的第一個相關文檔的位置。

比如說查詢集合中一個有三個查詢：cat、torus和virus。這三個查詢排在首位的相關文檔位置，分别是第3位、第2位和第1位。那麼對它們取倒數之後就是1/3、1/2和1。對它們求均值之後得到0.61，就是MRR評測的結果。

第二個評測名額是MAP，一組查詢平均準确率的均值，它會考慮所有相關文檔。這裡也舉個例子，這個查詢集合中一共有兩個查詢，它們分别有4篇和5篇相關文檔。

在query1中，這四篇相關文檔都被成功地召回了，它們被召回的位置分别是第1位、2位、4位和7位。同樣對它們取倒數排名，計算均值之後得到0.83。

在query2中，五篇中隻成功召回了3篇，位置是1,3和5。那麼計算它們的倒數分數，求均值得到0.45。

接着我們對這兩個查詢的分數相加，再求平均，得到0.64。才是最終MAP的得分。

最後一個介紹的名額是NDCG，歸一化的折損累積增益，該名額是商業的搜尋引擎/推薦系統中最常用的評價名額。它會将文檔設定成不同的相關等級，相關程度越高，等級越高。

它的計算方式為：用待評測的排序清單的DCG分數，除以IDCG的分數。IDCG的分數就是一個理想狀态下清單的真實排序方式；DCG的計算公式如上圖所示。

我們也看一個具體的例子，針對一個query抽回的五篇文檔，分别有不同的相關等級

。

我們會計算它的增益和折損後的增益，最後再求和就是DCG的分數。

傳統方法

下面我們來看一下傳統的IR方法以及存在的問題。

給定一個查詢，其中包含相應的單詞，BM25會計算該查詢與每一篇文檔的比對分數。

TF就是詞頻，為查詢中每個單詞在文檔中出現的頻率。

而IDF是逆文檔頻率，如果一個文檔在所有文檔中都出現，那麼它的IDF分數反而很低。

那麼這種基于詞彙比對的算法存在兩方面的問題。

首先是詞彙失配的問題，因為人類會使用不同的單詞來表達同一個意思。

其次是語義失配問題，可能即使文檔和詞彙有很高的比對率，但描述的含義卻完全不一樣。

神經網絡方法

下面我們介紹神經網絡的方法解決IR任務。會詳細介紹兩種架構：Cross-Encoder和Dual-Encoder。

神經網絡IR使用神經網絡将使用者的查詢和文檔庫的中的文檔投射到同一個向量空間，然後計算兩者的相關性分數，進而避免了傳統IR中的詞彙失配合語義失配的問題。

從性能上來說，Neural IR的方法尤其是基于大預訓練語言模型的方法，它的檢索性能遠遠超越了傳統IR的方法。也可以看到Neural IR的研究熱度是逐年增加的。

通常我們會在重排序階段采用上面左邊的Cross-Encoder的大模型架構，它會将查詢和問答進行詞彙級别的拼接，然後進行一個精細地互動式模組化，生成一個查詢-文檔的共同表示，然後産生相關性分數。這種模組化方式的好處是比較精細，達到的檢索性能也較好，但缺點是計算代價比較高。是以我們一般使用在重排序階段。

而在第一階段，檢索階段，我們一般采用上圖右邊的Dual-encoder，雙塔的架構，使用大模型對查詢和文檔分别進行編碼，形成兩個獨立的向量，然後再去計算向量間的相似性。這樣可以極大地降低計算的開銷。

首先我們來看下Cross-Encoder架構。

它會先把查詢和文檔進行拼接，然後一起喂給大模型。這裡以BERT為例，拼接完之後，經過多層transformer的模組化之後，把最後一層的CLS token作為查詢-文檔的共同表示。經過一個NLP的投射變成一個标量的分數，可以作為查詢-文檔相關性的分數。

在訓練該大模型的時候，訓練資料的形式是每個查詢配一個相關文檔，和至少一篇的不相關文檔。

然後采用常見的Ranking Loss，比如這裡的Pairwise hinge loss，為相關文檔和查詢配置設定更高的分數。

這裡分别展示了以BERT和T5作為bacakbone的重排序結果，可以看到相比傳統的IR方法，基于大模型的方法可以達到更出色的重排序效果。并且随着模型參數量的增加，重排序的性能也會持續地增強。

然後我們來看下Dual-Encoder架構。

這裡以DPR為例，它使用兩個獨立的Encoder分别對查詢和文檔進行編碼，然後用類似softmax這種NLL損失來訓練模型。

Dual-Encoder架構的好處是，因為是獨立編碼，是以可以提前計算緩存整個文檔庫的編碼。然後隻需要計算使用者的新查詢編碼，接着使用一些最近鄰搜尋的工具，比如faiss，去找出最相近的k個文檔。

在檢索性能方法，在第一階段檢索時，以BERT、T5作為backbone的效果。在使用1K訓練資料的情況下，它的效果已經超過了BM25，同時随着訓練資料的增加，大模型的性能也會增加。同樣模型的大小增加，效果也越好。

前沿熱點

本小節介紹兩種比較常見的基于大模型的Neural IR架構，和IR領域比較前沿的研究熱點。

首先有相當一部分工作是在研究如何在微調階段去挖掘更好的負例，目前幾種常見的訓練負例有上圖這麼幾種。

其中In-bach negative在訓練中同一個batch的正例可以作為其他query的一個負例。

還有Random negative随機地從文檔中進行采樣。

BM25的負例，即先用BM25針對每個query抽回一些top k的文檔，然後删除掉相關文檔，剩下的就是不相關的。

在In-batch空間中，它們的分布是非常不一樣的，是以它最大對大模型檢索的性能影響也是比較大的。

下面我們介紹一篇工作，它在訓練過程中使用模型本身去挖掘更難的負樣本，進而獲得更好的性能。

該方法稱為ANCE，它會在模型的訓練過程中——上圖中的綠線——去異步地維護Inferencer的程式，然後每隔k步，去把最新的模型拿過來推理一下，把那些排名靠前的難負樣本抽回來，加到下一輪的訓練過程中，這樣不斷地疊代重新整理。

還有一類方法，比如RocketQA，它模組化更精細的Cross-Encoder來幫助Dual-Encoder去過濾難負例，然後加到Dual-Encoder的訓練中，這樣交疊學習，進而提升Dual-Encoder第一階段檢索的性能。

上面是在微調階段的一個研究熱點，第二個研究熱點集中在大規模的預訓練階段。

首先是SEED-Encoder，它通過在預訓練階段為Encoder配置一個較弱的Decoder，來促使下面的Encoder對文本形成一個更好的表示。它主要的調整，第一個在于Encoder和Decoder之間的連接配接，第二個在于限制Decoder的Span。這些操作的目地在于讓CLS的表示足夠強，這個模型在預訓練的時候隻能通過CLS token來重建出原文本。CLS表現能力的增強，對IR是非常有幫助的。

還有一類方法，比如ICT，是在預訓練的資料上去做一些操作，比如它會針對預訓練的文本，随機地抽取文本中任意的一個句子，把這個句子作為我們的查詢，剩下的虛線的文本框，作為查詢的一個正例。這樣就建構出來在微調階段才能有的資料，接着它再用In-batch negative來配合着進行提前的預訓練。

現在越來越多的工作開始關注到Few-shot IR領域，因為在現實生活中，有很多檢索場景，都是少樣本的場景。這些場景缺乏大規模的監督資料，比如長尾的網頁搜尋、涉及隐私的個人檢索/企業檢索、人工标注昂貴的醫學/法律等專業領域的檢索。

在這些領域，有一部分工作在研究如何用弱監督的資料去取代監督的資料來訓練大模型。比如上面列了三種不同弱監督資料來源。有文檔的标題與文本的正文、網頁中的錨文本對、還有的直接用大模型去根據文本生成一個query，這樣通過大模型生成資料。

但由于剛才提到的弱監督資料是沒有經過人工品質檢測，不可避免會存在不同程度噪音。是以也湧現了一類工作，去研究如何針對弱監督資料進行去噪學習。比如上面的ReinfoSelect。

還有兩個有意思的研究方向，一個是對話式IR，針對使用者會同時提多個問題，且後面的問題與前面的問題有關聯。

另一個方向是使用大模型去檢索長文本。因為長文本情況下，模型需要考慮的問題比較多，比如長距離依賴。

QA介紹

QA分為很多種：

機器閱讀了解
開放領域QA
基于知識的QA
對話式QA

這裡主要介紹前面兩種。機器閱讀了解是在檢索到相關文檔後，讓機器代替人類去從相關文檔中抽取答案的過程。

機器閱讀了解

閱讀了解的定義：

首先會有一篇文章，以及對應的題目，通過了解題目的含義來回答問題。

閱讀了解的形式有很多種。

比如有完形填空，通過挖掉句子中某些詞，希望模型能正确輸出被挖掉的詞。

還有多項選擇類型。

還有一種是抽取式的閱讀了解，它的答案隐藏在文章中，讓機器去預測問題的答案實際上是文章中的某個詞/短語。

從機器閱讀了解的資料集類型可以看到它的發展。

下面介紹閱讀了解領域一些經典的方法。

在大模型出來之前，機器閱讀了解經典的架構是這樣的。它是一個四層的結構，首先對文檔和問題分别進行編碼，得分文檔和問題的向量集合。

然後分别處理這些向量集合，同時包括一些注意力，得分文檔和問題的彙聚向量表示。

接着基于從文檔到問題/從問題到文檔的互動得到融合問題和文檔的向量，最後喂給線性層進行預測。

比如BiDAF就是遵循了上面的架構實作的模型。

這些設計很複雜，并且遷移性不好。

有了大模型之後，隻需要用一個大模型就可以替代上面的前三層。

這裡給出了BERT剛出來時非常簡單的實作問答系統的示例。

直接拼接問題和文檔，作為BERT的輸入，然後用

[CLS]

進行分類得到最終的答案。

大模型的好處除了在于簡化閱讀了解的Pipeline之外，還有另一個好處是可以統一不同問答系統的形式。

可以統一成text-to-text的形式，比如抽取式QA可以看成給定輸入，直接輸出答案。

開放式QA

開放式QA假設的是沒有給出相關的文章，模型必須自己去尋找相關的文章。比如從維基百科中去尋找相關文章。開放式QA最終的目标是建立一個端到端的QA系統，隻需要喂給它問題就能得到答案。

開放式QA有兩種類型：生成式和檢索式。

生成式的方法就是用大模型内所存儲的知識，直接去回答問題。

第二種是基于檢索的方法，通常由兩部分組成：Document retriever和Document reader。

分别用于檢索出相關文章以及從相關文章中找出對應答案。

在大模型流行起來後一個非常重要的方向是如何用檢索來輔助大模型的預訓練過程。

讓大模型在下遊的機器問答環節中表現得更好。

REALM這篇工作它在模型的預訓練過程中加入了一個檢索的任務，讓大模型把預訓練當成一個開放式QA的任務，在預訓練的時候，同時訓練大模型和知識檢索器。然後在下遊的任務中直接用檢索器進行檢索，進而能夠達到更好的表現。

它具體是如何做的呢？首先在預訓練語料庫中有一個樣本，比如遮蓋了pyramidion(金字塔)這樣一個詞。然後把預訓練的過程看作是一個問答的過程，要去回答這個問題需要在知識庫中進行一些檢索。把該樣本當成一個問題，然後讓神經檢索器去進行一些檢索。再把檢索到的相關文章和該問題一起輸入到大模型中，希望大模型根據這些文章為找到問題的答案。

在下遊的微調過程中，就可以用相同的Pipeline，給定一個問題，用前面預訓練好的檢索器檢索相關的文章，然後通過相關的文章來回答問題。

WebGPT比前面介紹的模型更強大，在于它不限定隻能在維基百科中尋找答案，而是可以直接在搜尋引擎上去尋找相關的文章，然後回答問題。

它的Pipeline如上。訓練前讓很多标注人員給定一些問題，讓他們用基于文本的檢索器去尋找答案。并記錄了标注人員每一步的操作。比如可以去搜尋，點選每個連結，把有用的句子摘錄出來，然後繼續尋找下一個相關的内容。用這些記錄的行為去微調GPT-3，希望GPT-3能夠模仿人類行為來使用浏覽器。然後驚奇的發現，即使給定較少的訓練資料，比如幾千條，GPT-3就可以很容易地學會怎麼去操控浏覽器，它每次可以進行檢索，記下重要的引用，再通過這些引用生成最終的問題答案。

文本生成

文本生成可以把一些非語言性的表示資訊，通過模型以一種人類可以了解的語言表示處理。

非語言性的表示就是常說的資料，比如圖檔、表格、圖等。我們統一把這種生成叫做date-to-text生成，實際上廣義上還包括text-to-text的生成。

文本生成任務

本小節介紹一下文本生成任務下的具體任務。

第一個是data-to-text的任務，輸入可以有很多種形式，比如說圖檔、表格、圖等。

上面分别舉例了圖像和表格生成文本的例子。

第二個任務是對話的生成，模型針對使用者的特定輸入，給予一些回答。

第三個是常見的任務——機器翻譯。

還有一個任務是詩歌的生成，在生成詩歌的時候，不僅要求它包含某種主題，包含某些關鍵詞，同時還要求它滿足一些詩歌的格律。

還包括文本風格轉移，把輸入文本的風格轉移成所需要的風格。上面是文本風格轉移中一些常見的子任務。

文本生成還有種任務叫故事生成，在給定關鍵詞/故事線下進行故事的生成。上面是一個簡單的例子。

文本生成任務中還包括總結生成的任務，輸入是較長的文檔，希望模型能生成較短的關于文檔的摘要。

神經網絡文本生成

基于前面

詞生成第

個詞。

有條件的語言模組化，不僅基于已經生成的詞，還基于其他輸入。比如機器翻譯。

Seq2Seq也是一種條件語言模型。

在訓練時以teacher forcing的方式進行訓練，而測試時基于已生成的單詞。

這會帶來訓練與測試分布的gap。

T5也是一種seq2sqe模型，它基于Transformer實作，将所有的NLP任務統一成text-to-text的形式表表示。

上圖左側是Encoder部分，右側是Decoder部分。

T5模型在清洗過的資料集上進行訓練，訓練時遮蓋句子中的部分單詞。在訓練時，希望模型能通過這樣的輸入預測出被遮蓋的部分。語言模型分為兩大類，其一是自回歸生成。

在預測時以過去的輸出作為參考來生成下一個單詞。

GPT一系列模型就是自回歸生成的典型例子。

它拿到了Transformer中的Decoder部分，GPT1認為可以通過生成式預訓練來提升語言了解能力；GPT-2認為語言模型是一種無監督的多任務學習者；GPT3認為語言模型是少樣本學習者。

以GPT-2為例，它是在無标簽的資料上訓練的，可以根據下遊具體的有标簽資料進行微調。

另一類是非自回歸生成。

在給定source和target的情況下，編碼器會對source進行編碼，在解碼器生成的過程中，每個解碼器之間是沒有時序關系的。可以通過編碼器的資訊一次性地并行地生成所有的輸出單詞。

在給定輸入的情況下，輸出隻與兩部分相關。一，輸入會決定目标句子的長度

；二，在生成當成單詞的時候隻與

和

相關，

是輸入的表示，

是計算得到的不同

和不同

之間的權重關系。我們可以看到

中是沒有

這一項的。是以我們可以并行地對這些詞進行生成。

下面介紹一些在文本生成中的解碼政策。

首先是Greedy Decoding，在生成的每步中都會選擇計算機率最大的單詞作為輸出單詞。

這種方法的缺點是很容易生成重複的文本，這樣可讀性較差。

束搜尋是另一種方法，它在生成時的每步選擇最好的

個局部序列。最終從這

個序列中選擇機率最大的輸出。

這兩種做法在每步中都會機率最大的那個/些單詞，但我們是否有必要選擇一個這樣機率最大的單詞呢？

實際上是每必要的，那麼要怎麼做呢？下面介紹一些基于采用的方法。

這些方法按照模型計算出來單詞的機率分布，按照機率随機地從詞表中選擇生成的單詞，進而增加模型生成的多樣性。

但也有可能生成無關的機率較小的單詞，為了避免大量出現這種無意義的詞，我們可以采取top-n和top-p兩種方法。

top-n就是在采樣的過程中局限于

個最有可能的單詞上進行采樣。

而top-p限制采樣在若幹個單詞上進行，這些單詞滿足怎樣的條件呢？機率最大的這些單詞機率之和要大于一個門檻值

。

受控文本生成

首先通過prompt的形式來控制，比如上圖中在 A knife前面加上Horror來生成恐怖的描述；或者在前面加上Reviews來生成關于它的評價。

除了可以在文本前面加一個Prompt，還可以在模型前加一個Prefix。比如增加較小的參數矩陣(Prefix)拼在Transformer前面，隻對Prefix進行訓練。來指導模型完成不同的任務。

另一種是通過修改機率分布的方法，這裡會再多訓練兩個模型，一個生成非歧視語言的模型，另一個生成帶有嚴重歧視的語言模型。

在文本生成時希望生成的語言貼近非歧視語言模型，而原理歧視語言模型。

還有一種做法是直接修改模型結構，這裡給控制信号額外增加了一系列的transfomer結構，這類transformer隻負責編碼控制信号。

文本生成測評

本小節介紹文本生成的測評方法，主要分為兩類。

一類是通用的，另一類是專用的。

比如常用的BLEU。

此外還有ROUGE，主要解決模型生成低召回率問題。

除了通用的方法外，還有其他的測量矩陣。比如基于距離可以測量文本的餘弦相似度。

挑戰

首先是總是會生成重複的文本，然後還有seq2seq方法中的gap。

模型生成的文本往往缺乏邏輯的一緻性。

大模型系統和應用——基于大模型的文本了解與生成

引言

NLP的主要應用

資訊檢索

機器問答

文本生成

資訊檢索

背景

定義和評測

傳統方法

神經網絡方法

前沿熱點

QA介紹

機器閱讀了解

開放式QA

文本生成

文本生成任務

神經網絡文本生成

受控文本生成

文本生成測評

挑戰

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

詳解STM32單片機的堆棧