天天看點

深入研究 GPT 模型:演化與性能比較

作者:MoPaaS魔泊雲

【編者按:GPT模型以其卓越的生成能力和性能在語言模型中獨樹一幟。OpenAI作為GPT的背後開發機構,在不斷擴大模型規模、改進資料品質和訓練技術、增加參數數量等方面取得了顯著進展。這些改進推動了模型在各種任務上的卓越表現。Sigmoid 進階資料科學家Ankit Mehra等人深入探讨了GPT(Generative Pre-trained Transformers)模型系列的不斷演進及其在自然語言處理領域的重要性。從GPT-1到GPT-4,這些模型經曆了多次改進和增強,以提供更出色的輸出和性能。特别值得一提的是,GPT-3.5模型通過強化學習和人類回報等技術,注重倫理和可靠性,更好地滿足使用者需求。而GPT-4模型則引入了多模态處理的能力,進一步拓展了其應用領域。本文為讀者提供了全面而詳細的GPT模型系列發展曆程和改進的介紹。我們特将該内容編譯出來和各位客戶、合作夥伴朋友分享。如需轉載,請聯系我們(ID:15937102830)】

深入研究 GPT 模型:演化與性能比較

在過去的幾年中,由于大型語言模型的出現,自然語言處理領域取得了顯著的進展。語言模型在機器翻譯系統中被用來學習如何将一種語言的字元串映射到另一種語言。在語言模型家族中,基于生成式預訓練變換器(GPT)的模型最近引起了最多的關注。最初,語言模型是基于規則的系統,嚴重依賴于人類的輸入才能發揮作用。然而,深度學習技術的演進對這些模型處理的任務的複雜性、規模和準确性産生了積極的影響。

在我們之前的部落格中,我們全面解釋了GPT-3模型的各個方面,評估了Open AI的GPT-3 API提供的功能,并探讨了該模型的用途和局限性。在本部落格中,我們将把重點轉向GPT模型及其基本組成部分。我們還将從GPT-1開始,一直到最近推出的GPT-4,并深入探讨每一代中的關鍵改進,以此逐漸使模型變得更加強大。

01

了解GPT模型

GPT(Generative Pre-trained Transformers)是一種基于深度學習的大型語言模型(LLM),采用了基于變換器的僅解碼器架構。其目的是處理文本資料并生成類似人類語言的文本輸出。

正如名稱所示,該模型有三個關鍵組成部分:

1. 生成式

2. 預訓練

3. Transformers

讓我們通過這些元件來探索模型:

生成式(Generative):這個特性強調了模型通過了解和回應給定的文本樣本來生成文本的能力。在GPT模型之前,文本輸出是通過重新排列或從輸入中提取單詞來生成的。GPT模型的生成能力使其相比現有模型具有優勢,能夠生成更連貫和類似人類的文本。

該生成能力是在訓練過程中使用的模組化目标的結果。

GPT模型通過這些組成部分來實作其功能,并在訓練過程中使用自回歸語言模組化來提高生成文本的準确性。模型會根據機率分布預測最可能的下一個單詞或短語,以實作生成文本的能力。

預訓練(Pre-trained):預訓練是指在将機器學習模型用于特定任務之前,模型已經在大規模樣本資料集上進行了訓練。對于GPT來說,該模型使用無監督學習方法在大量的文本資料語料庫上進行訓練。這使得模型能夠在沒有明确指導的情況下學習資料中的模式和關系。

簡單來說,通過以無監督方式使用大量資料對模型進行訓練,可以幫助模型了解語言的一般特征和結構。一旦學習到了這些特征,模型就可以将這種了解應用于特定的任務,例如問答和摘要生成。

Transformers:這是一種專門設計用于處理長度可變的文本序列的神經網絡架構。Transformers 的概念在2017年發表的開創性論文《Attention Is All You Need》後變得引人注目。

GPT使用的是僅解碼器架構。Transformers 的主要組成部分是“自注意力機制”,它使模型能夠捕捉每個單詞與同一句子中其他單詞之間的關系。

例如:

1. A dog is sitting on the bank of the River Ganga.

2. I’ll withdraw some money from the bank.

自注意力機制會評估句子中的每個單詞與其他單詞的關系。在第一個例子中,當“bank”與“River”的上下文一起評估時,模型學習到它指的是河岸。同樣,在第二個例子中,将“bank”與“money”進行關聯,就可以推斷出它指的是金融銀行。

02

GPT模型的演變

現在,讓我們仔細研究GPT模型的各個版本,重點關注每個後續模型引入的改進和增強。

深入研究 GPT 模型:演化與性能比較

* GPT 模型中的幻燈片 3

GPT-1

它是GPT系列的第一個模型,它在約40GB的文本資料上進行了訓練。該模型在LAMBADA等模組化任務上取得了最先進的結果,并在GLUE和SQuAD等任務上表現出競争力。該模型的最大上下文長度為512個标記(約380個單詞),可以針對每個請求保留相對較短的句子或文檔的資訊。模型令人印象深刻的文本生成能力和在标準任務上的出色表現為該系列的後續模型的開發提供了動力。

GPT-2

GPT-2是基于GPT-1模型發展而來的,保留了相同的架構特征。然而,與GPT-1相比,GPT-2在更大規模的文本資料語料庫上進行了訓練。值得注意的是,GPT-2可以容納雙倍的輸入大小,使其能夠處理更廣泛的文本樣本。擁有近15億個參數的GPT-2在語言模組化方面展示出了顯著的能力和潛力。

以下是GPT-2相對于GPT-1的一些主要改進:

1. 修改目标訓練(Modified Objective Training):在預訓練階段使用的一種技術,用于增強語言模型。傳統上,模型僅基于前面的單詞來預測序列中的下一個單詞,可能導緻不連貫或不相關的預測。修改目标訓練通過加入額外的上下文資訊,如詞性(名詞、動詞等)和主謂識别等,解決了這個限制。通過利用這些補充資訊,模型生成更連貫和資訊豐富的輸出。

2. 層歸一化(Layer Normalization):這是一種用于改進訓練和性能的技術。它将神經網絡中每個層的激活進行歸一化,而不是整體歸一化網絡的輸入或輸出。這種歸一化緩解了内部協變量偏移(Internal Covariate Shift)的問題,該問題指的是由于網絡參數的改變而導緻網絡激活分布的變化。

3. GPT-2還采用了比GPT-1更強大的采樣算法。關鍵改進包括:

a. Top-p采樣(Top-p sampling):僅考慮累積機率品質超過一定門檻值的标記。這避免了從低機率标記中進行采樣,進而生成更多樣化和連貫的文本。

b. Logits(神經網絡在Softmax之前的原始輸出)的溫度縮放(Temperature scaling):控制生成文本中的随機性水準。較低的溫度會産生更保守和可預測的文本,而較高的溫度會産生更有創造性和意外性的文本。

c. 無條件采樣(随機采樣)選項:允許使用者探索模型的生成能力,并産生别出心裁的結果。

這些改進使得GPT-2相對于GPT-1在文本生成方面表現更出色。

GPT-3

深入研究 GPT 模型:演化與性能比較

GPT-3模型是GPT-2模型的進化版本,在多個方面超越了GPT-2。它在更大規模的文本資料語料庫上進行了訓練,并具有高達1750億個參數。

除了增加的規模,GPT-3引入了一些顯著的改進:

GShard(巨型分片模型并行):允許将模型分割到多個加速器上。這有助于并行訓練和推斷,尤其适用于具有數百億個參數的大型語言模型。

零樣本學習能力:GPT-3展示了執行其未經明确訓練的任務的能力。這意味着它可以通過利用其對語言的一般了解和給定任務來生成對新穎提示的文本響應。

少樣本學習能力:GPT-3可以在很少的訓練樣本下迅速适應新任務和領域。它展示了從少量示例中學習的出色能力。

多語言支援:GPT-3能夠熟練生成大約30種語言的文本,包括英語、中文、法語、德語和阿拉伯語。這種廣泛的多語言支援使其成為适用于各種應用的高度靈活的語言模型。

改進的采樣:GPT-3使用了改進的采樣算法,類似于GPT-2,可以調整生成文本的随機性。此外,它引入了“提示”采樣的選項,使得可以基于使用者指定的提示或上下文進行文本生成。

這些改進使得GPT-3成為一個更加強大和全面的語言模型。

GPT-3.5

深入研究 GPT 模型:演化與性能比較

與前身相似,GPT-3.5系列模型也是從GPT-3模型發展而來。然而,GPT-3.5模型的顯著特點在于其遵循基于人類價值觀的特定政策,這是通過一種稱為“強化學習與人類回報(RLHF)”的技術實作的。主要目标是使模型與使用者的意圖更加接近,減少有害性,并在生成的輸出中優先考慮真實性。這種演進意味着有意識地努力增強語言模型的道德和負責任的使用,以提供更安全可靠的使用者體驗。

相對于GPT-3的改進:

OpenAI利用人類回報的強化學習對GPT-3進行了微調,使其能夠遵循廣泛的指令集。RLHF技術涉及使用強化學習原理對模型進行訓練,模型根據其生成的輸出與人類評估者的品質和一緻性而獲得獎勵或懲罰。通過将這些回報資訊整合到訓練過程中,模型能夠從錯誤中學習并提高性能,最終産生更自然、吸引人的文本輸出。

GPT-4

GPT-4代表了GPT系列中最新的模型,引入了多模态能力,使其能夠處理文本和圖像輸入,并生成文本輸出。它可以處理各種圖像格式,包括帶有文本的文檔、照片、圖表、示意圖和螢幕截圖等。

盡管OpenAI尚未公開披露GPT-4的技術細節,如模型大小、架構、訓練方法或模型權重,但一些估計表明它包含近1萬億個參數。GPT-4的基礎模型遵循了與之前的GPT模型類似的訓練目标,即給定一系列單詞,預測下一個單詞。訓練過程涉及使用大量公開可用的網際網路資料和授權資料的語料庫。

在OpenAI的内部對抗性真實性評估和TruthfulQA等公共基準測試中,GPT-4展示了比GPT-3.5更優秀的性能。GPT-3.5中使用的RLHF技術也被應用到了GPT-4中。OpenAI積極根據來自ChatGPT和其他來源的回報來改進GPT-4模型。

03

标準模組化任務的GPT模型性能比較

GPT-1、GPT-2 和 GPT-3 在标準 NLP 模組化任務 LAMBDA、GLUE和 SQuAD 中的得分。

深入研究 GPT 模型:演化與性能比較

所有數字以百分比表示。 || 資料來源 - BARD

這張表格展示了結果的持續改善,這可以歸功于前面提到的增強措施。

GPT-3.5和GPT-4在較新的基準測試和标準考試中進行了測試。

新的GPT模型(3.5和4)在需要推理和領域知識的任務上進行了測試。這些模型已經在許多被認為具有挑戰性的考試中進行了測試。其中一項對比GPT-3(ada、babbage、curie、davinci)、GPT-3.5、ChatGPT和GPT-4的考試是MBE考試。從圖表中可以看出,得分持續改善,GPT-4甚至超過了平均學生得分。

圖1顯示了不同GPT模型在MBE考試中獲得的百分比分數的比較:

深入研究 GPT 模型:演化與性能比較

*多州律師考試(MBE)是一套旨在評估申請人的法律知識和技能的挑戰性考試,是在美國執業的先決條件。

下面的圖表還突出顯示了這些模型的進步,并再次超過了不同法律學科領域的平均學生分數。

深入研究 GPT 模型:演化與性能比較

資料來源:資料科學協會

結論

以上的結果驗證了這些新模型的強大能力,将模型性能與人類得分進行比較是一個重要的名額。自GPT-1問世以來的短短5年時間裡,模型的大小增長了大約8500倍。

在下一篇部落格中,我們将更詳細地探讨GPT模型的專業版本,包括它們的建立過程、能力和潛在應用。我們将對這些模型進行比較分析,以獲得有價值的見解,了解它們的優勢和局限性。

指數

深入研究 GPT 模型:演化與性能比較

注:ZS:Zero Shot,來源:ChatGPT,BARD

04

結論

随着基于Transformer的大型語言模型(LLM)的興起,自然語言處理領域正在快速發展。在基于這一架構建構的各種語言模型中,GPT模型在輸出和性能方面表現出色。自第一個模型釋出以來,OpenAI一直在多個方面不斷改進這個模型。

在五年的時間裡,模型的大小經曆了顯著的擴充,從GPT-1到GPT-4大約擴大了8500倍。這一顯著進展可以歸功于在訓練資料規模、資料品質、資料來源、訓練技術和參數數量等方面的持續改進。這些因素在使模型在各種任務上表現出色方面起到了關鍵作用。

繼續閱讀