天天看點

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

作者:順發AI

保留網絡:大型語言模型轉換器的繼承者

他們引入了一種非常有前途的注意力變體。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

基本上,他們:

  1. 抛棄軟最大值
  2. 讓每個令牌隻關注一個狀态向量,而不是所有以前的令牌
  3. 在每個頭上分别做層規範
  4. 相對于序列次元呈指數衰減注意力,每個頭部具有不同的衰減系數

這使他們能夠有效地線上、并行或分塊計算注意力。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這類似于隻擁有一個RNN,使用狀态空間模型,線性注意力等,但與它們中的任何一個都不完全相同。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

至關重要的是,由于每個标記的輸出僅取決于總結過去的向量,而不是過去鍵和值的完整曆史記錄,是以您沒有 KV 緩存并獲得相對于序列長度的 O(1) 代。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

是以,它們的注意力變體可以讓您使用更少的記憶體,并為大序列長度更快地生成令牌。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

現在,設計一個比正常關注運作得更快的代币混合方案并不難。困難的是做到不損失準确性。

是以,這裡令人驚訝的部分是,該方案顯然提高了困惑度和下遊任務性能。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

它也可以更好地擴充模型大小,至少在檢視某些 {1.3B, 2.7B, 6.7B} 模型時是這樣。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這些都是非常好的結果。如果其他人可以複制它們,這種方法完全可以成為一種新的标準做法。

ChatGPT 的行為如何随時間變化?

OpenAI的API在過去幾個月的品質上發生了重大變化。在許多情況下,GPT-4 變得更糟,而 GPT-3.5 變得更好。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

GPT-4 似乎也變得更加猶豫回答問題,而 GPT-3 則變得不那麼猶豫。這意味着以前有效的某些提示後來停止工作。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

GPT-4 通常也變得更加簡潔。從資源使用的角度來看,這是有意義的,但從收入的角度來看(按令牌計費)并不是真的有意義。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

出于某種原因,這兩種模型在生成可執行代碼方面都變得更糟。盡管代碼通常隻是被注釋掉,而不是完全不正确。更新:推特圈發現,後處理來解釋這一點可能足以逆轉 GPT-4 退化。同樣,GPT-4 素數部分是以不同的方式權衡真陽性與真陰性的結果。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

由于我們不知道哪些模型更改導緻了這些輸出更改,是以從業務角度來看,這比從技術角度來看更有趣。

大多數情況下,這一發現強化了我的觀點,即第三方AI API群組織特定的模型幾乎是不相交的市場。就像,将資料傳送到昂貴的第三方 API,該 API 可能會在次要版本更新後開始拒絕回答您的查詢是......對于許多公司來說,這不是一個理想的産品。

但是這些 API 非常友善,非常适合對 AI 功能進行原型設計,并且如果您隻有足夠的資料用于一些上下文示例,則與您獲得的精度一樣高。如果您是想要回答各種不同查詢的消費者,它們也很棒;實際上,我隻是将所有内容輸入 ChatGPT,而不是去尋找用于不同目的的專用應用程式。

基本上,這與具有重大商業價值的任務将由内部模型處理,而低價值查詢的長尾将提供給第三方API或開源模型的世界觀是一緻的。

(編輯)另外,為了明确一點:我不是在這裡試圖給OpenAI投擲陰影。我認為這在很大程度上是通用 API 的内在限制——平均而言,你可以讓它變得更好,但你不能同時避免所有可能的用例的回歸。

模型會解釋自己嗎?自然語言解釋的反事實可模拟性

當您要求文本模型為其答案生成解釋時,您希望它未來的響應與該解釋一緻。例如,假設它說培根三明治在某個區域很難買到,因為培根很難到達那裡;如果你問培根是否很難到達那裡并說“不”,那就不一緻了。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

他們建構了一個評估管道來衡量模型解釋以這種方式不一緻的頻率。此管道:

  1. 生成其他語句,其真值應遵循解釋,
  2. 向模型詢問這些陳述,然後
  3. 檢查模型所說的内容與人為配置設定的真值相對應的頻率。
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

事實證明,GPT-3 和 GPT-4 經常産生不一緻的解釋。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

此外,模型生成看似令人滿意的解釋的頻率與其解釋的一緻性頻率無關。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

隻要這顯示了對人類看起來好的和實際上的好之間的差距,這對欺騙性的對齊來說是個不好的預兆。這也表明,要建立一個準确的心理模型來描述LLM正在做什麼仍然很困難。

變分預測

通常,為了獲得我們的後驗預測分布,我們将其分解為潛在變量的後驗分布和給定特定潛在變量值的測試輸入的條件分布。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

他們建議直接學習後驗預測分布。他們通過假設世界如何運作的圖形模型(Q)與貝葉斯圖形模型(P)不同來做到這一點。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

為了獲得一個有用的目标,他們定義了一個變分上限,當我們對齊這兩個圖形模型所隐含的分布時,該上限被最小化。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

它們還展示了如何對某些變量進行條件化以預測其他變量(例如,根據觀察到的特征預測類标簽)。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

它們隻顯示玩具問題的結果,顯然在擴充方法時遇到了困難,但這是我長期以來在貝葉斯統計資料中看到的最簡單、最有趣的想法之一。

1

這篇論文的主體隻有六頁,而且相當平易近人,是以如果你喜歡機率推理,我肯定會推薦它。

FlashAttention-2:通過更好的并行性和工作分區加快注意力

新的FlashAttention,可獲得50-73%的峰值FLOPS,而不是A25上的40-100%。由于它不會改變注意力的數學,這隻是一個免費的勝利。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

NetHack中模仿學習的縮放定律

他們在NetHack上發現了行為克隆的明确幂律縮放關系。更有趣的是,他們使用的是LSTM而不是變壓器。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

我們仍然不知道為什麼幂律縮放不斷出現,但這證明它不是特定于變壓器的,更多的證據表明它不是特定于NLP的。

同樣令人驚訝的是,他們得到了如此簡單的幂定律,因為至少有一篇RL論文沒有,除非他們使用特定的評估名額。

大型語言模型的高效引導式生成

為了確定您的LLM的輸出與正規表達式或上下文無關的文法比對,您可以在每個生成步驟之前屏蔽不可接受的标記的logits。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

But doing this naively can be slow; you’d have to iterate through 10k+ tokens and check if each one matches your rule. To make this faster, they build an index and finite state machine to quickly identify candidate subsets of tokens offline.

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

從速度的角度來看,目前還不清楚這有多大幫助,但他們确實有一個很好的Python API:

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

除了為限制解碼提供解決方案外,這也讓我更深入地思考這實際上是一個相當困難的問題。

ZeroQuant-FP:使用浮點格式的LLM訓練後W4A8量化的飛躍

在對LLM進行訓練後量化時,您應該使用fp8和fp4格式進行激活和(可能)權重。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這與給定權重和激活分布的預期一緻。例如,參見訓練(行)中不同點的不同層(列)的激活的直方圖。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

TinyTrain:極端邊緣的深度神經網絡訓練

它們通過以幾種方式偏離典型的預訓練-微調範式,使裝置上的訓練适用于資源受限的裝置。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

首先,他們在預訓練後添加一個額外的元訓練步驟,以嘗試增加他們随後在裝置上的少數鏡頭學習的回報。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

其次,他們使用基于費舍爾資訊、記憶體限制、每個參數的精度增益和每個MAC的精度增益來選擇要微調的通道和層的子集。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

使用他們的方法選擇特定于任務的通道比在元訓練後進行通用通道修剪效果更好。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

與完全微調相比,這種通道稀疏訓練使他們獲得了很大的訓練速度。

我很驚訝他們設法超過了 1.5 倍的加速比與完全微調相比,因為您希望仍然必須進行完整的向前傳遞和向後傳遞(是以,充其量會将 wgrad 時間減少到零)。但看起來也許(?)他們隻是在徹底修剪未選擇的頻道,至少在訓練期間是這樣?

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

它們的整體管道比各種基線(包括更明顯的方法)産生更好的準确性。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

元訓練和特定于任務的通道選擇都對準确性有很大幫助。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

除了實用的裝置級訓練是一個巨大的隐私勝利之外,這也讓我想知道我們是否應該在一般的預訓練之後添加一個元訓練步驟......

神經網絡在圖像分類中學到什麼?頻率快捷方式透視

圖像分類器通常通過頻率内容模式學習識别類。例如,這可能會導緻看起來不像貓的東西被歸類為貓。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

使用圖像字幕改進多模态資料集

清理(圖像、标題)資料集時的常見做法是,根據 CLIP 模型,當标題與圖像對齊不符時,丢棄成對。但事實證明,這通常會丢棄标題不好的好圖像。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

本文建議改為使用 BLIP2 為圖像标題對齊較低的對生成替換字幕。如果根據 CLIP 相似性過濾原始字幕和生成的字幕,則可以獲得更好的訓練集。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這些改進不僅适用于圖像分類,也适用于檢索。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這種提升的部分原因可能是 BLIP2 字幕和過濾字幕平均更長。這意味着我們希望它們提供更多的監督和/或不像“PRODUCT#0000007”這樣的垃圾字元串。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

也可能是BLIP2生成的字幕平均比人工生成的字幕好,至少在CLIP評估“更好”時是這樣。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

BLIP2 +過濾提供字幕品質和多樣性組合的能力似乎也是一個促成因素。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

對于任何建構(圖像、标題)資料管道的人來說,這看起來都是一個輕松+大的勝利。

AlpaGasus:用更少的資料訓練更好的羊駝

他們發現,通過将 Alpaca 資料集從 52k 個樣本過濾到 9k,可以獲得更好的指令調整。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

他們的過濾管道是自動化的,基本上隻是要求 ChatGPT 對每個樣本的好壞進行評分。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

這顯然有效,擊敗了未過濾的資料集和相同大小的随機子集。

2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注
2023年7月23日機器學習發生了什麼OpenAI 的突破性變化更好的關注

一方面,Alpaca 資料集是由 OpenAI 的 text-davinci-003 生成的,這裡的樣本評級模型是 ChatGPT,評估模型是 GPT-4——是以可能涉及一些過度拟合。特别是,我希望 ChatGPT 和 GPT-4 在重疊的資料集上進行訓練,是以這兩個模型喜歡的響應可能是相關的。

但另一方面,使用較小的資料集比使用較大的資料集(對于某些名額)效果更好的基本結果仍然很有趣,并支援表面對齊假設。

繼續閱讀