萬文長字總結「類别增量學習」的前世今生、開源工具包

機器之心轉載

作者：思悥

随着統計機器學習的逐漸成熟，現在已經是時候打破孤立學習地傳統模式，轉而研究終身學習，将機器學習推向嶄新的高度。

一、什麼是終身學習(Life-Long Machine Learning)？

終身機器學習(或稱終身學習)是一種進階的機器學習範式，它通過不斷學習，從過去的任務當中積累知識，并用這些知識幫助未來的學習。在這樣的過程中，學習者的知識越來越豐富，學習效率也越來越高。這種學習能力的特質是人類智力的重要标志。

然而，目前主流的機器學習範式是孤立學習的：給定訓練資料集，算法直接通過該訓練集來生成模型(從假設空間中搜尋最優或近似最優的假設)。它不會試圖保留所學的知識，來提高未來的學習效率。雖然這種孤立學習範式已經取得了很大的成功，但它需要大量的訓練執行個體，并且隻适用于定義明确而且範圍狹窄的極其有限任務。相比之下，我們人類則可以通過幾個例子有效地學習，這是因為我們在過去積累了如此多的知識。這種積累的先驗知識使我們能夠通過很少的資料或者付出較小的努力來高效地學習新的事物。終身學習旨在使機器學習模型具備這種能力。

随着統計機器學習的逐漸成熟，現在已經是時候打破孤立學習地傳統模式，轉而研究終身學習，将機器學習推向嶄新的高度。智能助手、聊天機器人和實體機器人等應用也都在迫切地需要這種終身學習能力。果沒有積累所學知識并使用它來逐漸學習更多知識的能力，一個系統可能永遠不會是真正的智能系統。[1]

Life Long Learning

近年來，終身學習(LLL)在深度學習界引起了極大的關注，它通常被稱為持續學習(Continual Learning)。雖然度神經網絡(DNNs)在許多機器學習任務中取得了最好的性能，但基于聯結主義的深度學習算法存在着災難性的遺忘的問題，這使得實作持續學習的目标變得非常困難。當使用神經網絡學習序列任務時，模型在學習新的任務後可能因為災難性遺忘的問題而導緻模型在舊任務的表現變得很差。然而，我們的人腦卻有這種非凡的能力，能夠學習大量不同的任務，而不會出現任何負面的互相幹擾。持續學習(Continual Learning)算法試圖為神經網絡實作同樣的能力，并解決災難性的遺忘問題。是以，從本質上講，持續學習執行的是對新任務的增量學習(Incremental Learning)。

然而與許多其他Life Long Learning技術不同，目前持續學習算法的重點并不是如何利用在以前任務中學到的知識來幫助更好地學習新任務。而是重點在于解決災難性遺忘的問題。

二、什麼是災難性的遺忘[2]？

災難性的遺忘指的是，模型學習了新的知識之後，幾乎徹底遺忘掉之前訓練的内容。

這樣一個問題簡言之，關注的是在Sequential Learning過程中，模型在每個學習階段，都會接觸到新的不同的資料或任務，而對于舊類資料失去或者僅有有限的通路權限。在這樣的一個場景下，以神經網絡為代表的聯結主義模型在舊的任務上的性能會大大降低。

例如在傳統的圖像分類模型的訓練過程中，我們同時在所有資料上進行訓練 (盡管目前流行的優化方法都是以Batch的形式分批優化，但是每個epoch我們仍然會在所有資料上進行訓練，相當于每個epoch都會對所有的資料進行溫習)。但是在continual learning的情況下，學習的任務是分task依次訓練的，當我們在新的task上進行訓練時，舊的task中的訓練資料是不可獲得(或者獲得受限的)。

舉個簡單的例子：小明是一名大學生，現在需要參加期末考試，考試科目有數字信号處理、機器學習、近代史。

衆所周知，因為小明是一個大學生的原因，他的記憶能力非常古怪。他可以兩個小時速成一門學科，但是如果他複習了新的學科，他就會忘記舊的學科。

第一天，小明複習了數字信号處理，他高興地走出考場。

第二天，小明複習了機器學習，他高興地走出考成。

第三天，小明複習了近代史，但是學校發現有人洩露了題目，于是決定三門考試同時重考。于是，小明高興地把近代史的内容“精準地”寫在了數字信号處理與機器學習的卷子上面，留下閱卷老師一臉疑惑。

盡管上面的故事非常荒唐，但是在目前研究的場景中經常會出現類似的問題，比如在分類任務中，我們首先使用一些預定類别的樣本訓練一個模型，之後再使用一些新類别的樣本來finetune這樣一個網絡，這會使網絡識别初始類别的性能大幅度下降；再比如，在增強學習任務中，單獨訓練後續的任務，會使agent在前序任務的性能下降嚴重。

如下圖所示，當我們使用神經網絡模型訓練新的任務魚和老虎時，模型卻錯誤的将舊任務當中的狗分類成了魚。

Catastrophic Forgetting

三、Continual Learning 有哪些場景？

場景一：Task-IL

任務增量學習，是最簡單的Continual Learning的場景。在這種場景下，無論是訓練階段還是測試階段，模型都被告知了目前的任務ID。

這種特性導緻了一些task specific component的方法出現，如packNet[3]提前為每個任務确定卷積的filter的掩碼圖。再如HAT會動态的根據任務為卷積訓練掩碼圖。當給定任務ID後，則選擇相應的掩碼進行預測。

PackNet

場景二：Domain-IL

Domain-IL相較于Task-IL在測試階段增加了新的限制，即在預測階段并不會告知任務的ID。模型需要在不知道任務ID的情況下，将資料正确的分類。

Domain-IL的場景，常常用來處理标簽空間相同，但輸入分布不同的問題。例如動漫中的老虎和現實中的老虎(虎年彩蛋)。

domain(一)：真實世界中的老虎

domain(二)：動畫老虎

場景三：Class-IL

在Class-IL中新的類别不斷地到來，模型需要正确地将輸入分類到其對應地類别當中去。這是更為嚴格的場景，模型在接受輸入後，需要正确的識别輸入對應的task-ID，然後将資料粉到正确的類别當中去。

舉例[4]

下圖展示了一個形象的例子，模型依次在task1、2、3、4、5上進行訓練。

在預測階段

Task-IL會告知task-ID，模型根據task-ID将資料分為第一類或者第二類。例如當告知task-ID為1時，模型隻需要在0和1之間進行辨識。

Domain-IL無法獲得task-ID, 但是它需要判斷輸入的标簽是屬于集合(0,2,4,6,8)還是(1,3,5,7,9).

而Class-IL需要給出具體的數字标簽，即從0-9之間選擇一個進行輸出。

MNIST上的Incremental Learning的三種不同setting

此外，目前還有更為嚴格地data-IL, 我們在訓練時就并不顯示的告知task的階段，希望模型能夠适應這種類别不穩定不均衡的資料流。此處我們不展開讨論。

四、什麼是類增量學習？

一個簡單的例子

Class-Incremental Learning 舉例

模型首先在任務 1 上進行訓練, 學習分類鳥類和水母。之後，需要基于目前模型分别在任務 2 中學習鵝類和北極狐，在任務 3 中學習狗類和螃蟹。在順序化地完成訓練後，模型需要在所有已經見過的類别上進行評估，一個好的類别增量模型應該能既學得新類知識，又不遺忘舊類知識。

形式化定義

類别增量學習旨在從一個資料流中不斷學習新類。假設存在B個不存在類别重合的訓練集，其中表示第 b 個增量學習訓練數據集, 又稱作訓練任務 (task)。是來自于類别的一個訓練樣本, 其中是第b 個任務的标記空間。不同任務間不存在類别重合, 即對于有: 。在學習第 b 個任務的過程中，隻能使用目前階段的訓練資料集更新模型. 在每個訓練階段, 模型的目标不僅是學得目前資料集中新類的知識，同時也要保持不遺忘之前所有學過類别的知識. 是以, 我們基于模型在所有已知類集合上的判别能力評估其增量學習能力. 将增量學習模型對樣本的輸出記作 , 則模型要優化的期望風險描述為：

其中表示第 b 個任務的樣本分布。評估輸入之間的差異, 在分類任務中一般使用交叉熵損失函數。由于模型需要同時在見過的所有分布上最小化期望風險，能夠滿足公式 1 的模型能夠在學習新類的同時不遺忘舊類的知識。進一步地, 可以将深度神經網絡按照特征提取和線性分類器層進行解耦, 則模型由特征提取子產品和線性分類器組成，即。為了表述友善, 我們将線性分類器進一步表示成對于每個類分類器的組合：。

五、論文方法解讀

模型解耦

為了友善之後的說明，我們首先對神經網絡模型進行解耦。

模型由特征提取子產品和線性分類器組成, 即。為了表述友善, 我們将線性分類器進一步表示成對于每個類分類器的組合: 。

5.1 LwF: Learning without Forgetting[5]

核心摘要

LwF(Learning without Forgetting) 是Incremental Learning領域早期發表的一篇文章，論文的核心要點包括：

除了LwF本身外，還提出了Fine-tunine, Feature Extraction, Joint Training三種基本的對比方法，并對不同方法進行了分析與實驗對比。

提出了使用知識蒸餾(Knowledge Distillation)的方法提供舊類的“軟監督”資訊來緩解災難性遺忘的問題。并且發現，這種監督資訊即使沒有舊類的資料仍然能夠很大程度上提高舊類的準确率。

對參數偏移的正則懲罰系數、正則形式、模型拓展方式等等因素進行了基本的實驗對比。（不過具論文中結果這些因素的影響并不明顯）。

方法比較

Learning Without Forgetting

如圖中所示：

(a) 中為傳統的多分類模型，它接受一張圖檔，然後通過線性變換、非線性激活函數、卷積、池化等運算操作符輸出該圖檔在各個類别上的機率。

(b) 中為Fine-tuning方法，即訓練新類時，我們保持舊的分類器不變，直接訓練前面的特征提取器和新的分類器權重。

(d) 中為Joint Training的方法，它在每個訓練任務時刻都同時接受所有的訓練資料進行訓練。

(e) 中為LwF方法，他在Fine-tuning的基礎上，為舊類通過知識蒸餾提供了一種“軟”監督資訊。

知識蒸餾（Knowledge Distillation）[6]

知識蒸餾（Knowledge Distilling）最初是模型壓縮的一種方法，是指利用已經訓練的一個較複雜的Teacher模型，指導一個較輕量的Student模型訓練，進而在減小模型大小和計算資源的同時，盡量保持原Teacher模型的準确率的方法。

其基本的形式為：

其中為第i類的logits輸出, 為溫度系數。知識蒸餾的損失函數可以看作是最小化Teacher模型和Student模型在已有資料集上資料似然的KL散度。這種監督資訊相較于一般的标簽分布一方面更加的平滑，另外一方面能夠一定程度上反應不同類别之間的相似關系。

在LwF的模型中，我們使用額外的記憶體開銷儲存舊的模型，當訓練新的模型時，使用舊的模型作為舊類的Teacher模型。

訓練流程

對于新的任務的訓練集，LwF的損失函數包括：

新類的标簽監督資訊：即新類對應的logits與标簽的交叉熵損失(KL散度)

舊類的知識蒸餾：新舊模型在舊類上的的logits的交叉熵損失(包含溫度系數：設定溫度系數大于一，來增強模型對于類别相似性的編碼能力)

參數偏移正則項，對于新模型參數關于舊模型參數偏移的正則項。

具體的僞代碼如下：

5.2 iCaRL: Incremental Classifier and Representation Learning[7]

iCaRL可以視為Class-Incremental Learning方向許多工作的基石。文章的主要貢獻包括：

給Class-Incremental Learning的設定一個規範的定義：

模型需要在一個新的類别不斷出現的流式資料中進行訓練。

模型在任意階段，都應該能夠對目前見到的所有類别進行準确的分類。

模型的計算消耗和存儲消耗必須設定一個上界或者隻會随着任務數量緩慢增長。

第一次闡明了我們可以在将來的訓練階段保留一部分典型的舊類資料，這極大地提高了模型能夠實作的準确率上限，并提出了一種有效的典型樣本挑選政策herding：貪心的選擇能夠使得exemplar set 的特征均值距離總的均值最近的樣本。

Herding

提出了使用保留的舊類資料來進行nearest-mean-of-exemplars的分類方式，而非直接使用訓練階段的到的線性分類器。這是因為使用交叉熵損失函數在不平衡的資料集上直接進行訓練，很容易出現較大的分類器的偏執。而模型提取的特征則能夠很大程度上緩解這個問題。

當新的任務到來時：

将新來的類别資料集與保留的舊類資料的exemplar set合并得到目前輪的資料集。

使用sigmoid将模型輸出的logits轉化為0-1之間。将目标标簽轉化為one-hot向量表示。

對于新類的分類，我們使用binary cross entropy來計算損失。這裡的binary cross entropy的計算僅僅考慮了所有的新的類别的計算，這種方式能夠使得我們在學習新的樣本的時候，不會更新舊的線性分類器中的權重向量，進而減少不均衡的資料流對樣本分類的影響。

對于舊類的分類，則仿照LwF的模式，計算新舊模型在舊類上的機率輸出的binary cross entropy的損失來訓練模型。

iCaRL

iCaRL對後來的方法的影響頗深。在此之後，相當數量的類别增量學習方法都仿照這一範式。建立一個exemplar set來存儲典型的舊類樣本。使用知識蒸餾來提供舊類的監督資訊。

5.3 BiC[8]

BiC基本遵循了iCaRL的訓練範式，但仍然使用線性分類器作為預測階段的分類器。BiC指出，類别增量學習中出現的災難性的遺忘，很重要的一個因素是由于訓練集樣本不均衡導緻的分類器偏執。文中抽象地解釋了這種訓練樣本不均衡導緻的分類器的偏執的原因。如下圖所示，圖中的藍色虛線是所有的舊類特征無偏的分布(Unbiased Distribution)，綠色實線為新類樣本的無偏分布，圖中的藍色實作則對應了無偏的分類器。而由于在學習新的類别的時候，我們僅僅保有一部分的舊類樣本。這就導緻實際訓練過程中我們遇到的特征分布，可能是如藍色實線一樣的狹窄尖銳的分布，這就導緻我們學習得到的分類器也會相對無偏的分類器向右偏移，導緻有很大一部分舊類樣本被分為新類了。

BiC

依照這種思路，BiC設定了一種Bias Correction的階段，我們使用線性偏移來将新類的分布進行拉平與平移，進而使得實作與虛線重疊，得到無偏的分類器，具體的：

在使用類似于iCaRL的訓練模式訓練完成後，我們使用預先保留的新舊類平衡的訓練集來訓練兩個參數，分别控制分類器的平移于縮放，即：

将舊類的輸出乘上并加上, 其中由Bias Correction的訓練階段得到。

5.4 WA[9]

WA 中指出，直接在新的資料上對模型進行finetune導緻模型性能下降的原因主要有兩個：

沒有足夠的舊類樣本來進行訓練，導緻模型不能夠保持舊類内部之間的分辨能力。

舊類樣本顯著少于新類樣本，導緻模型出現了極大的分類偏執，這種bias導緻模型無論遇到舊類樣本還是新類樣本，都會在新類的機率輸出上給出一個較大的值。

問題剖析

是以，WA将該過程分為兩個目标：

保持舊類之間的相對大小：即Maintaining Discrimination

處理新舊類的公平問題，即實作新舊類分類偏好的對齊：Maintaining Fairness

目标

對于第一個目标，基于iCaRL模式的知識蒸餾能夠很好的實作舊類的之間的Discrimination的問題。對于第二個目标，WA中發現，在不平衡的訓練集上訓練之後，新類所對應的的線性分類器往往具有相較于舊類線性分類器更大的權值。比較新舊類分類器權值的L2範數可以發現，新類的L2範數顯著大于舊類。

分類器權重比較

而WA所做的則是将該L2範數拉平。

其中：

最終的實驗結果證明這種簡單的政策性能提升非常顯著。

實驗結果

我們在這裡需要指明的一點是，這種解決思路其實并沒有那麼完備。因為分類器權值的大小，并不總與最終輸出的logits的大小正相關。這是因為如果一個分類器對應的權值很大，那麼如果一個特征與其是同向的，那麼logits的大小顯然與該分類器權值為正相關，但是如果一個樣本的特征是與該分類器的方向是反向的，則特征與分類器的内積将會是一個很小的負值，此是則權值為負相關。是以，分類器權值很大，并不總意味着模型輸出的logits很大。那麼為什麼這種解決方案能夠很好的解決新舊類的calibration的問題呢？作者在文中給了intuitive的解釋：由于現在模型結構中往往使用了非負的激活函數，典型的如relu，導緻模型的特征輸出，分類器的權值往往都是正值，這意味着分類器權值向量與特征向量在大多數情況下的夾角都是銳角，其内積為正數，是以是正相關的。

5.5 DER[10]

基于動态特征結構的方法已經被廣泛應用于解決在Task-IL中，DER是首個将動态特征結構方法應用于Class-IL的場景下，并取得優異性能的嘗試。

DER中說明，傳統的方法會陷入穩定性-可塑性困境 (stability-plasticity dilemma): 對于一個單骨架的模型，如果不施加任何限制，給它足夠的可塑性，那麼它在舊類樣本上的表現就會産生大幅度降低；但是如果施加過多的限制則又會導緻模型沒有足夠的可塑性來學習新的任務。而DER則實作了相較于傳統方法更好的穩定性可塑性的trade-off。DER保留并當機舊的特征提取器來保留舊的知識，同時建立一個新的可訓練的特征提取使模形具有足夠的可塑性來學習新的任務。

DER

具體的，當新的任務到來時：

DER固定住原有的特征提取器，并建立新的特征提取器，将兩特征拼接得到總的特征提取器。

将提取得到的特征送入新建立的分類器，并計算與目标的交叉熵損失。

為了更好地提取特征，DER另外使用了一個輔助分類器，僅僅使用新的特征，并要求新的特征空間能夠良好的實作新類之間的辨識。而對于所有的舊類樣本，輔助分類器會将他們分類到同一個标簽上面。

DER還設計了一種剪枝的方式，能夠在盡可能保持模型性能的基礎上實作大幅度的參數削減。這種剪枝政策從Task-IL的經典方法HAT[11]中借鑒而來，将HAT的以filter的權值的掩碼，轉變成整個channel的掩碼。

最終模型訓練的損失函數為：

每個損失分别為：總的交叉熵損失、輔助分類器交叉熵損失、剪枝政策對應的稀疏解損失。

5.6 COIL[12]

經典的學習系統往往被部署在封閉環境中，學習模型可以利用預收集的資料集對固定類别的資料進行模組化。然而，在開放動态環境中這種假設難以滿足——新的類别會随時間不斷增長，模型需要在資料流中持續地學習新類。例如，在電商平台中，每天都會新增多種産品；在社交媒體上，新的熱點話題層出不窮。是以，類别增量學習模型需要在學習新類的同時不遺忘舊類别的特征。COIL觀察到在增量學習的過程中，新類和舊類間存在相關性，是以可以利用它來進一步地輔助模型在不同階段的學習。是以，COIL提出利用協同運輸輔助類别增量學習過程，并基于類别間的語義相關性将不同的增量學習階段聯系起來。協同運輸分為兩方面：向前運輸（prospective transport）旨在利用最優運輸獲得的知識增廣分類器，作為新類分類器的初始化；向後運輸（retrospective transport）旨在将新類分類器轉化為舊類分類器，并防止災難性遺忘。是以模型的知識可以在增量學習過程中雙向流動，進而在學習新類的同時保持對舊類的判别能力。

COIL的特征層面說明

如上圖所示，COIL嘗試基于類别間的語義關系進行分類器遷移。例如，老虎和貓很相似，是以用于判别二者的特征也高度重合，甚至可以重用大量老虎的分類器權重作為類别貓的分類器初始化；老虎和斑馬不相似，是以用于判别二者的特征也無法重用。COIL考慮在統一的嵌入空間下度量類别中心的相似關系，并以此構造類别間的距離矩陣。之後，借助最優運輸算法，将類别之間的距離作為運輸代價，最小化所有新類和舊類集合之間的分類器重用代價，進而基于類别之間的語義關系指導分類器重用。最後，如下圖所示，分别将舊類分類器複用為新類分類器，和将新類分類器複用為舊類分類器，構造兩個不同方向的知識遷移，并以此設計了損失函數用于限制模型，防止災難性遺忘。

COIL方法實作

分類邊界可視化：

COIL分類邊界

六、PyCIL: A Python Toolbox for Class-Incremental Learning

我們開源了一個基于pytorch的Class-IL架構：PyCIL。

其中不僅包含了如EWC、iCaRL等一批早期的fundamental的方法，還包含了一些現在state-of-the-art的Class-IL算法，希望能夠幫助一些希望了解和研究相關領域的學者。

項目位址：PyCIL[13]

Methods Reproduced

FineTune: Baseline method which simply updates parameters on new task, suffering from Catastrophic Forgetting. By default, weights corresponding to the outputs of previous classes are not updated.

EWC: Overcoming catastrophic forgetting in neural networks. PNAS2017 [paper]

LwF: Learning without Forgetting. ECCV2016 [paper]

Replay: Baseline method with exemplars.

GEM: Gradient Episodic Memory for Continual Learning. NIPS2017 [paper]

iCaRL: Incremental Classifier and Representation Learning. CVPR2017 [paper]

BiC: Large Scale Incremental Learning. CVPR2019 [paper]

WA: Maintaining Discrimination and Fairness in Class Incremental Learning. CVPR2020 [paper]

PODNet: PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning. ECCV2020 [paper]

DER: DER: Dynamically Expandable Representation for Class Incremental Learning. CVPR2021 [paper]

Coil: Co-Transport for Class-Incremental Learning. ACM MM2021 [paper]

部分實驗結果

實驗結果（一）

實驗結果（二）

參考

Zhiyuan Chen; Bing Liu; Ronald Brachman; Peter Stone; Francesca Rossi, Lifelong Machine Learning: Second Edition , Morgan & Claypool, 2018. https://ieeexplore.ieee.org/document/8438617

Catastrophic forgetting in connectionist networks https://www.sciencedirect.com/science/article/pii/S1364661399012942

PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning https://arxiv.org/abs/1711.05769

Three scenarios for continual learning https://arxiv.org/abs/1904.07734

Learning without Forgetting https://arxiv.org/abs/1606.09282

Distilling the Knowledge in a Neural Network https://arxiv.org/abs/1503.02531

iCaRL: Incremental Classifier and Representation Learning https://arxiv.org/abs/1611.07725

Large Scale Incremental Learning https://arxiv.org/abs/1905.13260

Maintaining Discrimination and Fairness in Class Incremental Learning https://arxiv.org/abs/1911.07053

DER: Dynamically Expandable Representation for Class Incremental Learning https://arxiv.org/abs/2103.16788

https://arxiv.org/abs/1801.01423 https://arxiv.org/abs/1801.01423

Co-Transport for Class-Incremental Learning https://arxiv.org/abs/2107.12654

PyCIL: A Python Toolbox for Class-Incremental Learning https://arxiv.org/abs/2112.12533

萬文長字總結「類别增量學習」的前世今生、開源工具包

繼續閱讀

幹貨分享｜CPU、GPU、TPU、NPU大揭秘‼️CPU、GPU、TPU和NPU是幾種不同類型的處理器，它們各有優劣，适

MotorNerve：一種使用機器學習的角色動畫系統【GDC 2024】

用Python預測黃金期貨價格走勢,原來機器學習這麼簡單!(内含代碼)

利用機器學習模型，建構量化擇時政策（附全流程代碼）

盤點量化交易領域10大常用高效機器學習算法（附執行個體源碼）

重整化群遇見機器學習：多尺度視角探索複雜系統内在的統一性

中金 | 機器學習系列（1）：使用深度強化學習模型探索因子建構範式

AI幻覺：機器學習中的視覺錯覺與認知挑戰，對創新的協同中作用

大資料、人工智能和機器學習：競選活動的範式轉變

瑞士生物科技公司Bionomous創新結合微工程設計與機器學習，開發全自動微型生物實體篩選分類和配置設定裝置 | 瑞士創新署中國營

2024中國網際網路發展創新與投資大賽（開源）登陸2024全球機器學習技術大會

機器學習與人力資源管理碰撞

機器學習之K近鄰算法基本原理

機器學習之支援向量機算法

機器學習算法在移動遊戲充值監控的應用

技術應用 | 機器學習模型可解釋性在銀行智能營銷場景的應用實踐