首先感謝(http://blog.csdn.net/magic_leg/article/details/73957331)這篇部落格首次将《A Survey on Transfer Learning》這篇文章翻譯成中文版,給予我們很大的參考。
但上述作者翻譯的内容有很多不準确的詞語、省略了很多内容、工作略顯粗糙,是以本文将給出一篇完整近乎準确的中文版《A Survey on Transfer Learning》的翻譯。
《A Survey on Transfer Learning》這篇綜述性文章是一篇遷移學習入門者的必讀文章,非常具有權威性和引用價值。下面是中文翻譯。
遷移學習研究綜述
Sinno Jialin Pan and Qiang Yang,Fellow, IEEE
Translator:Xu Yin
摘要:
在許多機器學習和資料挖掘算法中,一個重要的假設就是目前的訓練資料和将來的訓練資料,一定要在相同的特征空間并且具有相同的分布。然而,在許多現實的應用案例中,這個假設可能不會成立。比如,我們有時候在某個感興趣的領域有個分類任務,但是我們隻有另一個感興趣領域的足夠訓練資料,并且後者的資料可能處于與之前領域不同的特征空間或者遵循不同的資料分布。這類情況下,如果知識的遷移做的成功,我們将會通過避免花費大量昂貴的标記樣本資料的代價,使得學習性能取得顯著的提升。近年來,為了解決這類問題,遷移學習作為一個新的學習架構出現在人們面前。這篇綜述主要聚焦于目前遷移學習對于分類、回歸和聚類問題的梳理和回顧。在這篇綜述中,我們主要讨論了其他的機器學習算法,比如領域适應、多任務學習、樣本選擇偏差以及協方差轉變等和遷移學習之間的關系。我們也探索了一些遷移學習在未來的潛在方法的研究。
關鍵詞:
遷移學習;綜述;機器學習;資料挖掘
1 引言
資料挖掘和機器學習已經在許多知識工程領域實作了巨大成功,比如分類、回歸和聚類。然而,許多機器學習方法僅在一個共同的假設的前提下:訓練資料和測試資料必須從同一特種空間中獲得,并且需要具有相同的分布。當分布情況改變時,大多數的統計模型需要使用新收集的訓練樣本進行重建。在許多現實的應用中,重新收集所需要的訓練資料來對模型進行重建,是需要花費很大代價或者是不可能的。如果降低重新收集訓練資料的需求和代價,那将是非常不錯的。在這些情況下,在任務領域之間進行知識的遷移或者遷移學習,将會變得十分有必要。
許多知識工程領域的例子,都能夠從遷移學習中真正獲益。舉一個網頁檔案分類的例子。我們的目的是把給定的網頁檔案分類到幾個之前定義的目錄裡。作為一個例子,在網頁檔案分類中,可能是根據之前手工标注的樣本,與之關聯的分類資訊,而進行分類的大學網頁。對于一個建立網頁的分類任務,其中,資料特征或資料分布可能不同,是以就出現了已标注訓練樣本的缺失問題。是以,我們将不能直接把之前在大學網頁上的分類器用到新的網頁中進行分類。在這類情況下,如果我們能夠把分類知識遷移到新的領域中是非常有幫助的。
當資料很容易就過時的時候,對于遷移學習的需求将會大大提高。在這種情況下,一個時期所獲得的被标記的資料将不會服從另一個時期的分布。例如室内wifi定位問題,它旨在基于之前wifi使用者的資料來查明使用者目前的位置。在大規模的環境中,為了建立位置模型來校正wifi資料,代價是非常昂貴的。因為使用者需要在每一個位置收集和标記大量的wifi信号資料。然而,wifi的信号強度可能是一個時間、裝置或者其他類型的動态因素函數。在一個時間或一台裝置上訓練的模型可能導緻另一個時間或裝置上位置估計的性能降低。為了減少再校正的代價,我們可能會把在一個時間段(源域)内建立的位置模型适配到另一個時間段(目标域),或者把在一台裝置(源域)上訓練的位置模型适配到另一台裝置(目标域)上。
對于第三個例子,關于情感分類的問題。我們的任務是自動将産品(例如相機品牌)上的評論分類為正面和負面意見。對于這些分類任務,我們需要首先收集大量的關于本産品和相關産品的評論。然後我們需要在與它們相關标記的評論上,訓練分類器。是以,關于不同産品牌的評論分布将會變得十分不一樣。為了達到良好的分類效果,我們需要收集大量的帶标記的資料來對某一産品進行情感分類。然而,标記資料的過程可能會付出昂貴的代價。為了降低對不同的産品進行情感标記的注釋,我們将會訓練在某一個産品上的情感分類模型,并把它适配到其它産品上去。在這種情況下,遷移學習将會節省大量的标記成本。
在這篇文章中,我們給出了在機器學習和資料挖掘領域,遷移學習在分類、回歸和聚類方面的發展。同時,也有在機器學習方面的文獻中,大量的遷移學習對增強學習的工作。然而,在這篇文章中,我們更多的關注于在資料挖掘及其相近的領域,關于遷移學習對分類、回歸和聚類方面的問題。通過這篇綜述,我們希望對于資料挖掘和機器學習的團體能夠提供一些有用的幫助。
接下來本文的組織結構如下:在接下來的四個環節,我們先給出了一個總體的全覽,并且定義了一些接下來用到的标記。然後,我們簡短概括一下遷移學習的發展曆程,同時給出遷移學習的統一定義,并将遷移學習分為三種不同的設定(在圖2和表2中給出)。我們對于每一種設定回顧了不同的方法,在表3中給出。之後,在第6節,我們回顧了一些目前關于“負遷移”這一話題的研究,即那些發生在對知識遷移的過程中,産生負面影響的時候。在第7節,我們介紹了遷移學習的一些成功的應用,并且列舉了一些已經釋出的關于遷移學習資料集和工具包。最後在結論中,我們展望了遷移學習的發展前景。
2 概述
2.1 簡短的有關遷移學習的曆史
傳統的資料挖掘和機器學習算法通過使用之前收集到的帶标記的資料或者不帶标記的資料進行訓練,進而對将來的資料進行預測。在版監督分類中這樣标注這類問題,即帶标記的樣本太少,以至于隻使用大量未标記的樣本資料和少量已标記的樣本資料不能建立良好的分類器。監督學習和半監督學習分别對于缺失資料集的不同已經有人進行研究過。例如周和吳研究過如何處理噪音類标記的問題。楊認為當增加測試時,可以使得代價敏感的學習作為未來的樣本。盡管如此,他們中的大多數假定的前提是帶标記或者是未标記的樣本都是服從相同分布的。相反,遷移學習允許訓練和測試的域、任務以及分布是不同的。在現實中我們可以發現很多遷移學習的例子。例如我們可能發現,學習如何辨認蘋果将會有助于辨認梨子。類似的,學會彈電子琴将會有助于學習鋼琴。對于遷移學習研究的驅動,是基于事實上,人類可以智能地把先前學習到的知識應用到新的問題上進而快速或者更好的解決新問題。最初的關于遷移學習的研究是在NIPS-95研讨會上,機器學習領域的一個研讨話題“學會學習”,就是關注于保留和重用之前學到的知識這種永久的機器學習方法。
自從1995年開始,遷移學習就以不同的名字受到了越來越多人的關注:學會學習、終生學習、知識遷移、感應遷移、多任務學習、知識整合、前後敏感學習、基于感應門檻值的學習、元學習、增量或者累積學習。所有的這些,都十分接近讓遷移學習成為一個多任務學習的一個架構這樣的學習技術,即使他們是不同的,也要盡量學習多項任務。多任務學習的一個典型的方法是揭示是每個任務都受益的共同(潛在)特征。
在2005年,美國國防部進階研究計劃局的資訊處理技術辦公室發表的代理公告,給出了遷移學習的新任務:把之前任務中學習到的知識和技能應用到新的任務中的能力。在這個定義中,遷移學習旨在從一個或者多個源任務中提取資訊,進而應用到目标任務上。與多任務學習相反,遷移學習不是同時學習源目标和任務目标的内容,而是更多的關注與任務目标。在遷移學習中,源任務和目标任務不再是對稱的。
圖1展示了傳統的學習和遷移學習的學習過程之間的不同。我們可以看到,傳統的機器學習技術緻力于從每個任務中抓取資訊,而遷移學習緻力于當目标任務缺少高品質的訓練資料時,從之前任務向目标任務遷移知識。
如今,遷移學習出現在許多頂級期刊上,令人注意的資料挖掘(比如ACM KDD,IEEE ICDM和PKDD),機器學習(比如ICML,ICDM和PKDD)和應用在資料挖掘和機器學習(比如ACM SIGIR,WWW和ACL)上。在我們給出遷移學習不同的類别的時候,我們首先描述一下本文中用到的符号。
2.2 符号和定義
在本節中,我們介紹了本文中使用的一些符号和定義。首先,我們分别給出“域”和“任務的定義”。
在本綜述中,D域包含兩部分:一個特征空間X和一個邊緣機率分布。其中 X={x1,x2,...,xn}∈X。比如我們的學習任務是文本分類,每一個術語被用作一個二進制特征,然後X就是所有的術語向量的空間,xi是第i個與一些文本相關的術語向量。X是一個學習樣本。總的來說,如果兩個域不同,那麼它們會有不同的特征空間或者服從不同的邊緣機率分布。
給定一個具體的領域,,一任務個由兩部分組成:一個标簽空間和一個目标預測函數(由表示)。task不可被直覺觀測,但是可以通過訓練資料學習得來。task由pair組成,且。函數可用于預測對應标簽。從機率學角度看,也可被寫為。
簡化起見,本文中我們隻考慮一個源域一個目标域。更準确點,用 來表示源域。以文檔分類為例,是文檔對象向量及對應的true或false标簽的集合。相似地有目标域記法,一般有。
現在我們給出遷移學習的統一定義:
Definition 1 (Transfer learning): 給定源域和學習任務,一個目标域和學習任務,遷移學習緻力于用和中的知識,幫助提高中目标預測函數的學習。并且有或。
在上面定義中,,意味着源域和目标域執行個體不同()或者源域和目标域邊緣機率分布不同()。同理,意味着源域和目标域标簽不同()或者源域和目标域條件機率分布不同()。當源域和目标域相同且源任務和目标任務相同,則學習問題是一個傳統機器學習問題。
以文檔分類為例,域不同有以下兩種情況:
1. 特征空間不同,即。可能是文檔的語言不同。
2. 特征空間相同但邊緣分布不同,即。可能是文檔主題不同。
給定域和,學習任務不同可能有以下兩種情況:
1. 域間标簽空間不同,即。可能是源域中文檔需要分兩類,目标域需要分十類。
2. 域間條件機率分布不同,即。
除此之外,當兩個域或者特征空間之間無論顯式或隐式地存在某種關系時,我們說源域和目标域相關。
2.3 遷移學習分類
遷移學習主要有以下三個研究問題:1)遷移什麼,2)如何遷移,3)何時遷移。
“遷移什麼”提出了遷移哪部分知識的問題。
“何時遷移”提出了哪種情況下遷移手段應當被運用。當源域和目标域無關時,強行遷移可能并不會提高目标域上算法的性能,甚至會損害性能。這種情況稱為negative transfer。目前大部分關于遷移學習的工作關注于“遷移什麼”和“如何遷移”,隐含着一個假設:源域和目标域彼此相關。然而,如何避免negative transfer是一個很重要的問題。
基于遷移學習的定義,我們歸納了傳統機器學習方法和遷移學習的異同見Table 1。
這裡寫圖檔描述
1. inductive transfer learning
目标任務和源任務不同,無論目标域與源域是否相同。
這種情況下,要用目标域中的一些已标注資料生成一個客觀預測模型以應用到目标域中。除此之外,根據源域中已标注和未标注資料的不同情況,可以進一步将inductive transfer learning分為兩種情況:
- 源域中大量已标注資料可用。這種情況下inductive transfer learning和multitask learning類似。然而,inductive transfer learning隻關注于通過從源任務中遷移知識以便在目标任務中獲得更高性能,然而multitask learning嘗試同時學習源任務和目标任務。
- 源域中無已标注資料可用。這種情況下inductive transfer learning和self-taught learning相似。self-taught learning中,源域和目标域間的特征空間(原文為label spaces)可能不同,這意味着源域中的邊緣資訊不能直接使用。是以當源域中無已标注資料可用時這兩種學習方法相似。
2. transductive transfer learning
源任務和目标任務相同,源域和目标域不同。這種情況下,目标域中無已标注資料可用,源域中有大量已标注資料可用。除此之外,根據源域和目标域中的不同狀況,可以進一步将transductive transfer learning分為兩類:
- 源域和目标域中的特征空間不同,即;
- 源域和目标域間的特征空間相同,,但輸入資料的邊緣機率分布不同,即.
transductive transfer learning中的後一種情況與domain adaptation相關,因為文本分類、sample selection bias, covaritate shift的知識遷移都有相似的假設。
3. unsupervised transfer learning
與inductive transfer learning相似,目标任務與源任務不同但相關。然而,unsupervised transfer learning專注于解決目标域中的無監督學習問題,如聚類、降維、密度估計。這種情況下,訓練中源域和目标域都無已标注資料可用。
遷移學習中不同分類的聯系及相關領域被終結在T able2和Fig2中。
這裡寫圖檔描述
這裡寫圖檔描述
上述三種遷移學習可以基于“遷移什麼”被分為四種情況,如Table3所示。Table3中已經描述的比較詳細,在此不對這部分作翻譯。
這裡寫圖檔描述
Table 4展示了不同遷移學習分類應用到的不同方法。
這裡寫圖檔描述
3 Inductive Transfer Learning
Definition 2 (Inductive Transfer learning): 給定源域、源任務、目标域、目标任務:,Inductive Transfer Learning目标是在的情況下利用的知識提升中的目标預測函數。
基于上述對Inductive Transfer Learning的定義,用目标域中的一小部分已标注資料作為訓練資料以誘導(induce)目标預測函數是必要的。
3.1 Transferring Knowledeg of Instances
Inductive Transfer Learning的instance-transfer approach直覺上很吸引眼球:盡管源域資料不能直接重用,但還是有一部分特定資料可以和目标域中的一些已标注資料實作重用。
Dai et al. [6]提出了一個boosting algorithm, TrAdaBoost, 它是AdaBoost algorithm的一個擴充,以處理inductive transfer learning問題。TrAdaBoost假設源域和目标域資料使用相同的特征集和标簽集,但兩個域中的資料分布不同。除此之外,因為源域和目标域的分布不同,是以TrAdaBoost進一步假設源域中的部分資料對目标域的學習有用,另一部分資料沒用甚至有害。它嘗試對源域資料疊代式地重權重以減輕壞的源域資料對目标域的影響,增強好資料的增益。疊代的每一輪,TrAdaBoost在權重過的源資料和目标資料上訓練基本分類器。隻在目标資料上計算錯誤。TrAdaBoost在更新目标域上的錯誤分類樣例上和AdaBoost使用相同政策,在更新源域上的錯誤分類源樣例上和AdaBoost使用不同政策。TrAdaBoost的具體理論分析見[6]。
[30]提出了一種基于不同條件機率的從源域中移除誤導性訓練樣例的啟發式方法。
3.2 Transferring Knowledge of Feature Representations
Inductive Transfer Learning的feature-representation-transfer approach緻力于找到好的特征表示去最小化域差異以及分類和回歸模型誤差。不同類型的源資料有找好特征表示的不同政策。如果源域中大量已标注資料可用,有監督方式可以被用于建構特征表示。這有點像multitask learning中的common feature learning。如果源域中沒有已标注資料可用,無監督方式就要被使用。
3.2.1 有監督特征建構
Inductive Transfer Learning中的有監督特征建構與multitask learning中使用的方法類似。基本想法是去建構一個可以跨相關任務的低維表示,而且學習到的新表示也可以用于減小每個任務的分類或回歸誤差。Argyriou et al. [40]提出了一種針對multitask learning的稀疏特征學習方法。在Inductive Transfer Learning中,可以通過一個優化問題來學習公共特征,見下式:
這裡寫圖檔描述
和表示源域和目标域中的任務,是參數矩陣。是一個的正交矩陣(mapping function)用于将高維資料映射成為低維表示。。上式表達的優化問題同時估計了低維表示和模型的參數,上式也可被等效轉化為凸優化函數并被高效地解決。
3.2.2 無監督特征建構
[22]提出以應用稀疏編碼,他是一種無監督特征建構方法,以在遷移學習中學習高維特征。這種想法基本由兩部構成:第一步,通過在源域資料上求解(2)式得到更高層的偏置向量:
這裡寫圖檔描述
具體參數見原文
得到偏置向量之後,第二步在目标域資料上應用(3)式以學習基于偏置向量的更高維特征
這裡寫圖檔描述
最後,目标域上,判别算法被應用到和對應的标簽以訓練分類和回歸模型。這種方法的一個缺點是(2)式中在源域上學到的所謂更高維偏置向量可能在目标域上并不适用。
最近,manifold learning methods被應用于遷移學習,可見[44]。
3.3 Transferring Knowledge of Parameters
大多數inductive transfer learning的parameter-transfer approaches都假設相關任務的不同模型之間共享一些參數或更高層的超參數分布。這部分描述的大多數方法包括一個規則化架構一個多層Bayes架構都被設計在multitask learning下工作。然而,它們可以很容易地為遷移學習修改。就像之前提到的,multitask learning試圖同時完美地學習源任務和目标任務,而遷移學習隻想利用源域資料提升目标域資料下的性能。是以,multitask learning中對源域和目标域資料的損失函數的權重都一樣,而對遷移學習這兩者的權重則不同。直覺地,我們可以對目标域山上的損失函數賦予更高的權重以確定目标域上的效果更好。
[45]提出了一個高效的算法叫MT-IVM,基于 Gaussian Processes,以處理multitask learning任務。MT-IVM試圖通過共享相同 GP prior 以在多任務情況下學習Gaussian Processes的參數。[46]也在GP情況下調研了multitask learning.
7 Applications of Transfer Learning
目前,至少有兩個基于遷移學習的國際比賽。ECML/PKDD-2006競賽内容是設計一個個性化垃圾郵件過濾系統。首先根據已标注(“垃圾”、“非垃圾”)的郵件訓練一個分類器。對每個新郵件使用者,适配這個模型給他。但靠模型的資料分布可能和新使用者不同,是以這是一個生成式遷移學習問題,目标是将老的郵件過濾模型在更少訓練資料和更短訓練時間的情況下适配給新情境。
第二個資料集是ICDM-2007中釋出的,任務是估計不同時間段内獲得的WiFi信号估計使用者室内位置。在不同時段,WiFi信号的強度分布可能是時間、位置、裝置的不同函數。這個任務中遷移學習被用于減小資料重标注開銷。
轉載:https://blog.csdn.net/XYlittlework/article/details/79095394