天天看点

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

5.迁移学习的基本方法

基于样本迁移: 根据一定的权重生成规则,增加源域中跟目标域样本相似度高的样本的权重。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
增加狗类别样本的权重

基于特征迁移: 通常假设源域和目标域间有一些交叉的特征,通过特征变换的方式互相迁移。又分为同构迁移,异构迁移。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
狗为同构迁移,花为异构迁移

基于模型迁移: 假设条件为源域和目标域中的数据可以共享一些模型的参数,从源域和目标域中找到他们之间共享的参数信息,以实现迁移。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

基于关系迁移: 比较关注源域和目标域样本之间的关系。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

6.第一类方法:数据分布自适应

基本思想: 由于源域和目标域的数据概率分布不同,那么最直接的方式就是通过一些变换,将不同的数据分布的距离拉近。

边缘分布自适应:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

迁移成分分析(Transfer Component Analysis): TCA 假设存在一个特征映射 ϕ,使得映射后数据的分布P(ϕ(xs)) ≈ P(ϕ(xt))。TCA 假设如果边缘分布接近,那么两个领域的条件分布也会接近,即条件分布 P(ys|ϕ(xs))) ≈ P(yt|ϕ(xt)))。这就是 TCA 的全部思想。因此,我们现在的目标是,找到这个合适的 ϕ。

迁移学习的本质:最小化源域和目标域的距离。好了,我们能不能先假设这个ϕ是已知的,然后去求距离,看看能推出什么呢?

最大均值差异(MMD,maximummeandiscrepancy):

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
MMD是做了一件什么事呢?简单,就是求映射后源域和目标域的均值之差。

联系在SVM中学过的核函数,把一个难求的映射以核函数的形式来求

TCA引入核矩阵K:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

MMD矩阵L(根据二次项乘积得出的L矩阵):

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

更简单的求法:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

TCA最后的优化目标:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

总结:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

条件分布自适应:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

中科院计算所的Wang等人提出了STL方法(分层迁移学习,Stratifed Transfer Learning)。作者提出了 类内迁移(Intra-class Transfer) 的思想。指出现有的绝大多数方法都只是学习一个全局的特征变换(Global Domain Shift),而忽略了类内的相似性。类内迁移可以利用类内特征,实现更好的迁移效果。

STL方法基本思路:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

为了实现类内迁移,我们需要计算每一类别的MMD距离:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

联合分布自适应:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

核心方法: 联合分布适配的JDA方法首次发表于2013年的ICCV(计算机视觉领域顶会,与CVPR类似),它的作者是当时清华大学的博士生(现为清华大学助理教授)龙明盛。 假设是最基本的出发点。那么JDA这个方法的假设是什么呢?就是假设两点:1)源域和目标域边缘分布不同,2)源域和目标域条件分布不同。 既然有了目标,同时适配两个分布不就可以了吗?于是作者很自然地提出了联合分布适配方法:适配联合概率。

JDA方法基本思路:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

边缘分布适配:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

条件分布适配:

这是我们要做的第二个目标,适配源域和目标域的条件概率分布。也就是说,还是要找一个变换A,使得P(ys|A⊤xs)和P(yt|A⊤xt)的距离也要小。那么简单了,我们再用一遍MMD啊。可是问题来了:我们的目标域里,没有yt,没法求目标域的条件分布!

实际怎么做呢?我们依然没有yt。采用的方法是,用(xs,ys)来训练一个简单的分类器(比如knn、逻辑斯特回归),到xt上直接进行预测。总能够得到一些伪标签yˆt。 我们根据伪标签来计算,这个问题就可解了。

步骤:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

限制条件: 限制条件是什么呢?和TCA一样,变换前后数据的方差要维持不变。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

解决伪标签精度不高的问题:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

动态分布自适应:

JDA 的不足:边缘分布自适应和条件分布自适应并不是同等重要,JDA以及后来的扩展工作均忽视了这一问题。

**平衡分布自适应BDA:**该方法能够根据特定的数据领域,自适应地调整分布适配过程中边缘分布和条件分布的重要性。准确而言,BDA通过采用一种平衡因子µ来动态调整两个分布之间的距离。

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
我们采用BDA文章中的图来具体地展示出µ的作用。图22的结果清晰地显示出,平衡因子可以取得比JDA、TCA更小的MMD距离、更高的精度。
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

BDA方法是首次给出边缘分布和条件分布的定量估计。然而,其并未解决平衡因子µ的精确计算问题。

动态迁移框架DDA(Dynamic Distribution Adaptation):

作者提出的动态迁移方法是首次对µ值进行精确的定量估计方法。该方法利用领域的整体和局部性质来定量计算µ(计算出的值用µ来表示)。采用A−distance作为基本的度量方式。 A−distance被定义为建立一个二分类器进行两个不同领域的分类得出的误差。

A-distance介绍:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

µ的计算公式:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

由于特征的动态和渐近变化性,此估计需要在每一轮迭代中给出。 值得注意的是,这是首次给出边缘分布和条件分布的定量估计,对于迁移学习研究具有很大的意义。具体而言,作者将机器学习问题规约成一个统计机器学习问题,可以用统计机器学习中的结构风险最小化的原则(Structural Risk Minimization , SRM) 进行表示学习。

SRM中的分类器计算公式:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
其中第一项表示f在有标记数据上的损失,第二项为正则项,HK表示核函数K(·,·)构造的希尔伯特空间(Hilbertspace)。符号Ωl表示有标记的数据领域。在本章的问题中,Ωl=Ωs,即只有源域数据有标记。 特别地,由于在迁移学习问题中,源域和目标域数据有着不同的数据分布,为了表示此分布距离,可以进一步将正则项表示成如下的形式:
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

上式则为通用的一个迁移学习框架,可以适用于任何问题。为了对此框架进行学习,作者分别提出了基于流形学习的动态迁移方法MEDA(Manifold Embedded Distribution Alignment)[和基于深度学习的动态迁移方法DDAN(Deep Dynamic Adaptation Network)来进行学习:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

小结:

迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6
迁移学习_迁移学习简明手册(王晋东)_阅读笔记5-6

附:

作者个人网站

手册给出的github资源链接

继续阅读