天天看点

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

目录

  • 1. 思想
  • 2. 过程
  • 3. 实验
小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

《Optimization as A Model for Few-shot Learning》

网络名称:Meta-Learner LSTM

文章来源:ICLR2017

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

1. 思想

  问题:小样本数量少,梯度下降算法是针对大量样本迭代才能收敛到较好的结果。

  目标: 针对最终的训练集X和测试集Y

  1.给出一个好的神经网络的参数初始化。

  2.利用LSTM对神经网络的参数进行更新。

  注意有2个网络:神经网络(Learner),用来逼近输入样本X输出Y的函数;神经元网络LSTM(Meta-learner),用来替换梯度下降算法更新神经网络的参数。

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

LSTM长短期记忆网络:

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

  用上一步 ct-1 和这一步的 ct(加~ ) 来更新 ct 。其中 ft 为忘记门, it 为输入门,是两个权重参数。

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

利用LSTM作神经网络参数的更新:

  想利用LSTM进行神经网络参数更新,来近似梯度下降的更新:

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

则须令:

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验
小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

  然后LSTM中就剩两个权重参数了。it 就是学习率参数,而 ft 在梯度下降中本身应该等于1的,这里我们设置它是变动的权重参数,可以让网络跳出局部最优解。这两个变动的参数的表示:

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验
小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

  这样我们将LSTM做成了一个神经元网络学习器,参数 Wf、bf、WI、bI是需要训练的神经元网络参数,记为 Θ 。

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

小总结:

   LSTM的过程就是输入神经网络的参数(θ),输出更新的神经网络参数,过程相当于参数 θ 的梯度下降。(实际的输入还包括损失函数及其梯度等。)

  注意区分神经网络参数(Learner,θ)和神经元网络参数(Meta-learner, Θ),神经网络是用来逼近输入样本X输出Y的函数,神经元网络LSTM是用来更新梯度的。

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

2. 过程

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

  针对目标任务(X , Y)训练神经网络。

  1. 利用多个任务序列(Xi , Yi)更新神经网络参数(θi),但是这里不更新神经元网络参数(Θ,即 Wf、bf、WI、bI)。过程如上图。对应伪代码中7-12。

  2. 利用(X , Y)的损失函数用梯度下降法更新神经元网络参数。对应伪代码14-16。

  3. 重复1,2过程n次。

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验
小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

3. 实验

小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验
小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 过程3. 实验

1.原文下载

2.源码地址

3.经典论文汇总: 小样本学习论文汇总链接

继续阅读