PareCO
2020-ICMLw-PareCO: Pareto-aware Channel Optimization for Slimmable Neural Networks
This paper has been accepted at various non-archival workshops including
- RealML @ ICML'20 [Workshop paper]
- DMMLSys @ ICML'20 [Talk]
- AdvML @ KDD'20
- DLP @ KDD'20
來源: Chenbong 部落格園
- Institute:CMU, FAIR, UT Austin
- Author:Ting-Wu Chin, Ari S. Morcos, Diana Marculescu (H49)
- GitHub:https://github.com/cmu-enyac/PareCO
- Citation: 3
Introduction

Motivation
Contribution
Method
隻訓練Pareto前沿的子網, 如何采樣 pareto前沿的子網?
AttentiveNAS 和 GreedyNAS 都是對每個目标flops随機采樣k個, 然後将這個k個中性能最好的子網認為屬于Pareto前沿集合
這裡評估性能可以用子網在驗證集(的子集, greedynas)上的acc或直接用 batch loss (attentiveNAS) 代替, 或者使用acc predictor
這篇PareCO用的是數學的方式, 根據曆史資料(預測)采樣Pareto上的子網: Alg 1. 第8行
- 高斯過程GP
- 貝葉斯優化 Bayesian Optimization(BO)
- acquisition function (Paria et al., 2019)
- Upper Confidence Bound (UCB) (Srinivas et al., 2009)
- Lemma 3.1 多目标優化 (Nakayama et al., 2009)
- |H| = 1000 (pareto前沿的模型池)
- M=2
第8行替換為随機采樣一個uniform寬度的子網, 将n=1(第13行), 則算法1退化為US Net的方法
基于曆史的pareto采樣資料, 使用BO+二分查找, 随機均勻分布的目标 flops:
該算法的作用其實就是給定一個目标flops, 找到一個該flops下的pareto前沿的子網
(其他的文章實作的方式還有: 随機采樣 + with reject, 根據先驗分布采樣+with reject(提高效率)
most 10 binary searches with \(\epsilon\) set to 0.02, average 3.4 binary searches
2個目标, 如果不是均勻采樣的話, 很容易選中要麼flops很小, 要麼loss很低(flops很大)的子網
Experiments
C10 / C100 / ImageNet
與USNet對比
OFARP:
隻對搜尋寬度的提升有限(比不過剪枝), 加上分辨率可以在特定flops下有更大的提升(可以超越剪枝方法)
Conclusion
Summary
- slimmable network 如果隻對寬度搜尋, 無法超過剪枝, 要超越剪枝隻能增加次元(如分辨率)
To Read
Reference
多目标優化之帕累托最優 - 知乎 (zhihu.com)
非支配排序遺傳算法2(NSGA-II) - 知乎 (zhihu.com)
Ting-wu Chin, Ari S. Morcos, Diana Marculescu · PareCO: Pareto-aware Channel Optimization for Slimmable Neural Networks · SlidesLive