發表時間:2018(2nd reproducibility in machine learning workshop at icml 2018)
文章要點:文章想說,現在這些rl算法不好複現,就是因為大家各搞各的,評估标準不一樣,計算方式不一樣等等。然後作者就提出了一個evaluation pipeline,大概意思就是說大家寫算法的時候,train可以各搞各的,test的時候要用相同的标準接口實作,然後用一個單獨設計的統一的或者說第三方的evaluation來比較,就沒了。
總結:看了這篇文章的第一反應是,這也能發?
疑問:無