发表时间:2018(2nd reproducibility in machine learning workshop at icml 2018)
文章要点:文章想说,现在这些rl算法不好复现,就是因为大家各搞各的,评估标准不一样,计算方式不一样等等。然后作者就提出了一个evaluation pipeline,大概意思就是说大家写算法的时候,train可以各搞各的,test的时候要用相同的标准接口实现,然后用一个单独设计的统一的或者说第三方的evaluation来比较,就没了。
总结:看了这篇文章的第一反应是,这也能发?
疑问:无