天天看點

資料處理不等式:Data Processing Inequality

  我是在差分隐私下看到的,新解決方案的可用性肯定小于原有解決方案的可用性,也就是說資訊的後續處理隻會降低所擁有的資訊量。

  那麼如果這麼說的話為什麼還要做特征工程呢,這是因為該不等式有一個巨大的前提就是資料處理方法無比的強大,比如很多的樣本要分類,我們做特征提取後,SVM效果很好 ,但是如果用DNN之類的CNN、AuToEncoder,那麼效果反而不如原來特征。這樣就能了解了,DNN提取能力更強,那麼原始就要有更多的資訊,在新特征下無論怎麼提取,資訊就那麼多。

  資訊量越多越好麼?肯定不是,否則為什麼PCA要做降噪和去備援呢?我們的目的是有效的資訊最大化。

  另外一種了解就是從互資訊不為0(資訊損失)來解釋。

資料處理不等式:Data Processing Inequality

  進而

資料處理不等式:Data Processing Inequality

  那麼如何在處理過程中不丢失有效資訊呢?這時候就需要數學上的充分統計量,也就是g是y的充分統計量。

繼續閱讀