資料處理不等式：Data Processing Inequality

2021-11-14 05:09:56

我是在差分隐私下看到的，新解決方案的可用性肯定小于原有解決方案的可用性，也就是說資訊的後續處理隻會降低所擁有的資訊量。

那麼如果這麼說的話為什麼還要做特征工程呢，這是因為該不等式有一個巨大的前提就是資料處理方法無比的強大，比如很多的樣本要分類，我們做特征提取後，SVM效果很好，但是如果用DNN之類的CNN、AuToEncoder，那麼效果反而不如原來特征。這樣就能了解了，DNN提取能力更強，那麼原始就要有更多的資訊，在新特征下無論怎麼提取，資訊就那麼多。

資訊量越多越好麼？肯定不是，否則為什麼PCA要做降噪和去備援呢？我們的目的是有效的資訊最大化。

另外一種了解就是從互資訊不為0（資訊損失）來解釋。

進而

那麼如何在處理過程中不丢失有效資訊呢？這時候就需要數學上的充分統計量，也就是g是y的充分統計量。

資料處理不等式：Data Processing Inequality

繼續閱讀

TDMS資料讀取/轉換/儲存為MATLAB/Python 可讀取的通用資料格式的的方法

python 矢量轉栅格

Subaru/HiCIAO觀測RYTau近紅外散射光：蝴蝶狀分布展現引言再RYTau（一顆原恒星）上進行了近紅外冕狀成像

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

C語言實作的滑動平均濾波算法

算法和算法分析

快速排序算法的優勢

從算法入手講解如何在資料庫中實作最優最簡

pytorch nn.Linear(x)中x的資料次元

Java工具類之Apache的Commons-lang

Pandas将inf， nan轉化成特定的值

企業架構13——資料處理

IBM Power程式設計馬拉松——以“碼”會友，把手言歡！

【資料處理】 python 基于Basemap地理資訊可視化資料可視化方法——Basemap效果

K-近鄰算法以及圖像分類應用

【python】【資料處理】畫多元資料分布圖