天天看點

問題:為什麼深度學習的結構特點不利于稀疏特征向量的處理呢?

問題:為什麼深度學習的結構特點不利于稀疏特征向量的處理呢?

一方面,如果我們深入到神經網絡的梯度下降學習過程就會發現,特征過于稀疏會導緻整個網絡的收斂非常慢,因為每一個樣本的學習隻有極少數的權重會得到更新,這在樣本數量有限的情況下會導緻模型不收斂。

另一個方面,One-hot 類稀疏特征的次元往往非常地大,可能會達到千萬甚至億的級别,如果直接連接配接進入深度學習網絡,那整個模型的參數數量會非常龐大,這對于一般公司的算力開銷都是吃不消的。

是以基于上面兩個原因,我們往往先通過 Embedding 把原始稀疏特征稠密化,然後再輸入複雜的深度學習網絡進行訓練,這相當于把原始特征向量跟上層複雜深度學習網絡做一個隔離。

————————————————

原文連結:https://blog.csdn.net/l491899327/article/details/110143463

繼續閱讀