天天看點

《中國人工智能學會通訊》——7.13 深度學習與分布式表示學習概覽

深度學習的概念源于人工神經網絡的研究。深度學習通過組合低層特征形成更加抽象的高層表示屬性類别或特征,以發現資料的有效表示,而這種使用相對較短、稠密的向量表示叫做分布式特征表示(也可以稱為嵌入式表示)。本部分主要對于目前使用較廣的一些學習算法進行一個簡單的回顧。

首先介紹一些淺層的分布式表示模型。目前在文本領域,淺層分布式表示模型得到了廣泛的使用,例如 word2vec、GloVec 等[6] 。與傳統詞袋模型對比,詞嵌入模型可以将詞或者其他資訊單元(例如短語、句子和文檔等)映射到一個低維的隐含空間。在這個隐含空間中,每個資訊單元的表示都是稠密的特征向量。詞嵌入表示模型的基本思想實際還是來自于傳統的“Distributional semantics” [7] ,概括起來講就是目前詞的語義與其相鄰的背景詞緊密相關。是以,詞嵌入的模組化方法就是利用嵌入式表示來建構目前詞和背景詞之間的語義關聯。相比多層神經網絡,詞嵌入模型的訓練過程非常高效,而且實踐效果很好,可解釋性也不錯,是以得到了廣泛的應用。

對應于神經網絡模型,最為常見的模型包括多層感覺器、卷積神經網絡、循環神經網絡、遞歸神經網絡等[8] 。多層感覺器主要利用多層神經元結構來建構複雜的非線性特征變換,輸入可以為提取得到的多種特征,輸出可以為目标任務的标簽或者數值,本質上可以建構一種複雜的非線性變換;卷積神經網絡可以直接部署在多層感覺器上,感覺器的輸入特征很有可能是不定長或者有序的,通過多個卷積層和子采樣層,最終得到一個固定長度的向量。循環神經網絡是用來對于時序序列模組化的常用模型,刻畫隐含狀态的關聯性,可以捕捉到整個序列的資料特征。針對簡單的循環神經網絡存在長期依賴問題(“消失的導數”),不能有效利用長間隔的曆史資訊,兩個改進的模型是長短時記憶神經網絡(LSTM)和基于門機制的循環單元(GRU)。遞歸神經網絡根據一個外部給定的拓撲結構,不斷遞歸得到一個序列的表示,循環神經網絡可以被認為是一種簡化的遞歸神經網絡。

繼續閱讀