深度學習之word embedding學習筆記（4）

2023-06-19 12:38:31

b、Skip-Gram Model

y 是 x 的上下文，是以 y 隻取上下文裡一個詞語的時候，語言模型就變成：

用目前詞 x 預測它的下一個詞 y但如上面所說，一般的數學模型隻接受數值型輸入，這裡的 x 該怎麼

表示呢？顯然不能用 Word2vec，因為這是我們訓練完模型的産物，現在我們想要的是 x 的一個原始輸入形式。

答案是：one-hot encoder

b、Skip-Gram Model

下圖Skip-gram 的網絡結構了，x 就是上面提到的 one-hot encoder形式的輸入，y 是在這 V （字典）個詞上輸出的機率，我們希望跟真實的 y 的 one-hot encoder 一樣。

深度學習之word embedding學習筆記（4）

b、Skip-Gram Model

隐層的激活函數其實是線性的，相當于沒做任何處理（這也是Word2vec 簡化之前語言模型的獨到之處），我們要訓練這個神經網絡，用反向傳播算法，本質上是鍊式求導，在此不展開說明了，當模型訓練完後，最後得到的其實是神經網絡的權重，比如現在輸入一個 x 的 one-hot encoder: [1,0,0,…,0]，對應剛說的那個詞語『吳彥祖』，則在輸入層到隐含層的權重裡，隻有對應 1 這個位置的權重被激活，這些權重的個數，跟隐含層節點數是一緻的，進而這些權重組成一個向量 vx 來表示x，而因為每個詞語的 one-hot encoder 裡面 1的位置是不同的，是以，這個向量 vx 就可以用來唯一表示 x。

b、Skip-Gram Model

word2vec對這個模型做了改進，首先，對于從輸入層到隐藏層的映射，沒有采取神經網絡的線性變換加激活函數的方法，而是采用簡單的對所有輸入詞向量求和并取平均的方法。比如輸入的是三個4維詞向量：(1,2,3,4),(9,6,11,8),(5,10,7,12),那麼我們word2vec映射後的詞向量就是(5,6,7,8)。由于這裡是從多個詞向量變成了一個詞向量。

深度學習之word embedding學習筆記（4）

繼續閱讀

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普