天天看點

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

1 Word Representation

上節課我們介紹過表征單詞的方式是首先建立一個較大的詞彙表(例如10000),然後使用one-hot的方式對每個單詞進行編碼。例如單詞Man,Woman,King,Queen,Apple,Orange分别出現在詞彙表的第5391,9853,4914,7157,456,6257的位置,則它們分别用O5391,O9853,O4914,O7157,O456,O6257表示。

這中one-hot表征單詞的方法最大的缺點就是每個單詞都是獨立的、正交的,無法知道不同單詞之間的相似程度。例如Apple和Orange都是水果,詞性相近,但是單從one-hot編碼上來看,内積為零,無法知道二者的相似性。在NLP中,我們更希望能掌握不同單詞之間的相似程度。

是以,我們可以使用特征表征(Featurized representation)的方法對每個單詞進行編碼。也就是使用一個特征向量表征單詞,特征向量的每個元素都是對該單詞某一特征的量化描述,量化範圍可以是[-1,1]之間。特征表征的例子如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

特征向量的長度依情況而定,特征元素越多則對單詞表征得越全面。這裡的特征向量長度設定為300。使用特征表征之後,詞彙表中的每個單詞都可以使用對應的300 x 1的向量來表示,該向量的每個元素表示該單詞對應的某個特征值。每個單詞用e+詞彙表索引的方式标記,例如e5391, e9853, e4914, e7157, e456, e6257。

這種特征表征的優點是根據特征向量能清晰知道不同單詞之間的相似程度,例如Apple和Orange之間的相似度較高,很可能屬于同一類别。這種單詞“類别”化的方式,大大提高了有限詞彙量的泛化能力。這種特征化單詞的操作被稱為Word Embeddings,即單詞嵌入。

值得一提的是,這裡特征向量的每個特征元素含義是具體的,對應到實際特征,例如性别、年齡等。而在實際應用中,特征向量很多特征元素并不一定對應到有實體意義的特征,是比較抽象的。但是,這并不影響對每個單詞的有效表征,同樣能比較不同單詞之間的相似性。

每個單詞都由高維特征向量表征,為了可視化不同單詞之間的相似性,可以使用降維操作,例如t-SNE算法,将300D降到2D平面上。如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

從上圖可以看出相似的單詞分布距離較近,進而也證明了Word Embeddings能有效表征單詞的關鍵特征。

2 Using Word Embedding

之前我們介紹過Named entity識别的例子,每個單詞采用的是one-hot編碼。如下圖所示,因為“orange farmer”是份職業,很明顯“Sally Johnson”是一個人名。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

如果采用featurized representation對每個單詞進行編碼,再建構該RNN模型。對于一個新的句子:

Robert Lin is an apple farmer

由于這兩個句子中,“apple”與“orange”特征向量很接近,很容易能判斷出“Robert Lin”也是一個人名。這就是featurized representation的優點之一。

可以看出,featurized representation的優點是可以減少訓練樣本的數目,前提是對海量單詞建立特征向量表述(word embedding)。這樣,即使訓練樣本不夠多,測試時遇到陌生單詞,例如“durian cultivator”,根據之前海量詞彙特征向量就判斷出“durian”也是一種水果,與“apple”類似,而“cultivator”與“farmer”也很相似。進而得到與“durian cultivator”對應的應該也是一個人名。這種做法将單詞用不同的特征來表示,即使是訓練樣本中沒有的單詞,也可以根據word embedding的結果得到與其詞性相近的單詞,進而得到與該單詞相近的結果,有效減少了訓練樣本的數量。

featurized representation的特性使得很多NLP任務能友善地進行遷移學習。方法是:

  • 從海量詞彙庫中學習word embeddings,即所有單詞的特征向量。或者從網上下載下傳預訓練好的word embeddings。
  • 使用較少的訓練樣本,将word embeddings遷移到新的任務中。
  • (可選):繼續使用新資料微調word embeddings。

建議僅當訓練樣本足夠大的時候,再進行上述第三步。

有趣的是,word embeddings與吳恩達《卷積神經網絡》精煉筆記(4)– 人臉識别與神經風格遷移中介紹的人臉特征編碼有很多相似性。人臉圖檔經過Siamese網絡,得到其特征向量f(x),這點跟word embedding是類似的。二者不同的是Siamese網絡輸入的人臉圖檔可以是資料庫之外的;而word embedding一般都是已建立的詞彙庫中的單詞,非詞彙庫單詞統一用< UNK >表示。

3 Properties of Word Embeddings

Word embeddings可以幫助我們找到不同單詞之間的相似類别關系。如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings
吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings
吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

4 Embedding Matrix

假設某個詞彙庫包含了10000個單詞,每個單詞包含的特征次元為300,那麼表征所有單詞的embedding matrix次元為300 x 10000,用E來表示。某單詞w的one-hot向量表示為Ow,次元為10000 x 1,則該單詞的embedding vector表達式為:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

是以,隻要知道了embedding matrix E,就能計算出所有單詞的embedding vector ew。後面我們将重點介紹如何求出E。

值得一提的是,上述這種矩陣乘積運算E⋅Ow效率并不高,矩陣次元很大,且Ow大部分元素為零。通常做法是直接從E中選取第w列作為ew即可。

5 Learning Word Embeddings

embedding matrix E可以通過建構自然語言模型,運用梯度下降算法得到。舉個簡單的例子,輸入樣本是下面這句話:

I want a glass of orange (juice).

通過這句話的前6個單詞,預測最後的單詞“juice”。E未知待求,每個單詞可用embedding vector ew表示。建構的神經網絡模型結構如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

這種算法的效果還不錯,能夠保證具有相似屬性單詞的embedding vector相近。

為了讓神經網絡輸入層數目固定,可以選擇隻取預測單詞的前4個單詞作為輸入,例如該句中隻選擇“a glass of orange”四個單詞作為輸入。當然,這裡的4是超參數,可調。

一般地,我們把輸入叫做context,輸出叫做target。對應到上面這句話裡:

  • context: a glass of orange
  • target: juice

關于context的選擇有多種方法:

  • target前n個單詞或後n個單詞,n可調
  • target前1個單詞
  • target附近某1個單詞(Skip-Gram)

事實證明,不同的context選擇方法都能計算出較準确的embedding matrix E。

6 Word2Vec

上一小節我們介紹了context和target的選擇方法,比較流行的是采用Skip-Gram模型。以下面這句話為例:

I want a glass of orange juice to go along with my cereal.

Skip-Gram模型的做法是:首先随機選擇一個單詞作為context,例如“orange”;然後使用一個寬度為5或10(自定義)的滑動窗,在context附近選擇一個單詞作為target,可以是“juice”、“glass”、“my”等等。最終得到了多個context—target對作為監督式學習樣本。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

然後,運用梯度下降算法,疊代優化,最終得到embedding matrix E。

然而,這種算法計算量大,影響運算速度。主要因為softmax輸出單元為10000個,y^計算公式中包含了大量的求和運算。解決的辦法之一是使用hierarchical softmax classifier,即樹形分類器。其結構如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

這種樹形分類器是一種二分類。與之前的softmax分類器不同,它在每個數節點上對目标單詞進行區間判斷,最終定位到目标單詞。這好比是猜數字遊戲,數字範圍0~100。我們可以先猜50,如果分類器給出目标數字比50大,則繼續猜75,以此類推,每次從資料區間中部開始。這種樹形分類器最多需要log N步就能找到目标單詞,N為單詞總數。

實際應用中,對樹形分類器做了一些改進。改進後的樹形分類器是非對稱的,通常選擇把比較常用的單詞放在樹的頂層,而把不常用的單詞放在樹的底層。這樣更能提高搜尋速度。

最後提一點,關于context的采樣,需要注意的是如果使用均勻采樣,那麼一些常用的介詞、冠詞,例如the, of, a, and, to等出現的機率更大一些。但是,這些單詞的embedding vectors通常不是我們最關心的,我們更關心例如orange, apple, juice等這些名詞等。是以,實際應用中,一般不選擇随機均勻采樣的方式來選擇context,而是使用其它算法來處理這類問題。

Skip-Gram模型是Word2Vec的一種,Word2Vec的另外一種模型是CBOW(Continuous Bag of Words)。關于CBOW此處不再贅述。

7 Negative Sampling

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

Negative sampling是另外一種有效的求解embedding matrix E的方法。它的做法是判斷選取的context word和target word是否構成一組正确的context-target對,一般包含一個正樣本和k個負樣本。例如,“orange”為context word,“juice”為target word,很明顯“orange juice”是一組context-target對,為正樣本,相應的target label為1。若“orange”為context word不變,target word随機選擇“king”、“book”、“the”或者“of”等。這些都不是正确的context-target對,為負樣本,相應的target label為0。一般地,固定某個context word對應的負樣本個數k一般遵循:

  • 若訓練樣本較小,k一般選擇5~20;
  • 若訓練樣本較大,k一般選擇2~5即可。

Negative sampling的數學模型為:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

其中,σ表示sigmoid激活函數。

很明顯,negative sampling某個固定的正樣本對應k個負樣本,即模型總共包含了k+1個binary classification。對比之前介紹的10000個輸出單元的softmax分類,negative sampling轉化為k+1個二分類問題,計算量要小很多,大大提高了模型運算速度。

最後提一點,關于如何選擇負樣本對應的target單詞,可以使用随機選擇的方法。但有資料提出一個更實用、效果更好的方法,就是根據該詞出現的頻率進行選擇,相應的機率公式為:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

其中,f(wi)表示單詞wi在單詞表中出現的機率。

8 GloVe Word Vectors

GloVe算法引入了一個新的參數:

Xij: 表示i出現在j之前的次數,即i和j同時出現的次數。

其中,i表示context,j表示target。一般地,如果不限定context一定在target的前面,則有對稱關系Xij=Xji;如果有限定先後,則Xij≠Xji。接下來的讨論中,我們預設存在對稱關系Xij=Xji。

GloVe模型的loss function為

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

從上式可以看出,若兩個詞的embedding vector越相近,同時出現的次數越多,則對應的loss越小。

為了防止出現“log 0”,即兩個單詞不會同時出現,無相關性的情況,對loss function引入一個權重因子f(Xij):

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

當Xij=0時,權重因子f(Xij)=0。這種做法直接忽略了無任何相關性的context和target,隻考慮Xij>0的情況。

出現頻率較大的單詞相應的權重因子f(Xij)較大,出現頻率較小的單詞相應的權重因子f(Xij)較小一些。具體的權重因子f(Xij)選取方法可查閱相關論文資料。

一般地,引入偏移量,則loss function表達式為:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

值得注意的是,參數θi和ej是對稱的。使用優化算法得到所有參數之後,最終的ew可表示為:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

最後提一點的是,無論使用Skip-Gram模型還是GloVe模型等等,計算得到的embedding matrix E的每一個特征值不一定對應有實際實體意義的特征值,如gender,age等。

9 Sentiment Classification

情感分類一般是根據一句話來判斷其喜愛程度,例如1~5星分布。如下圖所示:

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

情感分類問題的一個主要挑戰是缺少足夠多的訓練樣本。而Word embedding恰恰可以幫助解決訓練樣本不足的問題。

首先介紹使用word embedding解決情感分類問題的一個簡單模型算法。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

如上圖所示,這句話的4個單詞分别用embedding vector表示。e8928, e2468, e4694, e3180計算均值,這樣得到的平均向量的次元仍是300。最後經過softmax輸出1~5星。這種模型結構簡單,計算量不大,不論句子長度多長,都使用平均的方式得到300D的embedding vector。該模型實際表現較好。

但是,這種簡單模型的缺點是使用平均方法,沒有考慮句子中單詞出現的次序,忽略其位置資訊。而有時候,不同單詞出現的次序直接決定了句意,即情感分類的結果。例如下面這句話:

Completely lacking in good taste, good service, and good ambience.

雖然這句話中包含了3個“good”,但是其前面出現了“lacking”,很明顯這句話句意是negative的。如果使用上面介紹的平均算法,則很可能會錯誤識别為positive的,因為忽略了單詞出現的次序。

為了解決這一問題,情感分類的另一種模型是RNN。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

該RNN模型是典型的many-to-one模型,考慮單詞出現的次序,能夠有效識别句子表達的真實情感。

值得一提的是使用word embedding,能夠有效提高模型的泛化能力,即使訓練樣本不多,也能保證模型有不錯的性能。

10 Debiasing Word Embeddings

Word embeddings中存在一些性别、宗教、種族等偏見或者歧視。例如下面這兩句話:

Man: Woman as King: Queen

Man: Computer programmer as Woman: Homemaker

Father: Doctor as Mother: Nurse

很明顯,第二句話和第三句話存在性别偏見,因為Woman和Mother也可以是Computer programmer和Doctor。

以性别偏見為例,我們來探讨下如何消除word embeddings中偏見。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

首先,确定偏見bias的方向。方法是對所有性别對立的單詞求內插補點,再平均。上圖展示了bias direction和non-bias direction。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

然後,單詞中立化(Neutralize)。将需要消除性别偏見的單詞投影到non-bias direction上去,消除bias次元,例如babysitter,doctor等。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

最後,均衡對(Equalize pairs)。讓性别對立單詞與上面的中立詞距離相等,具有同樣的相似度。例如讓grandmother和grandfather與babysitter的距離同一化。

吳恩達《序列模型》精煉筆記(2)-- NLP和Word Embeddings

值得注意的是,掌握哪些單詞需要中立化非常重要。一般來說,大部分英文單詞,例如職業、身份等都需要中立化,消除embedding vector中性别這一次元的影響。