NLP底層技術之語言模型

　　本文結合cs224n:Natural Language Processing with Deep Learning的Lecture 8、Lecture 9内容，從語言模型（Language Model）講到N-Gram LM（N-Gram Language Model）再到RNN-LM（RNN-Language Model）。

- - Language Model　　
  - N-Gram Language Model
  - RNN Language Model
    - Perplexity
  - Smoothing
    - Linear interpolation

Language Model　　

　　關于語言模型有兩種說法，一種認為語言模型是計算某個句子機率的模型（A language model computes a probability for a sequence of words: p(w1,w2,w3...wn)) p ( w 1 , w 2 , w 3 . . . w n ) ) ，機率計算一般基于馬爾科夫假設。

　　在cs224課程中，語言模型被認為是用來預測下一個單詞。

NLP底層技術之語言模型

　　就筆者看來，這兩種說法也具有統一性，因為：　

在計算整個句子的機率的時候，也需具體到 p(wn|w1,w2,w3,..,wn) p ( w n | w 1 , w 2 , w 3 , . . , w n ) 的計算，這時就是在整個詞表中用來預測下一個單詞的機率。

　日常生活中，我們在如輸入法和搜尋引擎中，都用到了語言模型。語言模型也作為自然語言了解的基礎任務。

NLP底層技術之語言模型

N-Gram Language Model

NLP底層技術之語言模型

N-gram存在的問題

1. Sparsity Problem（稀疏性問題）——可通過資料平滑技術如線性插值、Discounting Methods或者back-off方法解決：

NLP底層技術之語言模型

2. Gigantic RAM requirement（參數空間過大），随着n的增大，存儲空間需求也變大。

NLP底層技術之語言模型

RNN Language Model

　　利用RNN對序列模組化，複用不同時刻的線性非線性單元和權值。理論上之前所有的單詞都會影響到目前的值。

　　所需記憶體隻與序列長度有關。

NLP底層技術之語言模型

　　x(t) is the word vector at the t time step. h(0) is some initialization vector at time step 0. The size of the output y(t) is |V|,which is the length of the vocabulary（整個詞表|V|上的機率分布)。

NLP底層技術之語言模型

　　RNN語言模型的損失函數

　　平均所有時刻上的損失，每個時刻的損失通過交叉熵損失函數定義。

NLP底層技術之語言模型

Perplexity

　　使用交叉熵損失函數定義困惑度，越小越好。

NLP底層技術之語言模型

　　RNN-LM的優缺點如下，其中RNN難以擷取很多時間步之前的資訊源自于RNN中的梯度彌散（gradient vanishing），将會在下一篇部落格中介紹。

NLP底層技術之語言模型

Smoothing

Linear interpolation

　　這裡線性插值（Linear interpolation）通過trigram model介紹，trigram、bigram和unigram的最大似然估計如下：

　　 qML(w|u,v)=c(w,u,v)c(u,v) q M L ( w | u , v ) = c ( w , u , v ) c ( u , v )

　　 qML(w|v)=c(w,v)c(v) q M L ( w | v ) = c ( w , v ) c ( v )

　　 qML(w)=c(w)c() q M L ( w ) = c ( w ) c ( )

　　對上述符号進行介紹， c(w) c ( w ) 表示在訓練語料庫中單詞w出現的次數， c() c ( ) 表示訓練語料庫中單詞出現的所有次數。

　　其中trigram、bigram和unigram都有不同的優缺點，unigram不會遇到分子或者分母為零的情況，但是unigram估計完全忽略了上下文資訊，因而抛棄了有用的資訊，而trigram則會遇到分子或者分母為0的情況，bigram在這兩種極端情況之間。

　　線性插值則是利用這三種估計，通過定義trigram：

　　其中 λ1 λ 1 、 λ2 λ 2 、 λ3 λ 3 是三個參數，且滿足：

　　 λ1≥0 λ 1 ≥ 0 ， λ2≥0 λ 2 ≥ 0 ， λ3≥0 λ 3 ≥ 0

　　 λ1+λ2+λ3=1 λ 1 + λ 2 + λ 3 = 1

　　是以是對這三種估計的權重平均。

NLP底層技術之語言模型

Language Model

N-Gram Language Model

RNN Language Model

Perplexity

Smoothing

Linear interpolation

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡