語言模型評價
語言模型構造完成後,如何确定好壞呢? 目前主要有兩種評價方法:
- 實用方法:通過檢視該模型在實際應用(如拼寫檢查、機器翻譯)中的表現來評價,優點是直覺、實用,缺點是缺乏針對性、不夠客觀;
- 理論方法:迷惑度/困惑度/混亂度(preplexity),其基本思想是給測試集的句子賦予較高機率值的語言模型較好,當語言模型訓練完之後,測試集中的句子都是正常的句子,那麼訓練好的模型就是在測試集上的機率越高越好,公式如下:

由公式可知,迷惑度越小,句子機率越大,語言模型越好。使用《華爾街日報》訓練資料規模為38million words構造n-gram語言模型,測試集規模為1.5million words,迷惑度如下表所示: