保留全部的不确定性,使得熵最大,風險最小。
最大熵原理:對一個随機事件的機率分布進行預測時,要滿足全部的已知條件,對未知的情況不要做主觀假設,機率分布越均勻,預測風險越小。要保留所有的不确定性。
舉例:拼音轉漢字
1.根據語言模型:wang-xiao-bo,可以翻譯為“王小波”和“王曉波”。
2.根據主題,王小波是作家,王曉波是台灣研究兩岸關系的學者。
建立一個最大熵模型,同時滿足這2種條件。Csiszar證明,對任何一組不自相沖突的資訊,最大熵模型不僅存在,而且唯一,即指數函數。以下公式,根據上下文(前2個詞)和主題預測下一個詞的最大熵模型。w3是要預測的詞,w1和w2是w3之前的詞,subject是主題。
公式中的參數,需要根據資料進行模型訓練。
最大熵模型的幾個典型應用:詞性标注、句法分析、機器翻譯、股票預測。