在機器學習中,我們常常利用資料來對模型模組化,不同的模組化方式産生了兩種不同的模型:生成式模型、判别式模型。
- 判别式模型
由資料學習決策函數Y=f(X)或者條件機率P(Y|X)作為預測模型。判别式模型學習的是不同類别資料的差異性,最終得到最佳分類面
- 生成式模型
由資料學習聯合機率P(Y,X)作為預測模型,生成式模型學習的是不同類别資料的相似性,得到一個相似度機率分布,相似度最高的類别即為預測類别
- 對比
對比 | 判别式模型 | 生成式模型 |
---|---|---|
特點 | 尋找不同類别之間的最優分類面,反映異類資料之間的差異 | 以統計的角度表示資料的分布情況,能夠反映同類資料本身的相似度 |
差別(假如輸入特征x,類别标簽y) | 估計的是條件機率分布:P(y|x) | 估計的是聯合機率分布 P(x,y) |
聯系 | 由判别式模型不能得到生成式模型 | 由生成式模型可以得到判别式模型(貝葉斯公式) |
優勢 | (1)能清晰地分辨出多類或某一類與其他類之間的差異特征;(2)适用于較多類别的識别;(3)模型更簡單 | (1)研究單類問題比判别式模型更靈活;(2)模型可以通過增強學習得到;(3)能用于資料不完整的情況。 |
缺點 | 不能反映訓練資料本身的特性; | 學習和計算過程比較複雜 |
性能 | 較好(因為利用了訓練資料的類别辨別資訊) | 較差 |
常見模型舉例 | KNN,SVM,決策樹,線性回歸,LR,boosting,線性判别分析(LDA),條件随機場,感覺機,傳統神經網絡 | 樸素貝葉斯,隐馬爾科夫模型,高斯混合模型,限制玻爾茲曼機 |
主要應用場景 | 圖像文本分類,時間序列預測 | NLP,醫療診斷 |