天天看點

DSP模型中FM FFM模型

機器學習方法應用在DSP廣告投放中,預估CTR/CVR,業界常用的方法是人工特征工程+LR,GBDT,近期FM,FFM模型在其中使用效果非常顯著。

先解釋一波DSP相關專業術語:

DSP:Demand-Side platform,需求方平台,在網際網路廣告産業中,DSP是一個系統,也是一種線上廣告平台,服務于廣告主,幫助廣告主在網際網路上進行廣告投放。兩個核心特征:強大的RTB(Real-Time Bidding)的基礎設施和能力,強大的使用者定位(Audience Targeting)技術。

CPC:Cost Per Click按點選計費

CPA:Cost per Action按成果數計費

CTR: Click Through Rate 點選率

CVR: Click Value Rate 轉化率,衡量CPA廣告效果的名額。

了解DSP中的基礎算法和模型,可以參考M6D公司的文章,以及一份中文解釋:http://www.techinads.com/archives/41

FM:Factorization Machine 因子分解機,又稱分解機器,旨在解決大規模稀疏資料下的特征組合問題。

FFM:Field-aware Factorization Machine,場感覺分解機器,把相同性質的特征歸于同一個field

稀疏問題引出:

在機器學習中,尤其是計算廣告領域,特征并不總是數值型,很多時候是分類值,對于categorical feature,通常會采用one-hot encoding轉換成數值型特征,轉化過程會産生大量稀疏資料。

one-hot encoding:獨熱編碼或者叫一位有效編碼,使用N位狀态寄存器來對N個狀态進行編碼,每個狀态都有它獨立的寄存器,并且在任意時刻,隻有一位有效。可以這麼了解:對于每一個特征,如果它有m個可能取值,那麼經過one-hot encoding之後,就變成了m個二進制特征,并且,這些特征互斥,每次隻有一個激活,是以,資料會變得稀疏。

好處:1.解決了分類器不好處理屬性資料的問題。2.在一定程度上起到了擴充特征的作用。

推薦兩篇文章:

美團背景:

http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html

新浪背景:

http://www.360doc.com/content/16/0608/07/1317564_565957182.shtml

具體的原理和代碼後期補充。

繼續閱讀