天天看點

線上電視劇的閱聽人競争力預測和分析 | KDD論文解讀

作者:張鵬,劉傳仁,甯克鋒,祝文祥,張宇

目前,網絡視訊平台的主要流量來自于熱門電視劇,而平台的核心收益就是在這些流量上進行廣告投放。通過準确預估劇目流量可以優化廣告投放效果進而提高收益。但是,僅僅預測流量還不足以回答更深層次的問題。例如,平台未來要采購哪些劇目?這不僅要考慮劇目帶來的流量,還要考慮平台内劇目的競争關系,以避免造成熱度内耗問題。是以,本文通過競争力問題定義、算法設計以及實驗對比,在劇目閱聽人競争力問題上進行了初步探索。

問題定義:

目前學術界并沒有定義過劇目之間的競争力,我們在調研過競争力相關的文章後提出了一種劇目競争力的定義。首先我們通過統計使用者的觀看次數,然後計算出兩兩劇目之間對使用者觀看次數的相對占有量,最後對所有使用者取平均作為最終的競争力。

我們以周為機關計算得到競争力,進一步可以建構成為競争網絡圖,圖的節點為劇目,邊是競争力,這張競争網絡圖是動态的,随着時間推移不斷變化,而我們要預測的是未來網絡圖中每條邊的數值,也就是劇目之間的競争關系。下圖是動态競争網絡的示意圖,在已知T-2、T-1、T時刻的競争網絡,要預測T+1時刻的競争網絡。值得注意的是,動态競争網絡中的劇目不是一成不變的,舊劇往往在大結局之後一段時間會消失,而新劇在首播時會出現。

線上電視劇的閱聽人競争力預測和分析 | KDD論文解讀

算法設計:

針對上述問題,我們結合深度神經網絡和知識庫系統設計了一種動态深度網絡分解架構,并命名為Dynamic Deep Network Factorization (DDNF)。該架構可充分融合劇目的靜态和動态特征以及競争網絡中的時序動态模式,優化劇目在動态競争網絡中的隐含表征,并用其有效預測未來的閱聽人競争力。架構共分為三個部分:第一部分是時序子產品(Temporal Latent Factors),該子產品利用張量分解從競争網絡中學習到劇目的時序隐含表征;第二部分是深度靜态特征子產品(Deep Embedding of Static Features),該子產品利用知識庫(KB)和深度神經網絡(DNN)從靜态特征中抽取劇目的關系和屬性資訊,靜态特征主要包括了劇目的簡介、題材、制作人員關系等;第三部分是循環動态特征子產品(Recurrent Embedding of Dynamic Features),該子產品利用長短期記憶網絡(LSTM)從劇目的動态特征中抽取劇目的動态變化資訊,動态特征包括了劇目每天的觀看次數、點贊人數、更新狀态等。最終将三個子產品組合在一起,形成端到端的動态深度網絡分解架構,示意圖如下,綠色框表示時序子產品,黃色框表示深度靜态特征子產品,紫色框表示循環動态特征子產品。           
線上電視劇的閱聽人競争力預測和分析 | KDD論文解讀

實驗對比:

我們利用某大型網絡視訊平台的曆史資料,建構了劇目競争力資料集,并利用該資料集進行實驗。資料集包括了電視劇與綜藝兩個資料集,時間跨度為一年。同時,我們選取了經典矩陣分解算法PMF、時序矩陣分解算法BTMF、考慮額外資訊的矩陣分解算法HBMFSI以及兼具時序和額外資訊的ETF進行了對比,實驗結果表明,我們的算法DDNF在兩個資料集上都取得了最好的效果,同時,發現對于新劇的競争力預估,DDNF表現更加突出。           
線上電視劇的閱聽人競争力預測和分析 | KDD論文解讀

總結:

針對網絡電視劇目,本文首次提出了閱聽人競争力的模組化和動态預測問題。論文首先通過挖掘劇目的觀看記錄建構一系列動态的競争網絡,然後結合深度神經網絡和知識庫系統設計了動态深度網絡分解架構。該架構可以融合劇目的靜态和動态特征以及競争網絡中的時序動态模式,優化劇目在動态競争網絡中的隐含表征,并用其有效預測未來的閱聽人競争力。通過預測劇目之間的競争力刻畫劇目的閱聽人,對于視訊平台的廣告售賣、劇目采購計劃、以及與其它平台的合作和競争等決策任務。
           

更多資料挖掘内容檢視:

《KDD論文精華解讀》

繼續閱讀