一、背景介紹
我們團隊從去年的工作中,積累了風格化文案生成算法的内容生成方案。之後,我們創新的提出使用Generative Adversarial Network的生成技術,結合使用者特征進行個性化短标題的生成,同時提高稀疏資料集下模型的魯棒性。目前成果已被DLP-KDD2020會議錄用,論文題目是“Selling Products by Machine: a User-Sensitive Adversarial Training method for Short Title Generation in Mobile E-Commerce”。
過去的相關研究主要從商品的内容出發,而缺少對使用者行為的挖掘,進而忽視了買家的需求。我們提出了“個性化指針生成對抗網絡(PPGAN)”,生成使用者感覺的個性化短标題。此外,在資料集上,電商使用者行為資料中使用者的低點選率使得我們的資料集非常稀疏,本文模型引入一種無監督的資訊理論政策,能夠從使用者未點選資料中識别出高品質的短标題訓練模型。
二、模型結構
PPGAN模型網絡整體包含三個子產品,1.電商詞嵌入,2.個性化短标題生成器G,3.兩種不同的判别器D:真假判别器和CTR判别器。這三個子產品共同組成我們的個性化短标題生成模型架構。
1.電商詞嵌入
我們使用AliNLP的電商NER工具對商品标題和使用者特征進行識别,提取“顔色”、“風格”、“品類”等實體類型特征。例如,在商品标題“包郵Nike品牌的紅色運動褲”中,“包郵”标記為“市場服務”,“Nike”标記為“品牌”,“紅色”标記為“顔色”,“運動褲”标記為“品類”。對于每個單詞,我們将其單詞向量和NER向量拼接,共同作為模型的詞向量輸入。
對于商品标題序列,每個單詞被表示成:
對于使用者特征序列,每個單詞被表示成:
通過加入單詞的NER資訊,模型更能夠學習到每個單詞的重要性,将重要的單詞保留在短标題中。
2. 個性化短标題生成器
對于短标題生成器來說,輸入資訊為商品标題和使用者特征,通過one-step Pointer Networks模型從原标題中抽取式的生成短标題,與傳統的多步指針網絡相比,一步指針網絡在解碼階段一步解碼,避免了多步解碼的重複性抽取問題。
使用者特征的建構:我們基于使用者在平台的點選記錄運用統計方法計算使用者特征,具體來說,對于使用者點選過的商品item_t,收集點選itemt之前點選過的10個商品資料,通過詞頻統計取TOP10的單詞作為使用者特征U=(u_1, u_2, ... , u_10)。
如圖所示,在使用者特征建構後,将使用者特征向量序列輸入GRU網絡中,計算得到使用者表征。
為了融合使用者和被點選的商品的特征,我們将使用者表征與商品詞向量進行拼接,再輸入GRU編碼器進行編碼。
在解碼部分,通過基于注意力機制的一步解碼和softmax層,輸出在原輸入序列上的機率分布,取機率TopK的單詞作為生成的短标題。
3. 判别器
判别器D是一個以生成器G的輸出分布Pg和真實短标題分布Pr為輸入的二進制分類器,用來判别是商家手寫真實短标題還是機器生成的僞短标題。我們将真實短标題的輸入分布定義如下,其中T為原始長标題,S=(s_1, s_2, ... , s_m)為真實短标題,m是短标題的長度。
同時,為了讓判别器不那麼容易的判别出真僞短标題,我們給真僞短标題的分布加入服從高斯分布的噪音,使訓練過程更加穩定。
将這兩個标題分布與商品詞向量點乘得到“短标題”的向量表示,在拼接使用者特征後分别輸入判别器D進行判别。
判别器D網絡采用常用的卷積神經網絡,包括真假判别器和CTR判别器兩種。真假判别器用來使生成器生成的短标題更接近使用者點選的真實短标題;此外,考慮到資料集的稀疏性,使用者點選樣本量相對于未點選樣本量較少,是以我們希望引入CTR判别器,從大量的使用者未點選樣本中識别高品質的短标題訓練模型。
4. 對抗訓練損失與模型訓練過程
生成器G盡力為目标使用者生成接近真實的短标題分布,判别器D盡力最大化真僞短标題分布之間的距離,進而做出正确判别。算法流程如下圖所示:
- 首先使用大量長短标題pair對預訓練生成器G,快速更新我們的生成器。由于沒有足夠的使用者點選資料覆寫所用商品,我們在預訓練階段僅使用商品标題特征,而不考慮使用者特征。我們使用L2損失函數作為預訓練生成器G時的損失:
- 正式訓練階段1,輸入資料為使用者點選的商品資料[T+, U+, S+],生成器G和真假判别器D的損失函數如下:
- 正式訓練階段2,輸入資料為使用者未點選的商品資料[T-, U-]。事實上,使用者未點選的短标題并不僅僅由于短标題品質不好,也可能是使用者對商品本身不感興趣。是以,我們考慮通過對抗的方式識别出使用者未點選但品質好的短标題。我們借鑒了現有的工作,最大化正負例之間的資訊邊界,在判别器損失中加入正負兩個類别之間的加性條件熵M_D(x)。CTR判别器的損失函數如下:
三、實驗結果與線上效果
1. 樣本資料和訓練
我們的訓練樣本來自1688平台商家手寫的短标題以及現有短标題場景中使用者的行為資料,可以将資料集表示成,其中O為商品原始長标題,S表示手寫短标題,U為使用者特征序列,L為使用者對商品的标簽(1表示點選,0表示未點選),樣例如下圖所示。我們的使用者點選樣本量為64萬,使用者未點選樣本量為695萬,是以資料集較為稀疏。此外,資料樣本上,經過了一定的資料清理工作,因為本身訓練樣本資料的品質會嚴重影響最終生成短标題的品質,我們的處理主要包括髒語料的剔除、異常字元的過濾、原始标題長度限制等,同時利用AliNLP進行使用者和商品特征的命名實體識别工作。
資料樣例如下:
2. 個性化短标題生成樣例
與對比方法相比,我們的模型PPGAN能夠根據不同的使用者特征,從原始長标題中抽取特定使用者感興趣的資訊生成個性化的短标題。表中短标題的生成長度設定為5,根據不同的産品和場景需求,我們能夠生成不同長度的個性化短标題,進而讓生成的短标題更貼合業務需求。
PPGAN實驗生成樣例如下圖所示:
3. 1688落地效果
目前個性化短标題已落地到1688平台的多個場景中,包括夥拼、天天特賣、廠貨集采等。我們在榜單的“發現好貨”進行AB測試,結果上實時個性化短标題比截斷長标題點選率絕對值高出2.3個點左右,比統計短标題高出1.7個點左右。并且在2019年的920大促中,全量上線到大促會場中,承接住1100+QPS的調用量,為1688導購場景全面賦能,目前已沉澱為場景側技術工具,供營運使用。
線上效果如下:
四、參考文獻
[1] Martin Arjovsky, Soumith Chintala, and Leon Bottou. 2017. Wasserstein Generative Adversarial Networks. In ICML. 214–223.
[2] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015. Pointer networks. In NIPS. 2692–2700.
[3] Tao Zhang, Jin Zhang, Chengfu Huo, and Weijun Ren. 2019. Automatic Generation of Pattern-controlled Product Description in E-commerce. In WWW. 2355–2365.
[4] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O K Li. 2016. Incorporating copying mechanism in sequence-to-sequence learning. In ACL. 1631–1640.
[5] Yue Deng, Yilin Shen, and Hongxia Jin. 2017. Disguise Adversarial Networks for Click-through Rate Prediction. In IJCAI. 1589–1595.
延伸閱讀《阿裡巴巴B2B電商算法實戰》
點我購買推薦語:本書是阿裡巴巴CBU技術部(1688.com)深耕B2B電商15年的經驗總結。阿裡巴巴B2B在戰略形态上經曆了資訊平台、交易平台和營銷平台的更新疊代,本書聚焦營銷平台商業形态背後的算法和技術能力,試圖從技術和商業互為驅動的視角闡述技術如何賦能業務,并結合阿裡巴巴集團在基礎設域和算法創新上的沉澱,打造出智能B2B商業作業系統。