天天看點

深度學習在高德POI鮮活度提升中的演進

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

1.導讀

高德地圖擁有着數千萬的POI(Point of Interest)興趣點,如學校、酒店、加油站、超市等。其中伴随着衆多POI建立的同時,會有大量的POI過期,如停業、拆遷、搬遷、更名。這部分POI對地圖鮮活度和使用者體驗有着嚴重的負面影響,需要及時有效地識别并處理。

深度學習在高德POI鮮活度提升中的演進

由于實地采集的方式成本高且時效性低,挖掘算法則顯得格外重要。其中基于趨勢大資料的時序模型,能夠覆寫大部分挖掘産能,對POI品質提升有着重要意義。

過期POI識别本質上可以抽象為一個資料分布非對稱的二分類問題。項目中以多源趨勢特征為基礎,并在疊代中引入高次元稀疏的屬性、狀态特征,建構符合業務需求的混合模型。

本文将對深度學習技術在高德地圖落地的過程中遇到的業務難點,和經過實踐檢驗的可行方案進行系統性的梳理總結。

2.特征工程

過期挖掘的實質是感覺伴随POI過期而發生的變化,進行事後觀測式挖掘,一般都會伴随着POI相關活躍度的下降。是以時序模型的關鍵是建構相關聯的特征體系。同時在實踐中我們也構造了一些有效的非時序特征進行輔助校正。

2.1時序特征

時序特征方面,建立了POI和多種資訊的關聯關系,并分别整合為月級的統計值,作為時序模型的輸入;時間序列視窗方面,考慮到一些周期性的規律的影響,需要兩年以上的序列長度來訓練模型。

2.2輔助特征

輔助特征方面,首先是将人工核實曆史資料進行有效利用。方式是構造一個時間序列長度的One-Hot向量,将最後一次人工核實存在的月份标記為1,其他月份為0。人工核實存在表示該時間結點附近過期機率較低,若人工更新在趨勢下降之後,說明趨勢表征過期的機率不高。

其次,調研發現不同行業類型的POI有着不同的過期機率,如餐飲和生活服務類過期機率較高,而地名或公交站點等類型則相對低很多。是以将行業類型編号建構為一個時間序列長度的等值向量,作為靜态輔助特征。

第三種輔助特征是在分析業務中的漏召回問題時總結構造的。發現有相當部分的新誕生POI,其入庫建立後至今的時長短于序列長度。意味着這部分序列前期存在較多數值為零的僞趨勢,會對尾部的真實下降趨勢造成幹擾進而誤判。對此提出了兩種優化思路:

  • 采用可變長度的RNN模型,隻截取POI建立時間之後部分的序列作為輸入。
  • 序列長度不變,添加一維“門”序列特征,序列在POI建立時間之前的部分數值為0,之後為1。如圖所示。
深度學習在高德POI鮮活度提升中的演進

對比采用第二種方案效果更優。考慮到我們隻有POI的入庫建立時間資訊,而不了解門店的具體誕生時間,直接按入庫時間截取序列,會造成門店誕生和POI建立時間段内的特征資訊損失;而添加“門”序列則可以在保持資訊完備的同時限制高可信區間。最後建構的混合特征示意圖如下所示。

深度學習在高德POI鮮活度提升中的演進

3.RNN階段

循環神經網絡(RNN, Recurrent Neural Network)憑借強大的表征能力在序列模組化問題上有非常突出的表現,業務中采用了其變種模型LSTM。

3.1RNN1.0

以前述的時序特征和輔助特征為基礎,我們采用多層LSTM搭建了第一版RNN過期挖掘模型,結構如圖所示。主要邏輯為,将逐時間點對齊後的特征輸入到深度LSTM中,在網絡最後時刻的輸出後,接入一層SoftMax計算過期機率。最後根據結果比對不同的置信度區段,分别進行自動化處理或人工作業等任務。模型初步驗證了RNN在過期趨勢挖掘領域落地的可行性和優勢。

深度學習在高德POI鮮活度提升中的演進

3.2 RNN2.0

高德地圖基于導航、搜尋或點選等操作頻度對POI進行了熱度排名。頭部的熱門POI如果過期但未及時發現對使用者體驗的傷害更大。2.0版本模型更新的主要目标便是進一步提升頭部熱門段位的過期POI發現能力。

分析發現熱門POI的資料分布相比尾部有較大差異性。頭部POI的資料量豐富,且數值為0的月份很少;相反尾部POI則資料稀疏,且有數值月份量級可能也僅為個位數。對于這種頭部效應特别明顯的狀況,單獨開發了高熱度段特征的頭部RNN模型,實作定制化挖掘。

另一方面,對于單次元特征缺失的情況,也區分熱度采用了不同的填充方式。頭部POI特征資訊豐富,将缺失次元補零讓其保持“靜默”防止幹擾;而尾部特征稀疏,本身已有較多零值,需要插值處理使缺失特征和整體保持相近趨勢。方法為将其他次元的資料規範化處理後,采用權重的方式得到插值。

深度學習在高德POI鮮活度提升中的演進

2.0版模型對頭部和尾部的召回能力都有提升,對頭部的自動化能力提升尤為明顯。

4.Wide&Deep階段

RNN模型能夠充分發掘時序特征的資訊,但特征豐富度不足成為制約自動化能力進一步提升的瓶頸。是以整合業務中的其他資料,從多源資訊融合角度更新模型便成為新階段的工作重點。主要的整合目标包括非時序的靜态資訊和狀态資訊,以及新開發的時序特征資訊。

模型更新主要借鑒了Wide&Deep的思想,并做了很多結合業務實際情況的應用創新。首先我們要把已有的RNN模型封裝為Deep子產品後和Wide部分聯合,相當于重新建構了一個混合模型,涉及到模型結構次元的整合。其次,既有Deep的時序資訊,又有Wide部分的實時狀态資訊,涉及到資料時間次元的整合。最後是Wide部分包含大量的不可量化或比較的類型特征需要編碼表征處理,涉及到資料屬性次元的整合。

4.1 Wide & LSTM

  • 特征編碼

我們将非時序特征經過編碼後建構Wide子產品。主要包括屬性、狀态,以及細分行業類型三種特征。

考慮到某些POI屬性存在缺失的情況,故編碼中第1位表示特征是否存在的标志位,後面則為One-Hot編碼後的對應的屬性類型;對于狀态特征,同樣有一位表示是否特征缺失的标志位,而後面的One-Hot編碼則表示最新時刻的狀态類型;由于不同行業類型有着不同的背景過期率,我們将細分的行業類型做One-Hot編碼後作為第三種特征。最後将各特征編碼依次連接配接,得到一個高次元的稀疏向量。特征編碼的過程如圖所示。

深度學習在高德POI鮮活度提升中的演進
  • 特征耦合

特征完備之後,将各類特征耦合及模型訓練便成為關鍵。耦合點選在了SoftMax輸出的前一層。對于Deep部分的RNN結構,參與耦合的便是最後時間節點的隐層;而對于Wide部分的高次元稀疏向量,我們通過一層全連接配接網絡來降維,便得到Wide部分的隐層。最後将兩部分的隐層連接配接,輸出到SoftMax來計算過期機率。

模型采用同步輸入Wide和Deep部分特征的方式聯合訓練,并調節兩部分的耦合隐層的次元來平衡兩部分的權重。過期挖掘場景的Wide & LSTM模型結構如圖所示。

深度學習在高德POI鮮活度提升中的演進

模型經過多次疊代優化後穩定投産,已成為過期挖掘業務中覆寫行業廣、自動化解題能力突出的綜合性模型。

4.2 Wide & Dual-LSTM

在做模型更新疊代的同時,基礎特征的建設工作也在同步進行。在擴充新的趨勢特征的時候面臨這樣一個問題,新特征維數較多且時間序列較短,這樣将長時序特征和短時序特征逐時間點比對時會出現很大部分的數值缺失。

由于新特征缺失部分較多且次元較大,缺失值填充的負面影響會過于嚴重而不适合采用。項目中采用了分而治之的方案,分别建立兩個RNN子產品,其中長RNN子產品輸入無新特征的長序列,短RNN子產品輸入有新特征的短序列,最後将雙RNN的Hidden層和Wide部分一起耦合,得到了Wide & Dual-RNN模型,結構如圖所示。

深度學習在高德POI鮮活度提升中的演進

雙RNN結構能夠很好地将新特征融入到現有模型并提升判斷準确率,不足的地方是結構較複雜影響計算效率。故後期進行了新階段的研發,采用更靈活的時序模型TCN進行疊代。

4.3 Wide & Attention-TCN

TCN主要有如下三方面優點使其能勝任時間序列的模組化:首先,架構中的卷積存在因果關系,即從未來到過去不會存在資訊洩漏。其次,卷積架構可以将任意長度的序列映射到固定長度的序列。另外,它還利用殘差子產品和空洞卷積來建構長期依賴關系。

性能對比上,TCN可以将時間序列作為向量并行化處理,相比RNN的逐時間點順序計算的方式有更快的計算速度。此外,TCN可以輸入延展成一維的序列,進而避免了特征需要逐時間點對齊。是以在驗證了Wide&Deep的思路有效後,我們嘗試将Deep部分的RNN結構更新為TCN。

首先,對于輸入部分的特征進行了Flatten處理,即将每個次元的時間序列依次首尾相連,如圖所示,拼接成為一個長向量後作為輸入。這樣便實作了長特征和短特征的有效整合。

深度學習在高德POI鮮活度提升中的演進

其次,對于輸出結構,引入序列次元的Attention機制進行優化。主要思想是不再隻讀取序列最後節點的隐向量的濃縮資訊,而是對所有序列節點的隐向量資訊權重處理後,得到彙總的隐向量資訊,使所有節點的學習結果得到充分利用。

最後将Attention-TCN後得到的彙總隐向量和Wide部分的隐層進行耦合,得到的Wide&Attention-TCN模型結構如圖所示。

深度學習在高德POI鮮活度提升中的演進

通過引入新的輕量TCN時序模型和Attention機制,新的模型性能有了進一步提高,但調優過程相對RNN更加複雜。多輪參數調整與結構優化後,最終落地版本與Wide & Dual-LSTM版相比,計算效率和業務擴招回能力均有可觀提升。

5.總結與展望

深度學習在高德POI鮮活度提升中的演進

深度學習在過期挖掘場景中的落地,經曆了不斷摸索嘗試、總結問題、優化方案、驗證效果的疊代演進的過程。期間以提升過期發現能力為核心目标,對特征擴充、特征構造和模型結構優化的角度都進行了探索,并總結了如上的業務場景落地經驗。其中,豐富可靠的特征、合适的特征表征方式和符合場景的模型結構設計是提升業務問題解決能力的關鍵。

目前模型主要是基于資訊和趨勢進行宏觀性的規律總結,并判斷具備這類特征情況下的POI過期的機率。而現實生活中POI的具體地理環境、自身經營狀況、周邊競争态勢等個性化因素的影響往往不可忽略。是以,未來規劃将綜合考慮整體規律性特征和個體差異性,實作精細化挖掘。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-05-09

本文作者:高德技術

本文來自:“

掘金

”,了解相關資訊可以關注“掘金”

繼續閱讀