【編者按】好的技術實戰分享從來不因為時間的流失而褪色。2011年開始營運的阿裡技術沙龍共積累35期,近100位深度實戰教育訓練資源(PPT+視訊)讓很多朋友大呼過瘾。接棒阿裡技術沙龍,雲栖社群特别挑選最具人氣的12場深度實戰分享組成【近戰】的第一個系列。其中包含新浪微網誌、淘寶搜尋、美團、美麗說、淘寶推薦、小米、支付寶、阿裡雲、淘寶無線在内,涵蓋模組化、個性化推薦、排序學習、系統優化、資料監控、流量優化、架構探索等多方面一線經驗總結。
以下為【近戰】第一篇,基于微網誌使用者關系與行為的使用者模組化分析。
使用者模組化是廣告、推薦、搜尋算法最基礎也是最核心的技術問題之一,本報告将介紹新浪微網誌大資料挖掘團隊如何綜合利用社交關系和使用者行為來建立使用者模型。以下分享下精彩内容。
<b>微網誌及大資料</b>
<b> </b>微網誌作為中國最大的社交媒體平台,微網誌沉澱了海量的使用者,内容,關系,和行為資料。
其中使用者:注冊人數10億,月活人數1.98億,日活人數:8900萬。關系:關注關系近千億,分組關系50億+。内容:日增博文1億+,日增原創4000萬。行為:轉發6000萬, 評論3000萬,贊1億,收藏:1000萬, 檢視200億。
圖1
如圖1,微網誌大資料要做什麼?要幫助使用者發現感興趣的内容,加快有價值内容的傳播效率。目标如何實作?要挖掘有能力生産垂直領域優質内容的使用者,挖掘使用者内容消費的興趣偏好。工作如何串聯?使用者能⼒力标簽,使用者興趣标簽,微網誌内容标簽。
<b>大資料标簽體系</b>
<b> </b>
<b> </b>圖2
圖2所示為大資料标簽體系的基本架構圖。
<b>使用者能力标簽</b><b>——</b>
使用者能力标簽的産品形态
圖3
如圖3微網誌找人直接推薦各行各業的能力使用者
圖4
如圖4微網誌頭條輸出各領域原始語料的專家庫
<b> </b> 圖5
圖5為使用者能力标簽庫的整體架構
使用者能力标簽庫的政策算法如下:
(1)基于決策樹的分組名分類算法:将分組名分為興趣分組名和熟人關系分組名。興趣分組名用于使用者的能⼒力興趣計算,熟人關系分組名用于使用者的自然屬性挖掘。
(2)基于使用者關注關系資料計算使用者在關系方面的能力:利用興趣分組名稱建構出标簽的相關詞庫,進而通過歸一化公式計算出基礎權重。
(3)基于使用者釋出内容資料計算使用者在内容⽅方面的能⼒力:使用者在某個領域釋出博⽂文數量、純度、互動量越⾼高,在這個領域内容⽣生産能⼒力越大。
(4)通過PageRank計算使用者在垂直⾏行業的影響力:通過PageRank計算具有⼀一定内容⽣生産能⼒力和關系能力的使用者群中每個使用者的影響力。
(5)通過線性權重将使用者的關系、内容和⾏行業影響力計算為在這個垂直領域的綜合能力:使用者能力标簽歸⼀一化到0~100的區間,達到橫縱向可比較。
圖6
主要問題如圖6,标簽的自動聚合和篩選時的噪音問題,微網誌短文本分類及語義主體識别問題。
圖7
圖7為标簽自動聚合流程。
使用者能力标簽的效果很好,挖掘出120萬能⼒力使用者,覆寫月活粉絲1.6億;微網誌使用者中娛樂、互聯⽹網、财經行業名人最多; 微網誌使用者中動漫、美食、旅行行業精英最多;微網誌聚集了近萬名網際網路技術牛人。
<b>使用者興趣标簽</b>
使用者興趣标簽的産品形态
圖8
圖8是基于興趣推薦使用者感興趣的文章。
圖9
圖9是基于興趣Push使用者一段時間内關注人發的但是沒看過的微網誌。
圖10
圖10為使用者興趣标簽庫的整體架構。
使用者興趣标簽的政策算法
(1)
圈定各垂直領域的能力使用者集合:根據使用者能力标簽分數分布以及各分數段的意義,圈定垂直領域的能力使用者集合。
(2)
根據使用者對能⼒力使用者的關注關系計算使用者在關系⽅方面的興趣:關系興趣權重的計算規則:根據w1和w2最終确定關系興趣的權重。
(3)
根據使用者對内容産⽣生的⾏行為計算使用者在内容消費⽅方面的興趣:微網誌⾏行為包括:原創,轉發,評論,贊,收藏,檢視微網誌等十幾種行為,不同的行為對應不同的分值,最終通過歸一化公式計算使用者消費内容的興趣權重。
(4)
通過線性權重計算使用者的綜合興趣調權:通過不斷的疊代測試,使用者在内容消費⽅方面的權重更高一些。
使用者興趣标簽的主要問題:
使用者的興趣相對于能力⽽而言是時間敏感的, 如何在使用者的興趣權重上展現出時間敏感性是一個關鍵問題。如圖11所示,
圖11
所有使用者都對實時,旅遊,明星感興趣嗎?活躍使用者展現出的興趣極為廣泛。
使用者行為權重的時間衰減:基于時間次元的行為熱度衰減: 在博⽂文消費方面,使用者通過轉發、評論、贊等行為來表達自己對領域博文的興趣,其表達的興趣熱度及重要性随着時間是逐漸衰減的,我們
通過牛頓冷卻定律來量化衰減的程度。如圖12所示,
圖12
使用者興趣标簽的效果是:挖掘出1.6億使用者的精準興趣,覆寫微網誌月活75%。微網誌使用者中對娛樂、時事、互聯⽹網感興趣的⼈人最多。微網誌聚集了110萬對網際網路技術感興趣的人。
<b>使用者标簽的規劃</b>
<b> </b> 規劃使用者身份,規劃使用者即時興趣,規劃使用者品質等級。圖13 為微網誌大資料使用者體系。
<b> </b> 圖13
<b></b>
<b>分享:</b>朱紅壘,新浪微網誌大資料挖掘團隊技術負責人
<a href="http://club.alibabatech.org/resources.htm">同論壇其他議題分享位址</a>
【近戰】系列文章,跟蹤tag标簽即可得到。