天天看點

首次解密小紅書“種草”機制 大規模深度學習系統技術是如何應用的

作者:閃念基因

AI 引領的新一代資訊技術,正驅動新一輪科技浪潮席卷而來。作為近年來國内發展最為迅速的移動網際網路平台之一,小紅書乘勢而上,目前已經形成了以圖文和短視訊内容為主的超大型 UGC 社群。在這個獨特而活躍的社群裡,每天都會産生海量多模态資料及使用者行為回報,催生出兼具價值與挑戰的新問題。

目前,大規模深度學習系統正發生着許多令人興奮的進展。10 月 15 日“小紅書 REDtech 青年技術沙龍”活動中,小紅書技術副總裁凱奇進行了《大規模深度學習系統技術及其在小紅書的應用》分享,為我們揭開 LarC 的“神秘面紗”。

凱奇:小紅書技術副總裁,畢業于上海交通大學,曾擔任歡聚時代技術副總裁和百度鳳巢首席架構師,負責百度搜尋廣告 CTR 機器學習算法工作。曾任 IBM 深度問答(DeepQA)項目中國技術負責人。

以下内容根據凱奇現場報告整理

首次解密小紅書“種草”機制 大規模深度學習系統技術是如何應用的

小紅書業務概覽

普通人的真實生活體驗分享

小紅書是一個蓬勃發展的内容社群,大量懂生活、愛分享的人在這裡交換着彼此的生活體驗和生活态度,并不斷吸引着越來越多的使用者加入。現在,小紅書已經有 2 億的月度活躍使用者,90 後占比 70% 以上,50% 的使用者來自于一、二線城市,也有一半來自于三、四線城市,使用者構成非常豐富和年輕化。

“普通人”在分享他們“真實”的“生活體驗”,是小紅書與其他内容平台和社群非常大的一個不同點。首先,分享者都是“普通人”,其次,“真誠分享,友好互動”是小紅書社群公約,“真誠”是很重要的一點。這些社群中的分享和我們的線下生活消費有着緊密的聯系,比如寶藏書店、或是怎麼穿衣搭配、怎麼裝修、怎麼做菜等内容,都是大家的日常“生活體驗”。

我們用一些數字也可以去衡量小紅書社群這些年的發展,我們看到,筆記釋出量從 2018 年到 2021 年是每年都以非常快的速度在增長,2020 到 2021 年,小紅書使用者筆記釋出量同比增長超 150%。

三大主要業務:社群、商業化、電商

在這樣一個高速發展的内容社群裡,最主要的三大業務就是社群、商業化和電商。

首先,我們的内容社群和内容平台是一個覆寫全生活品類,以 UGC 為主的生活方式内容社群。也因為這種貼合生活和日常消費的“真誠分享”,使用者對我們的社群内容有很高的信任度,大家在看到好的生活方式、消費内容、服務和産品等時會被“種草”,我們通過獨特的“種草”商業模式帶來品牌和效果的轉化。

“種草後是不是順便可以拔個草”,在消費内容的同時,大家也希望能夠自然、友善地買到自己心儀的物品,這是我們高效的閉環消費場域,也就是電商這一部分。

小紅書技術挑戰

多模态技術是目前整個 AI 領域廣受關注、發展迅速的技術方向之一,UGC 社群和内容生态中包含大量的圖文、視訊、文字和使用者行為資訊,産生了海量高品質的多模态資料,是以成為了極佳的實踐場景。使用者看到好的内容點贊、做的各種搜尋行為、對某個視訊的觀看等等,構成了大量使用者實際的回報。

現在每一天實際通過使用者行為産生的回報樣本量都有幾百億的級别。如何在海量的多模态資料中挖掘使用者感興趣的内容和好的商業内容,從這個目标出發,衍生出很多有價值同時也具備挑戰性的問題.

我們是怎麼去解決這些技術的:

千人千面的實時推薦系統

打開小紅書,首先映入眼簾的就是列的瀑布流或者内容流,這些都是推薦系統給大家推薦的内容。據統計,小紅書每天産生的使用者行為達到幾百億級别的規模。對于這些資料,小紅書技術團隊使用基于 LarC 的機器學習架構對模型進行訓練,根據使用者行為中的規律,找出使用者感興趣的内容并推薦給使用者。

下圖為小紅書推薦模型的大概結構。這是一個多任務的機器學習模型,它能夠預估使用者的點選、停留時長、是否點贊收藏等行為。針對小紅書平台産生的海量的系數參數,小紅書通過超大規模無沖突的參數伺服器,對這些參數進行更新和捕捉。

推薦系統的 Online Training 如下。當使用者在浏覽資訊流的時候,推薦系統會實時捕捉使用者的浏覽、點選、點贊等行為,這些行為會基于 Flink 實時處理的計算引擎對這些資料進行拼接,進而産生高性能的樣本,然後這些樣本會被實時送到模型中去做預估。同時,這些短暫累積的樣本也會用來做一次非常短暫的 Online Training 以更新模型參數。這些更新後的模型參數會立刻釋出到線上,去服務下一次的請求。整個過程是保持在分鐘級别的。

業界還有一個經典問題,比如大家浏覽推薦内容時經常會發現:為什麼密集地推送我以前看過的東西?我看的東西新鮮感不夠了怎麼辦?

首次解密小紅書“種草”機制 大規模深度學習系統技術是如何應用的

在推薦場景中,關注較短的時間周期會使得追打和資訊繭房問題嚴重,小紅書技術團隊對使用者的多元化長短期行為設計了不同的序列模組化方式,在多個次元帶來了顯著提升。此外,關于内容推薦的多樣性問題,小紅書技術團隊将傳統的多樣性做法從 DPP 改進到 SSD 算法,在資訊流推薦的場景中高效地滑窗計算,進而将單篇模型的價值排序轉化為整個浏覽周期的模組化。這背後依賴的是孿生神經網絡學習長尾内容的相似性。

相關工作成果我們已經發表在 KDD 2021 會議上,它從單篇價值的預估轉變成一個序列價值的預估,從單篇的多樣性轉變成多篇的多樣性,背後也是基于 SSD 算法,以及基于這個孿生神經網絡對内容相似性的評估。

多模态泛化的生活搜尋引擎

由于小紅書社群包含了的大量實際生活當中非常有用的資訊,很多使用者都會把小紅書當作搜尋引擎來用。這其中包含一些挑戰,比如多種資料形态的搜尋、長尾現象嚴重、意圖了解問題等。

現有的圖文搜尋引擎,通過文字可以搜尋圖檔,但做法都相對簡單,通常都是給圖檔打上文字的标簽,然後再做文字的比對。小紅書團隊建構的下一代多模态泛生活搜尋引擎,它基于對多模态内容深入的了解,通過圖文、文字真正搜尋視覺的内容,也能夠根據使用者的特點去做更加個性化的搜尋。

首次解密小紅書“種草”機制 大規模深度學習系統技術是如何應用的

什麼叫做泛生活知識搜尋引擎?比如我們在小紅書上看到了一件好看的的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同場合下它分别展現出怎樣的感覺。這是關于生活知識的搜尋,同時它又是一個多模态的搜尋。

這其中顯示的是小紅書技術團隊規劃的多模态,特别是對于搜圖檔這樣的技術架構,其中非常關鍵的一個依賴是特征多子產品,需要依賴大規模的神經網絡去做表征學習,對圖檔中包含的内容,無論是衣服、鞋或是其他商品商品,都能有一個很好的表征。很好的從大量的多模态内容當中檢索出相同的商品或者相似的商品,這是我們在搜尋上對大規模神經網絡的一個應用。

AI 生成更原生的商業内容

與其他平台相比,小紅書的商業内容有一個很大的不同點——原生化。所謂原生化,就是從點贊、評論等行為去看,使用者對這個内容非常欣賞,可能完全感覺不到它是一個商業内容。但是對于平台上的商家來說,制作這樣的商業内容的門檻很高。如何很好地平衡商家的商業意圖與生産内容的使用者價值,是一個很關鍵的問題。

為此,小紅書技術團隊使用了基于大規模神經網絡的生成式技術,來幫助商家根據内容去生成更好的标題和内容。比如商家可以選擇進行多個賣點表達,也可以選擇突出目标客戶群體,或者是喜歡的小紅書風格,機器會自動給出建議的标題,在引用機器創作的标題後,無論業務效果、點選或者是停留時長都得到了很好的提升,使用者也是非常喜歡這樣的内容,是以它做到商業和使用者價值很好的平衡。

這背後其實是基于大規模的預訓練模型,包括業界較為領先的 T5、BERT、GPT 等模型架構,這些模型架構都在小紅書海量的多模态資料上進行了訓練。一部分的預訓練模型用來去做筆記内容了解,一部分預訓練模型會被用來去指導生成式模型去生成标題,這些都是相關技術在商業領域的應用方式。

大規模機器學習平台

上述所有的機器學習内容,其實都是基于小紅書技術團隊自研的 LarC 機器學習平台。它啟動于 2019 年,到了 2020 年和 2021 年,相關的機器學習架構和平台推廣到了搜尋、推薦、廣告等所有領域。2022 年,LarC 實作了平台化。

目前,LarC 機器學習平台的能力已經相當完整,涵蓋從底層基礎設施到計算架構、資源排程、離線應用以及線上部署多個層面(其中标黃部分代表已經實作)。

借助 LarC 機器學習平台,小紅書技術團隊希望能夠幫所有算法同學迅速、高效地處理海量資料,訓練大規模機器學習和深度學習模型。

Summary

小紅書是高速發展的内容社群,“普通人”、“真實分享”、“生活體驗”是它的關鍵詞。

在這樣一個具有海量的多模态資料及使用者回報資料場景下,催生出很多前沿技術探索。以上是從大量技術工作當中挑了一些點出來跟大家做分享,其實還有很多内容,希望大家能夠從當中對小紅書的技術和大規模的深度學習有所了解。

“Q&A”環節

Q: 目前 diffusion 模型生成能力非常強,非常受關注,小紅書是否有這方面的技術應用探索呢?

凱奇: 目前我們商業化内容的創作過程中,已經用了生成式模型來幫助商家生成更加原生的内容,生成更加符合小紅書調性的内容,如果你真正的了解了小紅書的業務,把它很好跟模型相結合,其實是非常受到使用者喜愛的,是以我覺得這類生成式模型未來在小紅書一定會得到大規模應用。

Q:青年技術人就業之後如何保持技術競争力?小紅書的培養計劃是怎樣的呢?

凱奇:面向優秀的應屆畢業生,除了提供場景、資料等豐厚資源之外,小紅書技術團隊已經制定了從融入職場到成長為行業技術人才全周期的的詳細培養方案,護航每一位高校頂尖 AI 技術人才的成長。

在第一年,小紅書技術團隊聚焦“融入”,通過薯光計劃、Mentor 機制等方式,幫助大家完成從學生到職場人的轉型,同時幫助大家在實踐中找到擅長的技術方向。

第二年、第三年,小紅書技術團隊會通過業務實踐、體系化課程、前沿分享及學術交流等方式,培養青年人才們成為獨當一面的技術骨幹。在這個過程中,優秀的同學也有機會成長為技術 leader。

特别的是,面向入職之後的優秀應屆生,直屬上級會始終關注新人的成長過程,提供指導與幫助,也會分享來自國内外大廠的技術經驗給到同學們。

首次解密小紅書“種草”機制 大規模深度學習系統技術是如何應用的

作者:凱奇

來源:微信公衆号:小紅書技術REDtech

出處:https://mp.weixin.qq.com/s/4edlj4MuOkvf7zSG12crwA

繼續閱讀