有人翻小紅書種草，有人卻翻到了最新AI技術趨勢

魚羊發自凹非寺

量子位 | 公衆号 QbitAI

小紅書變了。

你以為它還在“美妝”、“穿搭”，但現在在社交媒體上，關于小紅書的不少說法畫風卻有些令人意外。

俨然有了那麼一點“搜尋引擎”的味道。

這是發生了甚麼事？

扒了扒資料，我們發現，去年一年，小紅書科技數位内容同比增長500%、體育賽事同比增長1140%，美食類消費DAU甚至一度超過美妝。

而在小紅書的首頁，下拉菜單中的品類标簽已經多達30多個。做菜教程、居家指南、戶外露營、旅遊攻略、考研考公甚至是創業，其内容之廣泛，早已遠超當年安身立命的美妝賽道。

更有意思的一個資料是，小紅書此前對外披露，有高達30%的使用者進入到小紅書之後會直接進行搜尋。

也就是說，不斷泛化的UGC内容正在不斷沖擊突破小紅書的社群内容版圖，而随之而來的使用者行為，也已完全不同于外界對小紅書的固有想象。

從外界看去，小紅書的變化不可謂不大。從内部技術的角度出發，面臨的挑戰其實也正在成倍遞增。

内容泛化和高頻搜尋，加上圖檔、文字、視訊等不同模态内容混雜，對搜尋和推薦優化來說都提出了更高的要求。

再者，網際網路使用者對于内容品質的要求日益提升，要求平台、機器能更進一步把握使用者心理的需求始終都在增長。

是以，背後愈加複雜的搜尋、推薦機制，應該如何應對？

内容社群的多模态挑戰

作為為數不多的大量圖文+短視訊混雜的内容社群，小紅書給出的關鍵詞是：多模态學習。

所謂多模态，指的是文本、圖像、聲音等不同的資訊表現形式。

而多模态學習，要做的就是建立起能把不同類型資訊結合起來的統一模型。

簡單來說，一旦AI能夠将不同形态的資訊，如圖像和文字融會貫通，就能在“了解”這件事上更進一步。

也就能達成這樣的效果：

讓AI根據“空中天使，虛幻引擎效果”的提示作畫，AI會給出如下答案。

如果說AI看文作畫還隻是讓人覺得“不明覺厲”，多模态技術對于網際網路産品更實際的意義究竟在何處？

就在最近，小紅書技術團隊舉辦的一場對外的AI公開課，就分享了他們在多模态算法上的探索。從中恰好可以一窺目前學術界熱度正酣的“多模态學習” + 擁有海量UGC内容的内容社群會産生怎樣的化學反應。

多模态搜尋

先來看搜尋。

在打開小紅書搜尋結果頁時，App還會給使用者推薦更多相關的搜尋詞：

以往，這些查詢詞是純文字的形式。

而在應用多模态技術之後，現在，這些查詢詞多了一層更美觀且有關聯性的“底圖”。也就是說，AI會自動篩選出與查詢詞相比對的圖案，并在搜尋結果界面展示給使用者。

别看隻是這麼一個簡單的改變，小紅書多模算法組負責人湯神透露，加入該功能後，UVCTR（獨立訪客點選率）和PVCTR（頁面浏覽量點選率）提升了2-3倍。

除此之外，多模态技術在搜尋中的另一重點展現，就是以圖搜圖。

有關商品、植物花卉等特定物品的圖檔搜尋，并不鮮見。不過，如果使用者想要搜尋的是某種氛圍感、某種整體風格呢？

這實際上是給AI提出了一個新的挑戰：複雜環境下的物體檢測與識别。

△搜表情包

為了解決這個問題，小紅書技術團隊以三個核心子產品實作了離線建構和線上索引的能力：

前置子產品

特征大規模檢索

排序子產品

在前置子產品中，技術團隊研發了多種多模态标簽，覆寫目标檢測、主題識别、商品屬性、人體屬性等諸多元度。

在特征子產品中，技術團隊通過基于Norm Classifier的多任務學習，解決了召回結果類目不一緻的問題。

在排序子產品中，技術團隊利用OCR以及标題中抽取出的品牌詞等NLP相關資訊，進行多模态資訊內建，顯著提升了檢索準确率。

内容品質評價體系

而如果說搜尋的變化更容易被看見，多模态技術在内容品質評價中的應用，則在更深層次上影響着小紅書的整體“畫風”。

去年7、8月份開始，在給各種筆記打類目标簽、建構純分類多模态系統的基礎上，小紅書技術團隊開始更多關注到筆記内容品質評價體系的建立。

也就是說，讓AI學會去判斷什麼樣的筆記更“有用”、更具美學價值。

為此，小紅書技術團隊列舉了兩個比較核心的基礎原子能力：

封面圖畫質美學模型

多模态筆記品質分模型

前文提到的搜尋推薦詞底紋圖檔，其實也是基于這樣的基礎能力實作的。另外，依托于這套内容品質評價體系，還能實作圖文、視訊等不同種類筆記的結構化，搜尋結果頁的去重等等優化功能。

說了這麼多，簡單總結一下，多模态技術在業務場景中的應用，對于小紅書最大的影響就是：讓優質的内容能更容易被需要的人看到，讓呈現在使用者眼前的整體畫風和内容審美得到提升。

如此一來，對于一個以UGC為主的社群來說，使用者與内容生産者之間的正向循環也就更容易達成，對于整體的社群氛圍而言無疑是有利的。

這也正是其筆記内容越來越多元，使用者構成越來越多元的關鍵所在。

小紅書為什麼會變？

前文已經說到，小紅書“畫風”的優化，與當下整個網際網路工業界的技術新趨勢不無關系。

現在，圖文内容和短視訊内容在社交媒體上已然成為主流，而傳統的單一模态，顯然已經難以完整描述這些文本、圖像、聲音交彙的資訊。

融合多個模态的特征資訊，逐漸成為各種實際應用場景，尤其是搜尋、推薦等對内容了解有着高要求的領域中普遍存在的新挑戰。

而小紅書本身在場景和業務角度，早已具備關鍵條件和迫切需求。

首先，從場景角度來看，小紅書上釋出的内容以圖文和視訊為主，天然擁有海量多模态資料。

并且，這些多模态資料背後，還配套有豐富的使用者回報資料。

其次，業務高速發展中的小紅書會面臨各種corner case。比如使用者釋出的内容，不僅涵蓋美食、美妝、家居、科技産品等等諸多不同的類目，還可能出現隻有圖檔的沒有文字的筆記、圖檔+音樂的筆記、沒有标題的短視訊等等情況。

而這些新的挑戰和獨一無二的多模态應用場景，也恰恰給多模态技術的落地提供了充足的空間。

從對内滿足業務需求到對外輸出

實際上，為了應對使用者需求的變化，小紅書内部技術的積累展開得更早。并且如今已經發展到了一個從對内滿足業務需求，到對外實作技術輸出的新階段。

比如今年，小紅書技術團隊就中了2篇CVPR論文，分别涉及視訊檢索和視訊内容了解。

而就在這兩天，小紅書還對外開啟了“AI公開課”，上海交大、北航、上科大的博導教授都參與其中，着實吸引了不少來自學界的關注。

這場名為“REDtech來了”的線上直播，主題正是關注多模态在學界和工業界的最新發展趨勢。

在4月20日舉辦的上半場活動中，北京航空航天大學教授、博導劉偲，上海科技大學資訊學院副教授、博導高盛華，上海交通大學電子資訊與電氣工程學院副教授、博導謝偉迪，以及小紅書多模算法組負責人湯神，圍繞多模态内容了解展開技術分享。

除了前文提到的小紅書多模态技術實踐詳情，還有“AI+音樂”、“跨模态圖像内容了解和視訊生成”，以及“自監督學習在多模态内容了解中的技術與應用”等諸多幹貨分享。

而針對目前多模态研究的産學研現狀，大咖們也分享了不少精彩觀點。

謝偉迪老師談到：

“每個模态中含有不同的不變性和共存性。例如，在文字中，當我們提及“吉他”，它可能對應着視覺中的成千上萬種不同樣子的吉他。我們聽見狗叫的時候，很大機率也會在視覺上看見狗。

是以，合理地利用不同模态資料的特性進行協同訓練，能夠實作更加高效的表征學習，向下遊推理任務進行泛化。”

“弱相關的資料集，就是相關性問題，并沒有弱相關的問題，如果做機器學習的話，一定是從輸入到輸出，中間就是學了一些function而已。”

“模态之間的不對齊一定不是弱相關，一定是會有很強的相關性，不然的話，網絡學不出來。當然我們現在想嘗試去做因果性，大部分我們認為的因果性，很多都是由相關性來決定的。”

當然啦，除了内容了解，随着多模态學習研究熱潮而備受關注的，還有AI内容創作，也就是包括數字人技術在内的多模态人機互動。

比如最近，就有一個名為“Dream by WOMBO”的AI看文作圖工具，連續多日登上Apple Store圖形和設計區榜第一。

而這也正是小紅書在探索的另一大多模态技術方向。

有人翻小紅書種草，有人卻翻到了最新AI技術趨勢

繼續閱讀

組成原理（一）計算機系統概述

從大廠“畢業”後，年輕人找到了新的搞錢方式

小紅書商業化，要押注直播電商？

小紅書需要許多個董潔

抖音“老中醫”，專治小紅書

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

攪局者小紅書虎口奪食：沖上直播帶貨末班車

小紅書還未打通直播電商最後一公裡

TikTok“兄弟”Lemon8崛起

USACO broken necklace 破碎的項鍊

小紅書進退兩難，留給毛文超的時間不多了

預備役網紅講科學，讓科學無路可走

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI

深更半夜我兒子在刷小紅書，他到底在刷什麼？

楊蓉跟風直播，小紅書炮制不出下一個“董潔”