資料與算力的暴力美學
22年末到23年初,生成式AI的橫空出世讓世人無不為之震驚。我自己也一樣,花了很多時間來研究思考這件事:一方面,它在效果上的突破超出了我的預期;另一方面,去掉表面的花裡胡哨,OpenAI其實是在極端專注做一件事:Scaling Law。意思是OpenAI用大量的資料和算力,使用通用的架構(Transformer),然後就是專注All In,用“暴力解法”實作了智能的湧現。用白話講,Sacling Law就是“量變引起質變”,或者說是“資料和算力的暴力美學”。
Scaling Law是深度學習領域重要的技術信仰,2019年更是有人(Rich Sutton, “The Bitter Lesson”)做了精辟總結,基本意思是:算法雕花用處不大,更多資料-更多算力才是王道。
Scaling Law也一直是我的技術直覺。從2021年開始的“下一代廣告系統”項目(廣告系統2.0)就是按照這個思路去做的:用更大的模型、更多的資料、更強的算力來去做廣告效果的預估(CTR, CVR等)。以及,生成式AI出來之後我首先做的就是把騰訊的算力集中起來;通過搭建基礎設施(機器學習平台)來讓各團隊可以集中、高效地使用這些算力。于是,在這之上才有了“騰訊混元”模型,現在也是我在負責。
生成式AI給了我很多啟示。一方面,它更堅定了我對于Scaling Law的信仰,另一方面也讓我在思考:如何進一步運用大語言模型的技術和思維方式到廣告系統裡來。近期釋出的“廣告系統3.0”算是一個初步嘗試。
讓廣告系統做到“真正的了解”
生成式AI最讓人驚訝的是:它懂。生成式AI可以了解使用者說的話,它不是“鹦鹉學舌”,而是給人一種“它真的懂了”、 “它有智慧”的感覺。我們先且不去争論生成式AI是否有真的智慧的問題;但可以知道的是,我們之前的廣告系統它根本不懂。廣告系統3.0的核心,就是想辦法讓廣告系統“多懂一些”。隻有廣告系統真的“認識了”、“懂得了”商品、廣告素材和使用者,才能做到提升投放确定性,減少投放“玄學”。
讓廣告系統“懂得廣告”的第一件事是“新廣告ID”。廣告ID是廣告系統最底層的邏輯,也是廣告系統了解每個廣告素材的起點。過去遺留的廣告計劃-廣告-素材的多層複雜結構造成了廣告ID極端複雜,關聯到每個ID上的資料稀疏甚至打架,讓系統難以了解。以及,由于系統的不确定性,各家優化師都在大量建立廣告素材,行内叫“堆基建”:基本操作就是對素材做一丁點微調再來“賭一次”。這實際上就是在鑽“大模型不了解廣告,不了解商品”這個空子。
在複雜的ID體系+大量堆素材基建的形态下,閱聽人的行為被大量攤薄稀釋了。是以具體到每個廣告的相關資料其實很少,而指望用攤得過薄的資料做出好的預測是不可實作的。于是我們要做的就是通過新ID體系,把同樣商品——類似素材的廣告進行“歸堆”,這樣在模型預測的時候就有更多資料,廣告投放也會有更高穩定性,更好效果。
我們看到,在廣告系統3.0上線之後,騰訊廣告的廣告數從770萬降到70萬左右,投放穩定性和确定性都有了明顯提升。
第二,“歸堆”的前提是對于“廣告内容的了解”。也就是讓廣告系統可以通過分析素材來了解每條廣告中究竟要賣什麼商品,更适合哪些類型的人群,這樣才能把相似的廣告進行歸類。在這裡,系統不僅要了解廣告的題目、文案,也要了解圖像和視訊。這背後在支援的便是“騰訊混元大模型”的“多模态了解能力”。
展望未來,在“提升系統了解能力”這件事情上我們還有很多要做的事情。Transformer給我的啟示是:用最簡單、通用的架構來容納各種不同的資料形式。于是,我們也應該把廣告域的浏覽、點選、加購這類資料和其他類型的基礎訓練資料一起,以更通用的架構來搭模組化型,這或将可以讓廣告系統在未來實作“智能的湧現”,進一步打開效果的天花闆。
從管理過程到管理終局
回歸消費者的本質需求
随着廣告系統的更新,模型的能力會越來越強,但模型永遠無法端到端解決所有問題。在這個過程中,優化師、設計師、投放代理并不會消失,但他們的工作性質正在開始在轉變。
回想一下之前優化師的工作:很多時候是需要高速完成投放操作,成批大量生産素材……在這個過程中,優化師的工作本身和最終消費者的訴求是脫節的:他們并沒有時間,也沒有被要求去了解商品和消費者的訴求。随着AI能力的增強,優化師将會從這些簡單重複性的勞動中解放出來,更多從商品、商業模式、消費者的角度去思考和決策。
歸根結底,投放廣告本身不是目的,廣告的目的是最後的銷售。
作為品牌、代理商,則要從關注廣告投放的過程中解放出來,更多來思考如何滿足消費者的本質需求:産品上的、品牌上的、商業模式上的。也就是“從管理過程到管理終局”。
首先,是素材本身。現在有些行業AIGC素材占比已經占到20%;但這并不意味着設計師失去工作,而是要求設計師運用對商品和對消費者的了解能力,在大量AI素材中選擇和共創;得到最适合品牌、最能打動消費者的内容。以及,品牌和代理商要根據素材的轉化資料,來反哺和指導AI/大模型未來的創意生産。
第二,商業模式與鍊路。“廣義商品”-“賣東西”這件事情在不同行業有非常不同的商業模式和鍊路:比如汽車、地産銷售要先留資,教育行業先要轉化低價課再轉化正價課,遊戲的目标是遊戲内部的購買或廣告曝光……這些商業模式的本質都是在不斷發掘消費者的需求。但模型本身并不能直接了解這些商業模式;是以如果希望模型可以預估準确,那就需要我們來明确定義鍊路和優化目标,讓模型從頭到尾“了解”商業模式和最終訴求。
第三,全面資料化。剛才提到的無論是素材還是鍊路,核心都是要讓模型去了解商品、了解素材、了解消費需求。這一切的核心是資料。如果我們的銷售流程是純線下的、無記錄的,那麼“巧婦難為無米之炊”:模型無法去了解沒有/缺乏資料的商業鍊路,更無法了解廣告在整個銷售流程中發揮的作用。是以對于模型來講,完整擷取全鍊路資料對于效果優化至關重要。以直播電商為例,隻有有了完整的預約-觀看-點贊-加購-付款-物流-退貨的全流程資料,模型才能真正了解消費者的訴求。是以,對于品牌和代理來講,第一件要做的事是對于銷售流程的數字化,之後第二步則是把這些資料與平台的其他資料做有效合作共建,這樣才能充分實作商業價值。
與此同時,作為平台的責任,則是更好地與廣告主、代理商做好配合:提供穩定的投放體驗,不斷提升投放效果,打造更有效的資料合作模式, 提供更好用高效的創意工具……以及最重要的:做底層技術創新。我認為這條路的主線就是在scaling law上不斷前進,把更多樣的、更大量的、更準确完整的資料給到廣告模型;同時更集中地提供算力、時延等資源給到關鍵的模型預估環節。相信順着這條路走下去,廣告模型也會通過量的積累,實作質的飛躍。
在AI時代重新定義人的價值
退一步,我們其實已經可以明顯感受到,AI時代的工作一定是人與AI配合完成的。于是一個自然的問題是:人和AI各自應該做哪些工作?人與AI應該如何配合?
如果一言蓋之,AI擅長的是大量并行的重複性的工作;而人更擅長不确定性高、創新性強、洞察人性的工作。AI可以做大量的資訊收集,但決策還是需要人來做。
那麼回到廣告行業,随着模型能力的提升,我希望大量的優化師和營運人員可以從低效的重複勞動中解放出來,真正來思考如何滿足消費者、廣告主的訴求的事情:更明确的品牌形象,更吸引人的素材内容,更順滑的轉化鍊路和商業模式,更好的産品,更優質的服務……而AI則可以在那些原來需要大量人工的場景中發揮作用:比如素材的制作與修改,修改出價,資料挖掘與分析……
最後,AI會成為一個管理學問題。廣告行業的管理者們馬上就要去思考:優化師、設計、傳統媒介在新形勢下的職業發展問題;以及以模型為中心的營銷領域組織架構問題。如果再把眼光放遠一些:未來的大多數工作一定是AI與人的混合團隊完成的。那麼作為公司高管,我們應該如何管理這樣一隻混合團隊?哪些工作AI可以更好完成,哪些工作适合人來做?是否應該讓AI來管理AI?是否應該讓AI管理人?哪些決策可以下發給AI?哪些必須人工來做?……這些問題是值得我們每一個管理者深入思考的問題,因為未來3-5年這些事情都會變成現實。以及,我們也要和AI”換位思考“,從AI的角度出發,找到那些最适合AI完成的工作。這樣我們才可能讓公司,讓業務進化到“AI原生”,發揮AI最大、最合适的價值。
蔣傑 | 文
蔣傑,博士,2012年加入騰訊,現任騰訊公司副總裁。蔣傑作為騰訊企業發展事業群副總裁,全面負責騰訊廣告平台産品技術管理工作;同時兼任技術工程事業群副總裁,管理騰訊AI實驗室、資料平台、資料庫平台、機器學習平台和計費平台。
蔣傑博士在海量計算、分布式架構、資料挖掘、機器學習等方面擁有超過十年以上的從業經驗,曾多次受邀在中國系統架構師大會、中國雲計算大會做主題演講。蔣傑作為騰訊通用大模型的負責人,在2023年9月正式釋出”混元”大模型。