騰訊廣告，一個龐大的 AI「練兵場」

這是陶明第三次參加騰訊廣告算法大賽。他來自吉林大學，這一賽事恰好也貫穿了他的研究所學生生涯。他從研一開始參加第一屆大賽，到如今他已研三畢業，騰訊廣告算法大賽也步入了第三年。

除了通過大賽交流學習外，驗證自身對于算法的思考成為他參加本次廣告大賽的重要因素。談起這三年「打比賽」的經曆他深有感觸：最開始選手都采用相類似的模型，如今模型差異與多樣化越來越明顯；最開始大家主要使用 XGBoost 機器學習算法做預測，而如今更多使用效果更優的

LightGBM

算法，同時深度神經網絡也成為選手嘗試的對象。

陶明也是騰訊廣告算法大賽的「常勝将軍」，第一屆比賽團隊斬獲季軍，第二屆團隊獲得冠軍，今年第三屆又摘得季軍，可謂碩果累累，小有收獲。或許正是大賽所帶來的積澱與成就感，他也選擇以一名算法工程師的身份作為自身職場的開端。

而在騰訊廣告算法大賽的背後，騰訊廣告正試圖以大賽為紐帶，連接配接工業界和學術界，由騰訊廣告提供經過脫敏處理的實際業務資料和真實應用場景，結合學術界的技術探索，進而推動騰訊廣告乃至引領整個網際網路廣告行業的發展。

1. 從真實業務場景出發

在網際網路廣告中，廣告主十分關心一件事——如何用盡可能少的成本達到預期的投放效果。此時，廣告曝光預估就顯得尤為重要，它是一種更直覺的投入産出量化參考工具，廣告主可以根據曝光預估結果提前調整廣告投放出價、定向、時段等設定，制定合适的廣告投放政策。

更準确的廣告曝光預估對廣告主而言無疑是一把「利器」，能夠幫助廣告主達成更好的傳播效果，并節省試錯的時間和金錢成本。

但要把廣告曝光預估做到極緻，對于行業而言并非易事。以騰訊廣告為例，它涉及社交、遊戲、音樂、視訊、新聞等多元複雜的場景，每個場景都有較大的差異，以騰訊新聞為例，這一産品具有很強的媒體屬性，往往一個熱點新聞發生後，形成使用者人群的流量波峰，進而導緻不同時間段内流量有較大的波動，廣告曝光的量級極有可能産生巨大變化，這都給預估工作帶來很大挑戰。

是以，騰訊廣告從實際業務出發，将廣告曝光預估作為本屆廣告算法大賽的考題，開放源于業務的脫敏廣告資料，并提供算力支援，以期在學術界點燃星星之火，通過 AI 和機器學習解決實際問題。這一點與前兩屆比賽可謂一脈相承。

騰訊廣告副總裁羅征

騰訊廣告副總裁羅征解釋，「廣告曝光預估是一個重要工具，并且這也是廣告主們最關心的工具之一，曝光預估準确能對廣告投放的操作效率有很大提升，是以我們選擇了這一内容作為今年的賽題。」

要想打造一個預測模型，首先要了解騰訊廣告的業務邏輯。

騰訊效果廣告采用的是 GSP（Generalized Second-Price）競價機制，廣告的實際曝光主要取決于兩個因素，廣告的流量覆寫大小和在競争廣告中的相對競争力水準。

其中，廣告的流量覆寫取決于廣告的人群定向（比對對應特征的人群數量）、廣告素材尺寸（比對的廣告位）以及投放時段、預算等。而廣告的競争力水準主要受出價、廣告品質、使用者體驗等因素的影響。

綜上，前者決定廣告能參與競争的次數以及競争對象，後者決定在每次競争中的勝出機率。二者最終決定廣告每天的曝光量。

而對于騰訊廣告算法大賽的參賽選手而言，他們首先需要将廣告業務語言來轉化為可量化的數值名額，即将廣告設定的人群定向、投放時段、選擇的流量版位、競價方式、出價等轉化為描述覆寫使用者人群大小、競争環境激烈程度以及自身競争力相對水準等數值名額。

選手通過曆史中各類廣告在競價系統中的曝光曆史進行訓練，以學習出競争環境的變化趨勢以及廣告競争力水準和最終曝光效果的隐藏聯系，達到預估廣告未來曝光的目标。

一位闖入決賽圈的統計學研一學生表示，「比賽中我們遇到的最大挑戰是對廣告業務的了解，另外因為非科班出身，我們在算法上的基礎較弱。」

盡管各個參賽團隊面臨的問題不同，但對于業務場景的了解，對于算法模型的思考都是比賽考核的重點。此外，大賽除了正常的準确性名額考核外，還加入出價單調性相關的評估名額，以此凸顯對實際業務場景的重視。

2. 從象牙塔走向練兵場

本屆騰訊廣告算法大賽共吸引了 1 萬餘名海内外選手參與，經過近 3 個月的角逐，10 支隊伍進入決賽現場，在騰訊濱海大廈展開最後 PK。

機器之心發現，進入決賽的選手多在研究所學生階段。頗為有趣的是，本屆比賽除了學生選手外，還有多個工業界團隊參與，學界工業界一起打擂。

透過 10 支隊伍的現場答辯展示，我們看到各個隊伍基于對賽題的了解，制定相應的政策，進而提取特征，搭建自身的模型。今年決賽隊伍使用模型的共性是，大多數團隊都使用了 LightGBM 機器學習模型，以及深度神經網絡（NN），并且機器學習的權重會更高，不同之處在于在主流架構基礎上，各個團隊探索了多樣化的算法應用。

來自甜橙金融的工業界團隊并沒有使用流行的 NN 模型，他們主要基于 LightGBM 模型進行預測，也取得了決賽第四的成績。

決賽第七團隊「人工智障」的一位選手分享道，最開始他一直在探索 NN 模型在廣告曝光預估中的應用，但嘗試過後發現 NN 模型的效果并不如隊友用 LightGBM 做出的效果，最終他們通過近 3：7 的權重進行模型融合，取得了不錯的效果。

冠軍隊伍「魚遇雨欲語與餘」答辯環節

最為值得關注的是，由哈爾濱工業大學、中山大學、武漢大學組成的三人團隊「魚遇雨欲語與餘」（有趣的名字），不但在複賽中一路保持領先，更是獲得決賽的和答辯單項獎雙料冠軍。模型方面，除了使用 LightGBM 外，他們使用了 Word2Vec 和 DeepWalk 無監督學習的神經網絡，此外他們還将模型與規則融合，進一步優化了廣告預測效果。

他們的一個創新點在于，通過基于 Key-Value Memory 的浮點數映射成向量的方法，相較于直接使用浮點數，保留了更多語義資訊。

伊利諾伊大學芝加哥分校傑出教授俞士綸（Philip S. Yu）點評道，冠軍團隊在技術上面做的最好，他們綜合靈活使用了多元度的資料，這類似他提倡的「廣度學習」。

伊利諾伊大學芝加哥分校傑出教授俞士綸（Philip S. Yu）

在資料挖掘方面，廣度學習提倡不僅要挖得深，還要挖得廣，重點是将不同種類的大型資訊融合在一起，并在一個統一的分析中，對融合資訊進行跨次元的資料挖掘。

俞教授稱，「我們在解決實際問題時，第一個就是要決定什麼資料是有關的，這些資料如何結合在一起，用這樣的（廣度學習）方法來解決問題。」

來自亞利桑那州立大學的劉歡教授（Huan Liu）也表示，通過此次算法大賽，他看到了中國在資料挖掘領域不斷取得的領先成果和未來巨大的發展空間。

在本次比賽中，他非常欣喜地看到參賽選手把社交媒體資料作為應用對象。劉教授認為，社交媒體蘊含着巨大的資料量，除了被應用于算法競賽當中，同樣也是各種真實場景中實踐應用和研究的對象。他很期待在場的選手和同樣喜愛算法的年輕人們能利用資料來解決真實世界中的問題。

亞利桑那州立大學計算機科學與工程教授劉歡（Huan Liu）

3. 從練兵場到學界業界融合

可以看到，廣告曝光預估這一實際業務問題，為 AI 與機器學習提供了很好的實戰平台。然而廣告曝光預估隻是騰訊廣告龐大業務的冰山一角。

據機器之心了解，借助覆寫全國 10 億+網民的騰訊産品體系，騰訊廣告的資源位覆寫微信、QQ、新聞、遊戲、視訊等衆多場景，支撐日均百億級曝光，它也是騰訊公司内部資料處理量要求最高的業務之一。

簡言之，騰訊廣告是大規模 AI 技術發展的最重要場景之一。然而騰訊的社交與遊戲太過搶眼，廣告業務一直處于悶聲做事的狀态，而實際上它是一個被忽視的 AI「練兵場」。在騰訊 2019 Q1 的财報中，網絡廣告業務的收入同比增長 25% 至人民币 133.77 億元。社交及其他廣告收入增長 34% 至人民币 98.98 億元，并且增長穩健。

騰訊廣告副總裁羅征談道，舉辦騰訊廣告算法大賽的其中一個重要目的，也是希望推動更多的算法達人一起參與廣告業務的技術探讨中，推動交流和進步。

通過大賽這樣一個紐帶，騰訊廣告正在推動工業界和學術界結合。一方面騰訊廣告提供真實應用場景和經過脫敏的業務資料，為學術界指明研究方向，推動 AI 與機器學習技術在廣告中的研究；另一方面參考學術界的研究成果，騰訊廣告能夠進一步用技術解決實際問題，推動廣告業務效率的提升，進而形成一個正向循環。

俞士綸教授也表示，高校往往缺乏大規模的研究資料，騰訊廣告提供的脫敏資料，能夠讓學生用資料挖掘或機器學習的方法解決實際問題，真正做到學以緻用。

騰訊廣告進階應用研究員石瑞超

本次決賽現場，騰訊廣告進階應用研究員石瑞超也展示了廣告場景下的 AI 視覺算法應用。AI 可以應用在廣告生成、廣告稽核、廣告投放等領域，進而提升效率。以廣告稽核為例，騰訊廣告每天需要稽核的廣告數達 10 萬+，而相關的稽核規則有 80 條之多，繁瑣複雜的工作量亟需通過技術力量來減輕人工負擔。将 AI 用于智能稽核，騰訊廣告可以高效進行侵權識别、違規識别等，能夠真正提升稽核效率和誤審率。

羅征還舉例道，騰訊廣告在日常工作中也有一些有趣的研究，比如用 AI 來自動評估廣告創意的美感，這樣可以在滿足廣告主需求的同時，提升使用者的「審美體驗」。

而針對學術界，目前騰訊廣告大賽已經沉澱下每次大賽面向學生群體提供的脫敏資料集，可以提供給非盈利的學術機構進行研究。

羅征也表示，考慮到資料集對于學術界和工業界探索技術進步的重要意義，這也成了一件值得期待的事情。

騰訊廣告，一個龐大的 AI「練兵場」

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

【python】【資料處理】畫多元資料分布圖

hdu7108哈希