天天看點

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

作者:雷峰網
中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

作者 | 西西

編輯 | 陳彩娴

2月21日至25日,第15屆國際網際網路搜尋與資料挖掘大會(WSDM 2022)線上上召開,來自清華大學計算機系的研究團隊獲得了大會唯一的最佳論文獎!

這也是自大會創辦以來,由來自中國的科研團隊首次獲得該獎項。

WSDM(讀音為「Wisdom」)由國際計算機學會(ACM)旗下的資訊檢索(SIGIR)、資料挖掘(SIGKDD)、資料庫(SIGMOD)與網絡資訊處理(SIGWEB)等四個專委會共同舉辦,在資料挖掘領域享受崇高的學術聲譽。

此外,除了最佳論文獎,WSDM大會還公布了「時間檢驗獎」的獲獎工作——香港中文大學團隊的“Recommender systems with social regularization”(WSDM 2011)。

1

WSDM最佳論文獎

據大會官網資訊,清華大學獲得今年WSDM唯一最佳論文獎的工作是“Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval”(基于有限制聚類的離散表示學習提升稠密向量檢索性能)。

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

論文連結:https://arxiv.org/pdf/2110.05789.pdf

論文作者為:詹靖濤,毛佳昕,劉奕群,郭嘉豐,張敏,馬少平。第一作者為清華大學計算機系博士生詹靖濤,通訊作者為清華大學計算機系劉奕群教授,相關成果由清華大學、中國人民大學、中科院計算所等機關共同完成。

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

圖注:劉奕群教授

随着深度學習和預訓練語言模型等的廣泛應用,稠密向量檢索已經成為網際網路搜尋過程中最重要和頻繁的資料操作之一,但已有的稠密向量檢索模型與傳統索引檢索模型相比大幅增加了存儲開銷與時間複雜度,造成了性能提升的重要瓶頸。

針對上述問題,這篇論文提出了一種通過有限制聚類(Constrained Clustering)改進稠密向量檢索過程的檢索模型RepCONC。

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

圖注:論文提出的檢索模型訓練流程圖

該模型基于有限制聚類方法端到端地聯合優化文本編碼器和向量量化過程,RepCONC限制稠密向量被均勻地配置設定到不同的量化中心,進而大幅提升了稠密向量表示的可辨識性,改善了檢索性能。

論文從理論上證明了該限制的重要性,并使用最優傳輸理論推導了有限制聚類過程的近似解以提升算法效率。RepCONC可以在業界通用的向量倒排檔案系統(IVF)上運作,即使脫離GPU僅使用CPU也能取得較好的索引壓縮與檢索效果,比傳統稠密向量檢索方法在壓縮比、檢索性能、時間效率等方面均有顯著提升。

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

圖注:限制聚類過程的示意圖

除了每年選出的唯一最佳論文,大會還分别選出了3篇最佳論文提名(Best Paper Award Runner-Ups):

  • Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model(東京工業大學)
  • Evaluating Mixed-initiative Conversational Search Systems via User Simulation(提契諾大學)
  • The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?(南洋理工大學)

2

時間檢驗獎

獲得WSDM 2022「時間檢驗獎」的工作是來自香港中文大學的“Recommender Systems with Social Regularization”。

大會給出的頒獎理由是:

推薦系統已成為學術界與工業界經久不衰的研究課題。委員會選中這篇論文,是因為它的重要性和對領域的影響力。該論文深入探讨了信任和推薦之間的關系,認識到使用者不一定與他們信任的人有相似的品味,但同時又肯定了信任對推薦的重要性。論文作者通過為多個不同的推薦任務建立最合适的社交聯系,進而幫助确立了将社交信号納入推薦系統的價值。是以,這篇論文不但産生了強大的影響力(在 WSDM 時間檢驗獎的所有提名中被引用次數最多),還提前預見了信任和透明度在推薦系統中的重要性,在近日已成為一個重要的話題。

該論文在2011年WSDM 2011接收。

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

論文位址:https://dennyzhou.github.io/papers/RSR.pdf

在這篇工作中,香港中文大學計算機系的研究團隊開創性地研究了當時少人問津、現下火熱的「社交推薦」問題。目前,社交推薦已成為各個網際網路産品的必備技能,微網誌、抖音、淘寶、微信「看一看」等等都有該功能。

他們基于使用者的社交好友資訊(從豆瓣等平台挖掘資料),提出了兩種社交推薦算法,采用社交正則化項限制矩陣分解目标函數,來幫助提高推薦系統的預測準确性。實驗結果表明,他們的方法非常通用,适用于解決多種類型的信任感覺推薦問題。

不僅如此,該論文還會反向思考,意識到:社交關系的存在可能會降低推薦品質。從單一信任出發亦可能産生準确率較低的推薦,比如擅長研究球鞋的朋友不一定擅長電影推薦。是以,作者們又很早就用相似度函數,設計了基于不同推薦任務來識别目标朋友群的算法,以對社交系統進行更真實的模組化。

在論文中,他們提出:他們相信,随着線上社交網站的快速發展,基于社交的研究會越來越流行。事實證明,确實如此。

參考連結:

1.https://www.wsdm-conference.org/2022/

2.https://mp.weixin.qq.com/s/FLtWupAxoqAthXYQOa3YrQ?v_p=89&WBAPIAnalysisOriUICodes=10000001&launchid=10000365--x&wm=3333_2001&aid=01A3NNUgUONWBBii_bsE-e7BIuQxBjrg6ihZ9c4RkfEruJoPI.&from=10C2093010

中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

雷峰網

繼續閱讀