天天看點

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

算法是否能服務人在擷取資訊時對效率提升、公平發展的訴求?

今年,在中國人民大學高瓴人工智能學院舉辦的“推薦算法社會價值與可持續發展”研讨會上,我們釋出了《算法向善與個性化推薦發展研究報告》(下稱《報告》)。

在這份算法科普性報告中,課題組圍繞這些熱點問題進行了探讨。

1. 算法是什麼?我們為何需要算法?

網際網路資料中心釋出的《資料時代2025》報告顯示,全球每年産生的資料将從2018年的33ZB(十萬億億位元組)增長到175ZB,相當于每天産生491EB(百億億位元組)的資料。

在本質上,算法是“以數學方式或者計算機代碼表達的意見”。其中,推薦系統就是一個資訊過濾系統,幫助使用者減少因浏覽大量無效資料而造成的時間、精力浪費。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

國小時用數學公式解決“雞兔同籠”問題,就運用了算法思維。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

推薦算法幫助“寶媽”節省資訊搜尋時間2. 推薦技術發展曆史上的關鍵事件有哪些?

“資訊過載(Information Overload)”是在上個世紀80、90年代就已經存在的概念。随着資訊技術和網際網路的快速發展,人類從資訊匮乏時代走向了資訊過載時代。

《報告》研究指出,早期的研究提出了通過資訊檢索和過濾的方式來解決這個問題。

到了上世紀90年代中期,研究者開始通過預測使用者對推薦的物品、内容或服務的評分,試圖解決資訊過載問題。推薦系統由此也成為獨立研究領域出現了。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

推薦系統發展曆史3. 推薦系統的核心技術有哪些?

在《報告》看來,推薦系統發展至今,其核心技術可大緻分為“基于協同過濾的推薦方法”、“基于内容的推薦方法”,以及“混合推薦方法”。

基于協同過濾的推薦方法,本質是根據相似的使用者具有相似的喜好,推薦給他們喜歡的物品、内容或者服務。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

基于協同過濾的推薦方法

基于内容的推薦方法:根據項的相關資訊(描述資訊、标簽等)、使用者相關資訊及使用者對項的操作行為(評論、收藏、點贊、觀看、浏覽、點選等),來建構推薦算法模型。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

基于内容的推薦方法

混合推薦方法:衡量各推薦方法的利弊,揚長避短,通過權重、切換、混雜、特征組合等方式避免或彌補各推薦技術弱點,進一步提升推薦方法性能。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

混合推薦算法4. 什麼是個性化推薦算法?

縱觀推薦系統的發展曆史,可将其大緻分為非個性化推薦系統和個性化推薦系統。

其中,個性化推薦系統,就是為每一個特定使用者提供特定的服務,實作‘千人千面’,服務個性化訴求。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

在個性化推薦算法下,不同人搜尋“平劇”一詞結果不同5. 推薦算法,是否注定會導緻資訊窄化?

在外界的印象裡,個性化推薦就像漏鬥一樣,會将推薦内容與使用者相比對,傾向于向使用者推薦高度符合其偏好的内容,緻使推薦的内容越來越窄化。

但與外界的固有認知相反,《報告》認為在行業實踐中,網際網路應用(特别是位于頭部的大型平台)有追求算法多樣性的内在動力。

在對行業内代表性應用的資料分析後,《報告》表明,閱讀内容的類型數量是否夠多、所閱讀内容類型的分散程度是否夠高,與使用者是否能長期留存關聯密切,呈正相關。上述兩項名額對使用者長期留存的作用,可以與資訊的展現總量、使用者的停留時長、使用者閱讀量等名額的影響相媲美。

推薦技術并不是單純地“投其所好”。在一些專家看來,在推薦已知的使用者感興趣内容基礎上,如果能深入激發、滿足使用者的潛在需求,那麼算法就能更好地滿足人對資訊的多元度訴求。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

貴州返鄉創業青年丁浪用抖音号@黔東農倉 記錄腌蒜苔制作過程。在推薦系統的幫助下:1)視訊能被準确推薦給對鄉村美食、農特産品感興趣的使用者;2)使用者能順勢在同屏搜尋框中搜尋、了解蒜苔烹饪相關内容,擴充相關知識。6. 算法如何服務人對安全的訴求?

在人工智能技術快速發展的今天,内容安全一直是公衆關注的重點。

《報告》觀察發現,目前很多内容創作與分發平台,從創立之初就将使用者和内容安全問題視為最高優先級問題。

以今日頭條為例,在内容安全技術方面采用了鑒黃模型、謾罵模型以及低俗模型等内容識别技術。抖音安全中心則自主研發反欺詐模型、風控政策,結合抖音産品功能、内容屬性、使用者行為特征,對欺詐行為進行主動攔截。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

抖音安全中心通過算法技術主動攔截欺詐行為7. 推薦技術如何服務人對公平的訴求?

《報告》認為,推薦系統中的“公平”是站在不同角度定義問題。

比如在招聘網站上,求職者方可能将公平定義為“相同的學曆和能力可以被推薦類似的工作,而不受國籍、種族和性别等偏見”;對于招聘方,“公平”可能為“系統可以将他們的招聘資訊推給優質的求職者,而不會因為公司的背景等因素,隻将招聘資訊推給不太合适的求職者”。

從關注的角度出發,《報告》認為公平性可分為“使用者角度”、“物品角度”這兩種公平性。

使用者偏好放大是針對使用者方(user)的公平性問題,展現為使用者搜尋了一樣東西後,接下來一段時間的推薦都與該物品相關。流行度偏差,則通常是針對物品方(items)的公平性問題,展現為推薦系統更多推薦較為流行的物品,而不流行的物品有較少的機會被推薦或展示,造成推薦系統中的“馬太效應”。

目前,學界對算法公平性的研究與探讨正不斷深入。

麻省理工學院(MIT)在2021年釋出的十大突破技術(10 Breakthrough Technologies)中指出,TikTok推薦算法能夠使普通人發的内容有機會受到名人般的關注并流行起來,這是内容公平性的展現;而需求較為小衆、細分的使用者,也能看到符合自己興趣的内容,則是使用者角度公平性的展現。

“推薦算法”究竟是什麼?這篇科普報告幫你快速了解
“推薦算法”究竟是什麼?這篇科普報告幫你快速了解

在抖音等國内短視訊直播平台上,也能看到更多推薦系統服務“使用者”、“物品”公平的案例

來源:中國人民大學高瓴人工智能學院

繼續閱讀