天天看點

《推薦系統:技術、評估及高效算法》一1.1 簡介

本節書摘來自華章出版社《推薦系統:技術、評估及高效算法》一書中的第1章,第1.1節,作者 [ 美]弗朗西斯科·裡奇(francesco ricci)利奧·羅卡奇(lior rokach)布拉哈·夏皮拉(bracha shapira)保羅 b.坎特(paul b.kantor),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

推薦系統(rs)是一種軟體工具和技術方法,它可以向使用者建議有用的物品[60,85,25],這種建議适用于多種決策過程,如購買什麼物品、聽什麼音樂、在網上浏覽什麼新聞等。

“物品”是用來表示系統向使用者推薦内容的總稱。一個推薦系統通常專注于一個特定類型的物品(如cd或新聞),是以它的設計、圖形使用者界面以及用于生成建議的核心的推薦技術都是為特定類型的物品提供有用和有效的建議而定制的。

推薦系統主要針對的是那些缺乏足夠的個人經驗和能力的人,他們無法評估潛在的大量可供選擇的物品,比如,某個網站提供的商品[85]。一個典型的例子是圖書推薦系統,它幫助使用者挑選一本書來讀。在亞馬遜,網站采用個性化推薦系統為每個客戶進行推薦[47]。由于推薦通常是個性化的,不同的使用者或使用者組接收的建議是不同的。當然也存在非個性化推薦。它們都是非常簡單的,通常出現在報紙或雜志上。典型的例子包括書籍和cd等的top 10推薦(最熱銷的前10名)。雖然在某些情況下它們可能是有用和有效的,但這些類型的非個性化推薦通常不是推薦系統研究要解決的問題。

個性化推薦最簡單的形式是提供一個排好序的物品清單。通過這個排序清單,推薦系統試圖根據使用者的偏好和其他限制條件來預測最合适的産品或服務。為了完成這樣的計算任務,推薦系統收集使用者的喜好,這種喜好是顯式的,如為産品打分,或通過解釋使用者的行為做出推斷。例如,推薦系統可能會把通路某個特定商品詳情頁的行為作為該使用者喜愛這個首頁上的商品的隐式信号。

推薦系統的發展源于一個很簡單的現象:人們在做日常工作和日常決策時總是依賴于其他人提供的建議[60,70]。例如,要選擇一本書的時候,通常依靠朋友的推薦;雇主依靠推薦信做招聘的決定;當選擇觀看的影片時,人們傾向于閱讀并且依賴影評家寫在報紙上的影評。

為了模拟這種行為,第一個推薦系統通過算法将社群使用者的建議推薦給一個活躍使用者,也就是在尋找推薦的使用者。推薦的物品是這些相似使用者(那些品味相似的使用者)喜歡的。這種方法稱為協同過濾,它的理論依據是,如果這個活躍的使用者以前與一些使用者有相似愛好,那麼來自這些相似使用者的其他推薦應該是相關的,這些推薦也是此活躍使用者感興趣的。

随着電子商務網站的發展,迫切需要出現一種能過濾所有可用的替代品的推薦系統。讓使用者從這樣紛繁複雜的物品(産品和服務)中作出最恰當的選擇是非常困難的。

網際網路資訊的爆炸式增長和種類的紛繁複雜以及新興電子商務服務(購買産品、産品比較、拍賣等)的出現經常壓得使用者喘不過氣來,導緻使用者無所适從。這種選擇多樣性不但沒有産生經濟效益,反而降低了使用者滿意度。大家都明白可選擇是好的,但是太多的選擇就不是很好了。實際上,随着選擇對自由、自治和自我決定帶來的影響變得過度,我們就會因為選擇而覺得自由是一件痛苦的事情[96]。

近年來,推薦系統被證明是一種解決資訊過載問題的有效工具。從根本上來講,推薦系統是通過為使用者指引該使用者不熟悉的新物品來解決資訊過載現象的,這些新物品或許與該使用者目前的需求相關。對于使用者每一個清晰表達的請求,根據不同的推薦方法和使用者所處的環境和需求,推薦系統利用存儲在自定義資料庫的關于使用者、可用物品以及先前交易的資料和各種類型的其他知識産生推薦内容。然後使用者可以浏覽推薦的内容。使用者可能接受也可能不接受推薦,也可能馬上或者過一段時間提供隐式或者顯式的回報。所有這些使用者的行為和回報可以存儲在推薦資料庫,并且可用于在下一次使用者和系統互相作用時産生新的推薦。

如上所述,相比于其他經典的資訊系統的工具和技術(如資料庫或搜尋引擎),推薦系統的研究是相對較新的。在20世紀90年代中期,推薦系統成為一個獨立的研究領域[35,60,70,7]。近年來,下面的事實說明人們對推薦系統的興趣大大增加:

對于一些有很高評價的網站,如amazon.com、youtube、netflix、yahoo!、tripadvisor、last.fm和imdb,推薦系統扮演了重要的角色。此外,許多媒體公司正在開發和部署推薦系統作為它們提供給使用者的服務的一部分。例如,netflix(一家提供線上電影租賃服務的網站)向第一個能夠成功地顯著提高推薦系統性能的團隊獎勵了100萬美元[54]。

本領域有專門的正式會議和相關的專題研讨會。在這裡專指acm推薦系統會議(recsys),該會議成立于2007年,現在是新的推薦技術的研究和應用的頂級年度盛會。此外,像資料庫、資訊系統和自适應系統領域等更傳統的大會也經常會包括以推薦系統為主題的會議。在這些會議中,值得一提的是acm sigir(special interest group on information retrieval)、umap(user modeling,adaptation and personalization)和acm sigmod(special interest group on management of data)。

世界各地的高等教育機構在大學生和研究所學生的課程中已經提供專門研究推薦系統的課程;在計算機科學會議中關于推薦系統的專題報告也引起了人們的極大關注;最近一本介紹推薦系統技術的書也已經出版[48]。

在學術期刊中,已經有一些特刊專題涵蓋推薦系統領域的研究和發展。期

刊中包括推薦系統專刊的有:《ai communications》(2008)、《ieee intelligent systems》(2007)、《international journal of electronic commerce》(2006)、《international journal of computer science and applications》(2006)、《acm transactions on computer-human interaction》(2005)和《acm transactions on information systems》(2004)。

本章簡要介紹了推薦系統的基本思想和概念。主要目标并不是對推薦系統給出包羅萬象的綜合介紹和概覽,而是用一個連貫和結構化的方式描述這本手冊的章節内容,以此幫助讀者了解這本手冊提供的極其豐富和詳細的内容。

本書分成五部分:推薦相關技術、推薦系統的應用和評價、推薦系統的互動、推薦系統和社群、主流算法。

第一部分介紹目前建構推薦系統最普遍使用的技術,例如,協同過濾、基于内容的資料挖掘的方法和上下文相關的方法。

第二部分概述了已用于評價推薦品質的技術和方法。這一部分還涉及推薦系統設計與實踐方面;描述設計和實施推薦系統的注意事項;為選擇更合适的算法提供準則。這部分還考慮到可能影響推薦系統設計(域、裝置、使用者等)的方面。最後是評估開發的推薦系統所用的方法、挑戰和評測名額。

第三部分包括一些涉及推薦系統如何呈現、浏覽、解釋和可視化等若幹問題的論文。這裡讨論的技術使推薦過程更加結構化以及具有可互動性。

第四部分讨論的是一個相當新穎的話題,利用各類使用者生成内容(ugc,如标簽、搜尋查詢、信任評價等)來産生類型新穎且更可信的推薦結果。盡管這個話題相對新穎,但它實質上根植于基于協同推薦的核心理念。

第五部分展示了關于幾個進階課題的論文,例如,探索如何用主動學習的原則來指導新知識的擷取;防止推薦系統受惡意使用者攻擊的合适技術;如何整合多種類型的使用者回報以及使用者偏好資訊來構造更可靠的推薦系統。