本節書摘來自華章出版社《推薦系統:技術、評估及高效算法》一書中的第1章,第1.3節,作者 [ 美]弗朗西斯科·裡奇(francesco ricci)利奧·羅卡奇(lior rokach)布拉哈·夏皮拉(bracha shapira)保羅 b.坎特(paul b.kantor),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
推薦系統是資訊處理系統,為了實作推薦,該系統會積極收集各種資料。資料主要是關于推薦的物品和收到這些推薦結果的使用者,但是由于推薦系統獲得的資料和知識來源可能差別很大,它們最終是否可以被利用取決于推薦技術(見1.4節)。這種推薦技術将在本手冊的不同章節中有更加清晰的闡述(詳見第11章)。
通常,有的推薦技術用的知識(領域)較少,如隻用到使用者評分或者對物品的評價等一些簡單且基礎的資料(第4、5章)。其他的技術則依賴于更多的知識,如利用使用者或物品的本體性描述(第3章),或者限制性條件(第6章),或者使用者的社交關系和行為活動(第19章)。在任何情況下,推薦系統使用的資料一般指的是三種對象:物品、使用者和事務,也就是使用者和物品的關系。
物品。物品是被推薦的對象集。物品具有複雜性和有價值或效用的特點。如果物品對于使用者是有用的,那麼物品的作用就是積極的;否則如果物品對于使用者不适合,那物品的作用就是消極的,進而導緻使用者在選擇時做出錯誤決定。我們注意到,當一個使用者需要獲得一個物品時,他總會付出代價,其中包括搜尋物品的認知代價和最終為物品支付的費用。
例如,一個新聞推薦系統的設計師必須考慮新聞物品的複雜性,即新聞的結構、文本表述和任何新聞物品的時變重要性。但是推薦系統的設計者必須意識到,即使使用者沒有花錢閱讀新聞,他們還是為搜尋并閱讀這些新聞物品付出了認知上的代價。如果選擇的物品和使用者相關,這個代價就被使用者得到有用資訊的收益覆寫了,可一旦不相關,推薦物品對使用者的淨價值就是負面的
在其他領域,如汽車或者金融投資,當選擇最恰當的推薦方法時,物品真正的貨币成本成為一個考慮的重要因素。
複雜度低且價值小的物品是:新聞、網頁、書籍、CD光牒、電影。複雜度高且價值大的物品是:數位相機、手機、個人電腦等。我們通常認為最複雜的物品是保險政策、金融投資、旅遊、工作[72]。
根據其核心技術,推薦系統可以使用物品集的一系列屬性和特征。例如,在電影推薦系統中,我們可以使用電影種類(如喜劇、悲劇等)資訊、導演資訊和演員資訊來描述電影,并用于弄清楚物品的效用是如何依賴其特征的。物品集可以用各種資訊和表述方法來表示,如可以簡約到單一的id碼,或者豐富到為一組屬性,甚至是該領域本體表示中的一個概念(第3章)。
使用者。正如前面提到的那樣,推薦系統的使用者可能有非常不同的目的和特點。為了使推薦結果和人機互動個性化,推薦系統使用使用者的一系列資訊。這種資訊可以用不同的方式組織,而且同樣的是,選擇哪種資訊模組化取決于推薦技術。
例如,在協同過濾中,所有使用者被模組化為一個簡單的清單,該清單包含每個使用者對若幹個物品的評分記錄。在基于人口統計學的推薦系統中,會用到如年齡、性别、職業和受教育程度等社會統計學特征。使用者資料用來構成使用者
模型[21,32]。使用者模型簡明扼要地描述了使用者的特征,即對使用者偏好和需求進行編碼。不同的模組化方法已經在推薦系統中得到應用,在一定意義上,推薦系統可以被看作一個建構并使用使用者模型來産生推薦的工具[19,20]。如果沒有一個實用的使用者模型,個性化推薦是不可能的(除非推薦系統本身就是像top10那樣是非個性化的),是以使用者模型起到非常重要的作用。例如,再次考慮協同過濾方法,要麼使用者被直接描述為他對物品的評價記錄,要麼系統根據該使用者的評分記錄建構一個因子向量,不同使用者之間的
差別是這些因子權重在他們模型中的差别(第4、5章)。
使用者也可以通過他們的行為模式資料來描述,如網站浏覽模式(在基于web的推薦系統中)[107]或旅遊搜尋模式(在旅遊推薦系統中)[60]。此外,使用者資料包括使用者間的關系,如使用者間的信任級别(第20章)。推薦系統能利用這些資訊給使用者推薦物品集,而這些物品集也是相似使用者或可信任使用者所喜歡的。
事務(transaction)。我們一般将一個事務看作使用者和推薦系統進行互動的一條記錄。人機互動過程中産生的這種類似日志的資料存儲着重要的資訊,并且這些資料對系統中推薦生成算法是有用的。比如,事務日志可能會涉及使用者選擇物品,以及特定推薦所處上下文描述資訊(如使用者的目的和查詢詞)。如果可能,事務也會包括使用者提供的顯式回報,如對選擇物品的評分。
實際上,評分是推薦系統收集交易資料最流行的方式。這些評分可能是用顯式或者隐式的方式收集的。收集顯式評分時,使用者需要在某個評級尺度内給出自己對物品的看法。根據[93],評級可以采用各種方式:
數字評分,就像amazon.com的書籍推薦系統中的1到5星的評價。
序數評價,例如,“強烈同意,同意,一般,不同意,強烈反對”,使用者在
其中選擇最能代表自己觀點的術語(一般是通過問卷調查)。
二進制制評價,使用者僅僅被要求确定一個物品的好或者不好。
一進制制評價,用來表示使用者已經看到或者買了一個物品,或由此對物品進行明确的評價。在這種情況下,評分值的缺失意味着關聯使用者和物品的資訊是未知的(也許使用者在其他地方買了這個物品)。
從事務中隐式收集使用者評級,系統的目标是根據使用者的行為推斷使用者的意圖。例如,如果使用者在亞馬遜網站輸入“瑜伽”進行搜尋,那麼她将得到關于
書的一個很長的清單。作為回報,使用者為了獲得額外資訊會單擊清單中的書。從這點上看,系統可以推斷使用者對那本書有一定的興趣了。
在會話(conversational)系統中,即支援互動過程的系統中,交易模型更加精确。在這些系統中,使用者請求和系統行為交替出現(見第13章)。更準确地說,使用者請求一個推薦,系統就産生一個推薦清單。但是系統仍然需要額外的使用者偏好資訊,以期産生更好的結果。在這個交易模型中,系統收集各種請求—響應資訊,并且最終通過觀察推薦過程的結果來修改系統的互動政策[60]。