天天看點

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

摘要

近年來,由于線上流媒體服務的出現和成功,音樂推薦系統(MRS)經曆了飛速發展,如今,線上推薦服務幾乎可以使所有音樂觸手可及。盡管當今的MRS可以極大地幫助使用者在這些龐大的目錄中找到有趣的音樂,但MRS的研究仍面臨着嚴峻的挑戰。特别是在建構、合并和評估推薦政策時,這些政策除了将資訊整合到簡單的使用者物品互動、基于内容表達之外,還需要深入挖掘聽衆的需求、偏好和意圖的本質。MRS研究成為很大的努力方向,但相關的出版物卻很少。

此趨勢和調查文章的目的是雙重的。我們首先從學術和行業角度确定并闡明我們認為MRS研究面臨的最緊迫挑戰。我們回顧了解決這些挑戰的最新技術并讨論了其局限性。其次,我們詳細介紹了我們為該領域的進一步發展而設想的未來方向和願景。是以,本文應有兩個目的:為感興趣的讀者提供有關MRS研究中目前挑戰的概述,并通過确定該領域有趣但未充分研究的方向為年輕研究人員提供指導。

1. 介紹

音樂推薦系統(MRS)的研究最近在學術界和行業中都獲得了很大的興趣。借助Spotify,Pandora或Apple Music之類的音樂流媒體服務,如今,音樂愛好者可以通路數千萬首音樂作品。通過過濾大量的音樂項目,進而限制了選擇的負擔,MRS通常非常成功地建議适合其使用者喜好的歌曲。但是,這樣的系統還遠遠不夠完善,經常會産生不令人滿意的建議。部分原因在于使用者的品味和音樂需求高度依賴于多種因素,而在目前的MRS方法中,這些因素并未得到足夠深入的考慮,這些方法通常以使用者與項目互動的核心概念為中心,或者有時是基于内容的項目描述符。相反,我們認為要滿足使用者的音樂娛樂需求,就需要考慮聽衆的内在、外在和語境方面,以及更體面的互動資訊。 例如,已知聽衆的性格和情感狀态(内在的)以及他們的活動(内在的)會影響音樂的品味和需求。使用者的情境因素也是如此,包括天氣條件,社交環境或名勝古迹。音樂播放清單或收聽會話的組成和注釋還揭示了有關哪些歌曲搭配得很好或适合于特定場合的資訊。是以,MRS的研究人員和設計人員應該以一種整體的方式重新考慮他們的使用者,以便建構針對每個使用者的特殊性的系統。

在此背景下,在本趨勢和調查文章中,我們通過讨論各自的最新技術水準及其局限性,詳細闡述了我們認為是MRS研究中目前最緊迫的挑戰之一(第2節)。無法完全解決所有挑戰,我們專注于冷啟動,自動播放清單繼續和MRS評估。雖然這些問題在某種程度上在其他推薦領域中也很普遍,但是音樂的某些特征在這些情況下提出了特殊的挑戰。其中包括項目的持續時間短(與電影相比),音樂的高情感内涵以及使用者接受重複推薦的情況。在第二部分中,我們介紹了我們對MRS研究的未來方向的願景(第3節)。更準确地說,我們詳細介紹了受心理啟發的音樂推薦(考慮人的個性和情感),情境感覺的音樂推薦和文化感覺的音樂推薦的主題。我們以總結和确定感興趣的研究人員面對讨論的挑戰的可能起點的結論作為結尾(第4節)。

2. 重大的挑戰

在下文中,我們确定并詳細說明了一些重大挑戰,我們認為音樂推薦系統的研究領域目前正面臨這些挑戰,即克服冷啟動問題,自動播放清單繼續和正确評估音樂推薦器系統。我們回顧了各個任務的最新狀态及其目前的局限性。

2.1 音樂推薦的特殊性

在我們開始深入研究這些挑戰之前,我們首先要強調使音樂推薦成為特定工作,并将其與推薦其他項目(例如電影,書籍或産品)區分開。

項目的持續時間:在傳統電影推薦中,感興趣的項目的典型持續時間為90分鐘或更長。在書中推薦,消耗時間通常甚至更長。相反,音樂項目的持續時間通常在3到5分鐘之間(古典音樂除外)。是以,音樂項目可能被認為更易于使用。

項目集合的大小:常見的音樂集合有幾千萬,而電影的集合要小多(幾萬)。是以,可擴充性在音樂推薦中比在電影推薦中更重要。

順序消費:與電影不同,音樂作品是按順序消費的,一次最多消費一次,即在收聽會話或播放清單中。這給MRS帶來了許多挑戰,與确定推薦清單中項目的正确排列有關。

先前推薦項目的推薦:與電影推薦者相比,MRS的使用者可能會在以後的某個時間點再次推薦同一首樂曲,而電影或産品推薦者通常不希望重複推薦。

消費行為:音樂通常是在背景中被動消費的。雖然這本身不是問題,但它可能會影響推薦系統對聽衆偏好預測。特别是,當使用隐式回報來推斷聽衆的偏好時,聽衆沒有注意音樂(例如,沒有主動點選跳過歌曲),可能被錯誤地解釋為正回報。

聆聽意圖和目的:音樂為人們服務于各種目的,是以塑造了他們聆聽音樂的意圖。建構MRS時應考慮到這一點。在廣泛的文獻和實證研究中,Schafer等人,從129種不同的音樂用途和功能中,提煉出了三種音樂聆聽的基本意圖:自我意識,社交關系以及情緒調節。自我意識被認為是與聽音樂的非常私人的關系。自我意識次元“幫助人們思考自己是誰,他們想成為誰,以及如何走自己的路” 。社交關系描述了使用音樂來與朋友親近并向他人表達身份和價值觀。情緒調節與情緒管理,當涉及到人類的幸福時,這是一個至關重要的問題。實際上,一些研究發現,情緒和情緒調節是人們聽音樂的最重要目的,是以,我們在下面分别讨論情緒在聽音樂時扮演的特殊角色。

情緒:衆所周知,音樂會喚起強烈的情緒。但是,這是一種互相關系,因為使用者的情緒也會影響音樂的喜好。由于音樂與情緒之間的這種緊密聯系,以情緒詞自動描述音樂的問題是一個活躍的研究領域,通常被稱為音樂情緒識别(MER)。盡管可以使用MER來通過情緒術語來标記音樂,但是如何将這些資訊內建到MRS中仍然是一項非常複雜的任務:

  • 首先,MER方法通常會忽略預期的情緒(即作曲家,作曲家或表演者在創作或演奏作品時所想到的情緒),感覺的情緒(即在聆聽時識别出的情緒)和誘發的情緒之間的差別。
  • 其次,是否對某種情緒的音樂有偏好,這取決于使用者是否要增強或調節其這方面的情緒。
  • 第三,情緒變化常常發生在同一首樂曲中,而标簽通常是從整首樂曲中提取出來的。是以,根據情緒來比對音樂和聽衆,需要将聽衆的音樂偏好和他們情緒體驗的時間依賴性函數模組化,同時還要考慮預期的作用(增強情緒或調節)。這是一項極富挑戰性的任務,通常在目前的MRS中被忽略,是以,我們将情緒感覺型MRS讨論為MRS研究的主要未來方向之一,請參見第3.1節。

聆聽情景:情景對音樂的喜好、消費和互動行為有很大影響。例如,與準備與朋友在周五晚上外出熱身時相比,聽衆在準備浪漫晚餐時可能會建立不同的播放清單。最常被考慮的情景類型包括位置(例如,在工作場所的通勤,上下班或在家中放松)和時間(通常分為例如,上午,下午和晚上)。此外,情景還可能與聽衆的活動、天氣或使用不同的聽覺裝置有關。例如,智能手機上的耳塞與家庭中的高保真立體聲。由于聽音樂也是一種高度社交活動,是以調查聽衆的社會背景對于了解他們的聽覺偏好和行為至關重要。通過讨論情境感覺型MRS作為趨勢研究方向,可以認識到在MRS研究中考慮此類情境因素的重要性,請參見第3.2節。

2.2 挑戰1:冷啟動問題

2.2.1 問題定義

一般而言,推薦系統(尤其是音樂推薦系統)的主要問題之一是冷啟動問題,即新使用者注冊到系統或目錄中添加了新項目時,系統沒有足夠的資料與這些項目/使用者關聯。在這種情況下,系統不能正确地将現有項目推薦給新使用者(新使用者問題)或将新項目推薦給現有使用者(新項目問題)。

冷啟動的另一個子問題是稀疏性問題,即實際産生“使用者-音樂”評分的數量遠低于全部的“使用者-音樂”之間評分的數量,當使用者和物品的數量很大時,這種情況尤為突出。**高稀疏度導緻評分覆寫率低,因為大多數使用者傾向于對一小部分商品進行評分,推薦結果常常變得不可靠。**在大多數實際推薦系統中,稀疏度的典型值非常接近100%。在音樂領域,這是一個特别重大的問題。例如,分析了Yahoo!音樂資料集,截至撰寫本文時,它代表最大的音樂推薦資料集。他們報告的稀疏度為99.96%。為了進行比較,Netflix的電影資料集的稀疏度為 98.82%。

2.2.2 SOTA

研究已經提出了許多方法來解決音樂推薦領域中的冷啟動問題,其中最重要的是基于内容的方法、混合、跨域推薦和主動學習。

基于内容的推薦(CB)算法不需要目标使用者以外的其他使用者的評分。是以,隻要可以獲得有關使用者自己的首選項的某些資訊,這些技術就可以用于冷啟動場景。此外,在最嚴重的情況下,當将新項目添加到目錄中時,基于内容的方法将啟用推薦,因為它們可以從新項目中提取特征并使用它們來推薦。值得注意的是,盡管協作過濾(CF)系統對于新使用者和新項目都存在冷啟動問題,但基于内容的系統僅對新使用者具有冷啟動問題。

對于新項目問題,一種标準方法是提取許多能夠定義音頻信号聲學的特性,并使用基于内容的使用者興趣學習(使用者畫像特征學習)以實作推薦。特征提取通常是自動完成的,但也可以由音樂專家手動完成,例如Pandora的“音樂基因組計劃”。 Pandora每首歌曲最多使用450個特定的描述符,例如“激進的女歌手”,“突出的備用聲音”,“抽象的歌詞”或“使用不尋常的和聲”。無論特征提取過程是自動執行還是手動執行,此方法不僅有利于解決新商品問題,而且在随後的資訊過濾階段,由于準确的特征表示,可以很好預測使用者的喜好和興趣。音樂對視訊的優勢在于,與視訊的音頻和視覺通道相比,音樂的功能僅限于單個音頻通道。

可以通過兩種主要方式從音頻信号中自動提取特征:

(1)通過獨立于其他項目從每個項目中分别提取一個特征向量

(2)考慮訓練資料集中項目之間的互相關系

不同之處在于, 在(1)中,在系統的訓練和測試階段執行相同的過程,并且提取的特征向量可以在後續處理階段直接使用。 例如,在測試時以一對一的方式計算項目之間的相似度。相反,在(2)中,首先從訓練階段提取的所有特征構模組化型,其主要作用是将特征映射到新的(聲學)空間,在該空間中,可以更好地表示和利用項目之間的相似性。方法(1)的一個示例是塊級特征架構,該架構為給定音樂集合中的每首歌曲獨立建立約10,000個次元的特征向量。 該矢量描述了各個方面,例如頻譜模式,重複節拍以及頻帶之間的相關性。

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

政策(2)的一個例子是《I-VECTORS FOR TIMBRE-BASED MUSIC SIMILARITY AND MUSIC

ARTIST CLASSIFICATION》。如上圖,從梅爾頻率倒譜系數(MFCC)建立低維i向量表示,該頻率在某種程度上模拟了音色。為此,使用高斯混合模型(GMM)從整個音樂收藏的MFCC向量建立通用背景模型。 對GMM的表示進行因子分析最終會産生i向量。

在某種形式的語義标簽(例如流派或樂器)可用的情況下,可以使用機器學習技術構模組化型來學習低級音頻特征和語義表示之間的中間映射,然後使用所學習的模型用于預測。

解決新項目問題的另一種技術是hybridization。

  • 《A Hybrid Social-acoustic Recommendation System for Popular Music》

    推薦系統将聲學CB和基于項目的CF推薦器相結合。對于基于内容的元件,它會計算聲學特征,包括頻譜特性、音色、節奏和音高。然後,基于内容的元件協助協作過濾推薦器解決冷啟動問題。

  • 《Hybrid Collaborative and Content-based Music Recommendation

    Using Probabilistic Model with Latent User Preferences》

    目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景
    一種混合推薦系統,是通過特征混合将CF和聲學CB政策結合在一起。但是,在這項工作中,不會在原始特征域中執行特征級混合。相反,引入了一組稱為conceptual genre的潛在變量,其作用是為兩個推薦任務提供一個公共的共享特征空間并實作hybridization。與潛在變量相關聯的權重反映了目标使用者的音樂品味,并且是在訓練階段學習的。
  • 《Music Recommendation Based on Acoustic

    Features and User Access Patterns》

    目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

作者提出了一種混合推薦系統,該系統包含基于相似度學習的項目CF和聲學CB。提出的度量學習是一種優化模型,旨在學習與音頻内容特征相關聯的權重(當以線性方式組合時),以便在基于CF的相似性和聲學CB相似性度量之間建立一定程度的一緻性。可以使用二次程式設計技術解決優化問題。

冷啟動的另一種解決方案是跨域推薦技術,該技術旨在通過利用有關輔助域中使用者偏好的資訊來改善一個域(此處為音樂)中的推薦。是以,使用者偏好的知識從輔助域轉移到音樂域,進而形成了更完整,更準确的使用者模型。同樣,也可以內建與(新)使用者有關的,與音樂不直接相關的其他資訊(例如他們的個性),以改善對使用者音樂偏好的估算。

除上述方法外,主動學習在處理單域或跨域推薦場景中的冷啟動問題方面也顯示出令人鼓舞的結果。 主動學習通過識别和擷取(高品質)資料來解決此問題,而該資料可以更好地代表使用者的喜好,而不是通過他們自己提供的資料。 是以,這樣的系統互動地要求特定的使用者回報,以最大化系統性能的改善。

2.2.3 局限性

上面闡述的最新方法受到某些限制。例如,在使用基于内容的過濾時,幾乎所有現有方法都依賴于一遍又一遍地使用的許多預定義音頻特征,包括頻譜特征,MFCC和大量派生特征。但是,這樣做是假設(所有)這些特征都可以預測使用者的音樂品味,而實際上已經證明,對于音樂的感覺很重要的聲學特性是高度主觀的。此外,聽衆對不同音樂的不同品味和興趣程度會影響對項目相似性的感覺。這種主觀性要求推薦系統将個性化納入其數學模型。

  • RLFM

    提出了一種混合(CB + CF)推薦模型,即基于回歸的潛在因子模型:

    目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景
  • UFSM

    作者提出了一個基于使用者特定特征的相似度模型:

    目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景
    • 首先,每個使用者都有自己的相似性特征,這導緻了更高的個性化程度。
    • 其次,這些使用者特定的相似度函數是固定數量的使用者獨立的相似度函數(稱為全局相似度函數)的線性組合得出的。這些全局相似性特征對于所有使用者都是相同的,但是它們以針對每個使用者的特定方式組合在一起,進而導緻不同的特定于使用者的相似性特征。
    • 第三,通過考慮所有使用者的曆史偏好來估計全局相似性函數及其特定于使用者的組合權重,進而允許他們在整個資料集中利用資訊。

如上例所示,雖然hybridization是以可以在一定程度上緩解冷啟動問題,但各種方法通常很複雜,計算量大且缺乏透明度。特别是,對于人類而言,采用潛在因子模型的hybridization的結果通常難以了解。

跨域推薦系統的主要問題是它們需要連接配接兩個或多個目标域(例如,書籍,電影和音樂)的資料。為了使這種方法正常工作,項目、使用者或兩者都需要在一定程度上重疊。在沒有這種重疊的情況下,必須以其他方式建立域之間的關系。例如,通過推斷不同域中的項目之間的語義關系,或者假設所涉及域中使用者的評分模式相似。但是,各種方法是否能夠在域之間傳遞知識存在争議。跨域推薦中的問題是,缺少建立的具有明确定義域和推薦方案的資料集。是以,有關跨域RS的大多數現有工作都使用某種類型的正常推薦資料集轉換來滿足其需求。

最後,主動學習技術也遭受許多問題的困擾:

  • 首先,典型的主動學習技術傾向于對向使用者推薦對系統預測對他們感興趣的項目進行評分,即具有最高預測評分的項目。這确實是推薦系統中用于獲得評分的預設政策,因為使用者傾向于對已推薦給他們的内容進行評分。即使使用者浏覽商品目錄,他們也更有可能對自己喜歡或感興趣的商品進行評分,而不是對自己不喜歡或漠不關心的商品進行評分。确實,已經表明這樣做會在收集的評分資料中産生強烈的偏差,因為資料庫不成比例地填充了高評分。反過來,這可能會嚴重影響預測算法并降低推薦準确性
  • 此外,并非所有主動學習政策都必須個性化。使用者在有關項目,偏好和決策方式方面的資訊量差異很大。是以,請求所有使用者對同一組項目進行評分顯然效率低下,因為許多使用者可能掌握的知識非常有限,忽略了許多項目,是以不會為這些項目提供評分。正确設計的主動學習技術應考慮到這一點,并向不同的使用者推薦不同的項目以進行評分。這可能是非常有益的,并增加了獲得更高品質評級的機會。
  • 此外,為推薦系統中的主動學習而設計的傳統互動模型,要在注冊過程中支援建立使用者的初始畫像特征。這是通過請求使用者對一組所選項目進行評分來生成使用者個人資料來完成的。另一方面,使用者還必須能夠随時通過提供更多評分來更新其個人資料。這要求系統采用對話互動模型,例如,通過利用使用者界面中新穎的互動設計元素,例如可以描述提供更多評分并激勵使用者這樣做的好處的解釋。
  • 最後,重要的是要注意,在運作中的推薦系統中,不僅由系統要求(主動學習),而且由使用者自願浏覽商品目錄并對某些商品進行評分時,由使用者給出評分熟悉的項目(自然獲得評級)。盡管這可能會對系統的性能産生巨大影響,但在推薦系統的主動學習領域中,大多數研究工作都忽略了它。實際上,幾乎所有的研究工作都是基于一個不切實際的假設,即收集新評分的唯一來源是通過系統請求。是以,在研究推薦系統中的主動學習技術時,考慮到更現實的情況至關重要,這可以更好地描繪出當使用者提供評分時系統如何随着時間而發展。

2.3 挑戰2:自動播放清單延續

2.3.1 問題定義

按照其最一般的定義,播放清單隻是一系列打算一起收聽的曲目。然後,自動播放清單生成(APG)的任務是指自動建立曲目序列。在這種情況下,播放清單中要生成的歌曲的順序通常被突出顯示為APG的特征,這是一項非常複雜的工作。是以,一些作者提出了基于馬爾可夫鍊的方法來對播放清單中歌曲之間的位置進行模組化。盡管已證明這些方法在對數似然性方面優于與歌曲順序無關的方法,但最近的研究發現,幾乎沒有證據表明現實中多首歌曲之間确切順序對使用者很重要,但發現了播放清單中的歌曲集合、“歌曲->歌曲”的直接切換确實很重要。

自動播放清單生成(APG)的衍生任務為 自動播放清單延續(APC),即往播放清單中自動添加一兩首歌曲,且添加的歌曲要具有原先清單中歌曲相同的特定。 這在收聽和建立播放清單中都有好處:使用者可以欣賞有限長度播放清單結束後的聽音樂,同時還可以輕松建立更長、更引人注目的播放清單,而無需對音樂有廣泛的了解。

APC任務的很大一部分是準确推斷給定播放清單的預期目的。這具有挑戰性,不僅因為這些預期目的範圍廣泛,而且還因為推斷這些目的可能需要的基本特征或特性的多樣性。

與挑戰1相關,此任務的極端冷啟動方案是使用某些中繼資料(例如,播放清單的标題)建立播放清單,但沒有将歌曲添加到該播放清單中。可以将這個問題解釋為臨時資訊檢索任務,其中的任務是響應使用者提供的中繼資料查詢對歌曲進行排名。

APC任務還可以潛在地受益于使用者畫像特征,例如,利用先前的播放清單和使用者的長期收聽曆史。我們稱此為個性化播放清單的延續。

根據音樂商業協會(Music Business Association)在2016年進行的一項研究,作為其Music Biz Consumer Insights計劃的一部分,播放清單占美國聽衆音樂收聽時間的31%,高于專輯(22%),但更少比單曲(46%)。 MIDiA進行的其他研究表明,有55%的流媒體音樂服務訂戶建立了音樂播放清單,其中一些流媒體服務(例如Spotify)目前托管了超過20億個播放清單。在尼爾森(Nielsen)進行的2017年研究中,發現58%的使用者在美國建立自己的播放清單,其中32%與他人共享。此類研究表明,播放清單作為一種音樂消費方式正變得越來越重要,是以,對APG和APC的研究從未如此重要。

2.3.2 SOTA

自從數字多媒體傳輸為使用者提供大量音樂目錄以來,就有了對APG進行了研究。 Bonnin和Jannach對該領域進行了全面的調查。在該架構中,作者将APG任務定義為: 給定一些曲目背景特征的“背景知識”(從中可以得出播放清單曲目),建立滿足播放清單某些“目标特征”的一系列音樂。現有的APG系統以許多不同的方式解決了這些問題。

  • 在早期方法中,播放清單的目标特點被指定為多個顯式限制,其中包括音樂屬性或中繼資料,例如藝術家,節奏和風格。播放清單沒有顯示的特點,可以選擇第一首歌或者是最後一首歌的特點來替代。
  • 還有其他方法,建立循環播放清單,該清單包含給定音樂集中的所有曲目,以使連續歌曲盡可能相似。
  • 還有的方法,播放清單是基于聽衆的上下文建立的。推薦既可以取決于單一因素,也可以與基于内容的相似性。如下圖《Just-for-Me: An Adaptive Personalization System for LocationAware Social Music Recommendation》:
    目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

建立用于播放清單生成的音樂目錄的“背景知識”的常用方法是使用機器學習技術從手動生成的播放清單中提取該知識。這裡的假設是這些播放清單的生産者正在編碼豐富的潛在資訊,這些資訊一起創造了令人滿意的收聽體驗。APG和APC系統可以利用線上廣播電台、線上播放清單網站和音樂流服務等來源的播放清單資料進行訓練。

具體解決播放清單中歌曲順序的一種方法是:使用在手工生成的播放清單上,訓練一個生成模型。 McFee和Lanckriet采用中繼資料、熟悉程度和音頻内容特征表示歌曲,并采用了統計自然語言進行中的思想,他們訓練各種馬爾可夫鍊來模拟歌曲之間的轉換。同樣,Chen等。 提出了一種邏輯馬爾可夫嵌入來模拟歌曲轉換,這類似于矩陣分解方法,并導緻歌曲在歐幾裡得空間中的嵌入。與McFee和Lanckriet的模型相比,Chen等人的模型不使用任何音頻特征。

2.3.3 局限性

盡管一些有關自動播放清單連續性的工作突出了播放清單的特殊性,即它們的順序的。但尚不了解在何種程度上以及在哪種情況下,需要考慮播放清單中曲目的順序有助于建立更好的推薦模型。例如,Vall等人最近在手動生成的播放清單的兩個資料集上證明,當存在很多流行歌曲時,歌曲順序對于準确的播放清單連續性似乎可以忽略不計。另一方面,作者認為,建立帶有長尾音樂的播放清單時,順序确實很重要。 McFee和Lanckriet的另一項研究也表明,效果在播放清單連續性模組化中起着重要作用。這與Kamehkhosh等人的研究一緻:使用者将“歌曲順序”确定為評判播放清單品質的第二個但也是最後一個重要标準。在Tintarev等人進行的另一項最新使用者研究中,作者發現許多參與者并不關心關于推薦播放清單中曲目的順序,有時他們甚至沒有注意到存在特定順序。

APC的另一個挑戰是評估:換句話說,如何評估播放清單的品質。下一節将更詳細地讨論一般的評估,但是圍繞播放清單的評估存在一些具體問題,應在此處指出。正如Bonnin和Jannach所說的那樣,最終的标準是使用者滿意度,但這并不容易衡量。McFee和Lanckriet将APG評估的主要方法歸類為人類評估,語義銜接和序列預測:

  • 人工評估最接近直接測量使用者滿意度,但存在規模和可重複性的問題。
  • 語義銜接作為一種品質名額很容易測量和再現,但是假設使用者偏愛播放清單,其中曲目沿着特定的語義次元是相似的,這可能并不總是正确的
  • 序列預測将APC用作資訊檢索任務,但是在音樂領域,不準确的預測不必是一個糟糕的推薦,這又導緻該名額與使用者滿意度的最終标準之間存在潛在的脫節。

Lee調查了哪些因素對于積極的使用者對播放清單的認知可能很重要。Lee進行了定性使用者研究,調查了基于内容的相似性自動建立的播放清單。他們做了幾個有趣的觀察。參與者經常提出的一個問題是,連續歌曲過于相似,而且普遍缺乏多樣性。但是,不同的人對多樣性有不同的解釋,例如,流派或風格的多樣性與播放清單中的不同藝術家。同樣,當聽衆判斷播放清單中歌曲的連貫性時,提到了不同的标準,包括歌詞内容,節奏和情緒。在建立播放清單時,參與者提到相似的歌詞,共同的主題(例如,火車上聽的音樂),故事(例如,獨立日的音樂)或時代(例如,1980年代的搖滾音樂)很重要。

Lee還發現個人喜好起着主要作用。實際上,聽衆非常喜歡或讨厭的一首歌已經對他們判斷整個播放清單的方式産生了很大的影響。如果它是一首非常受人喜愛的歌曲,這似乎尤其正确。此外,将熟悉的歌曲和未知的歌曲很好地混合在一起,這是對一個好的播放清單的重要要求。支援發現有趣的新歌(仍然被熟悉的情境所圍繞),增加了在播放清單中實作偶然相遇的可能性。最後,參與者還報告說,他們對播放清單的類型或主題的熟悉程度影響了他們對其播放品質的判斷。一般而言,聽衆對播放清單的選擇會更加挑剔,因為他們熟悉或喜歡很多曲目。

在上面總結的研究的支援下,我們認為,制作出色播放清單的問題是高度主觀的,并且進一步取決于創作者或聽衆的意圖。建立或判斷播放清單時,重要的标準包括曲目的相似度/一緻性,多品類/多樣性,以及使用者的個人偏好和對曲目的熟悉程度以及播放清單建立者的意圖。不幸的是,目前的自動播放清單連續方法,無法确定影響使用者選擇将哪些歌曲包括在播放清單中的潛在心理和社會因素。由于了解這些因素對于了解播放清單建立者的意圖至關重要,是以我們認為APC的算法方法需要從手動建立的播放清單中全面學習這些方面,并整合各自的意圖模型。但是,我們知道,在當今時代,線上流媒體服務的使用者共享數十億個播放清單,是以無法對心理和社會背景因素進行大規模分析。然而,在缺乏有關使用者意圖的明确資訊的情況下,建立意圖模型的起點可能是與使用者生成的播放清單(例如标題或描述)相關聯的中繼資料。為了促進此類研究,ACM Recommender Systems Challenge 2018資料集中提供的播放清單包括播放清單标題。

2.4 挑戰3:評估音樂推薦系統

2.4.1 問題定義

推薦系統領域起源于機器學習(參見評級預測)和資訊檢索(參見基于使用者偏好給出的隐式“查詢”檢索“項目”),最初采用了來自這些相鄰領域的評估名額。實際上,準确性和相關的定量度量(例如精度,召回率或錯誤度量)(介于預測評分和真實評分之間)仍然是判斷推薦系統推薦品質的最常用标準。另外,近年來出現了針對推薦問題的新穎措施。這些所謂的“超準确性”措施解決了推薦系統的特殊性和度量标準,例如項目的實用性,新穎性或偶然性。但是,這類措施的主要問題在于它們整合了難以用數學方法描述的因素,例如,在采取意外措施時會感到驚訝。是以,有時會存在各種不同的定義來量化相同的超出精度的部分。

2.4.2 SOTA

在下文中,我們讨論在評估推薦系統時最常報告的性能名額。表1給出了這些方法的概述。它們可以粗略地分類為與精度相關的度量,例如預測誤差(例如,MAE和RMSE)或标準IR度量(例如,精度和召回率)以及超精度度量,例如多樣性,新穎性和偶然性。此外,盡管某些名額量化了推薦系統找到良好項目的能力(例如準确性和召回率),但其他名額則考慮了項目的排名,是以評估了系統将良好建議置于推薦清單頂部的能力,例如 MAP、NDCG或MPR。

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

平均絕對誤差(MAE)是評估推薦算法預測能力的最常用名額之一。它計算預測等級與使用者提供的實際等級之間的平均絕對偏差。實際上,MAE表示由MRS生成的評分預測與真實使用者評分有多接近。 MAE計算如下:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

均方根誤差(RMSE)是另一個類似的名額:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

它是對MAE的擴充,因為誤差項是平方的,這對預測和真實評分之間的較大差異的懲罰要比對較小額度的懲罰更大。這是基于這樣一個假設的:例如,當真實評分為4時,對于同一項目的評分預測為1,比其預測3嚴重得多。

精度最高的K個推薦(P @ K)是衡量相關推薦項的準确性的通用名額。為了計算P @ K,對于每個使用者,考慮其評分也出現在測試集T中的前K個推薦項。此度量标準最初是為二進制相關性判斷而設計的。是以,在不同級别可獲得相關性資訊的情況下,應對标簽進行二值化,例如,将大于或等于4的評分視為相關。對于每個使用者u,Pu @K的計算如下:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

Lu是測試集T中使用者u的相關項的集合。Lˆu表示推薦集合,其中包含使用者T中具有最高預測評分的T中的K個項目。然後,通過對測試集中所有使用者的 [email protected] 值求平均值來計算總 P@ K。

前K個推薦的平均精度的平均(MAP @ K)是基于等級的度量标準,用于計算不同推薦清單長度下系統的整體精度。 MAP計算為測試集中整個使用者組的平均精度的算術平均值。前K個推薦(AP @ K)的平均精度定義如下:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

rel(i) 表示第i個推薦是否相關,取值要麼是0,要麼是1。N是相關項目的總數。請注意,MAP隐式合并了召回,因為它還考慮了推薦清單中未包含的相關項目。

為了完整起見,此處提出了召回前K個推薦的評估名額(R @ K),即使從消費者的角度來看這并不是至關重要的措施。實際上,收聽者通常不希望被推薦所有或大量相關項,而是對在推薦清單頂部具有好的推薦感興趣。對一個使用者的R @ K定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

歸一化折現累計收益(NDCG)是對推薦的排序品質的度量。最初提出此度量标準是為了評估資訊檢索系統的有效性。如今,它也經常用于評估音樂推薦系統。假設針對使用者u的推薦是根據預測的評分值以降序排序的。DCGu被定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

其中 rui 是對使用者u排名在位置i處的項目的真實評級(在測試集T中找到),而N是推薦清單的長度。由于評級分布取決于使用者的行為,是以不同使用者的DCG值不能直接比較。是以,應該歸一化每個使用者的累積增益。這是通過計算使用者u的理想DCG(表示為IDCGu)來完成的。IDCGu是獲得最佳排名的DCGu值,它是通過按降序按真實評級對項目進行排序而獲得的。然後将使用者u的歸一化折現累計收益計算為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

最後,通過對整個使用者集平均NDCGu來計算總體歸一化折現累計增益NDCG。

在下文中,我們将介紹一些通用的定量評估名額,這些名額是為推薦系統的性能而專門設計或采用的,即使其中一些源于資訊檢索和機器學習。前兩個(HLU和MRR)仍屬于與準确性相關的度量的類别,而後兩個則捕獲了超出準确性的部分。

半衰期效用(HLU)假設使用者檢視/選擇推薦項目的可能性随項目在排名中的位置呈指數級下降,進而衡量了使用者推薦清單的效用。使用者u的HLU定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

可以通過最大效用(類似于NDCG)進一步對HLUu進行歸一化,最終的HLU是測試集中所有使用者獲得的半時效的平均值。較大的HLU可能對應于較高的推薦性能。

**平均百分等級(MPR)估計使用者對推薦清單中項目的滿意度,并計算為每個使用者的測試集項目在推薦清單中的百分位的平均值。**項目的百分位,是在推薦清單中的位置等于或低于項本身位置的項的百分比。使用者u的百分位PRu定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

rui是使用者u評估的項目i的真實評分(在測試集T中找到),ranku是使用者u的推薦排序清單中項目i的百分位。然後,MPR是所有使用者上各個PRu值的算術平均值。随機排序的推薦清單的預期MPR值為50%。

Spread 是推薦器算法可以将其注意力分散到較大項目集上的程度的度量。更詳細地說,Spread 是測試集中推薦給使用者的項目分布的熵。定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

P(i) 為:項目i在推薦清單中出現的次數 / sum(各個項目在推薦清單中出現的次數)。

覆寫率最簡單的定義是:推薦系統能夠推薦出來的物品占總物品的比例:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

其中分母為測試集項目集合大小,分子為被評分的項目集合大小。這個名額在冷啟動階段非常重要。預測新使用者或新商品的評分,覆寫率會降低。是以,覆寫率較低的推薦器系統可以推薦的項目數量有限。改善低覆寫率的一種簡單方法是對未知的使用者項輸入實施一些預設推薦政策。例如,我們可以将使用者對某項商品的平均評分視為其評分的估算值。這可能會以準确性為代價,是以在評估過程中需要考慮覆寫範圍和準确性之間的權衡。

新穎性衡量推薦系統推薦使用者以前不知道的新項目的能力。推薦清單可能是準确的,但是如果它包含許多對使用者而言并不新穎的項目,則不一定是有用的清單。

盡管應該在單個使用者級别上定義新穎性,但要考慮推薦商品的實際新鮮度,通常使用相對于其全局熱門度的推薦商品的自我資訊:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

其中popi是項i的受歡迎程度,以對i進行評價的使用者的百分比來衡量。Lu是使用者u的前N條推薦的推薦清單。上面的定義假設使用者選擇以前未知的商品的可能性與其全局熱門度成正比,并被用作新穎性的近似值。為了獲得有關新穎性或新鮮度的更準确的資訊,需要明确的使用者回報,特别是因為使用者以前可能已經通過其他管道收聽了音樂。

通常假設使用者偏愛帶有更多新穎項目的推薦清單。但是,如果所呈現的項目太新穎,則使用者不太可能對它們有任何了解,也無法了解或評價它們。是以,中等值表示性能更好。

偶然性旨在根據相關且令人驚訝的建議評估MRS。盡管對偶然性的需求已達成共識,但如何衡量推薦清單的偶然性問題卻存在争議。這特别适用于以下問題:驚奇因素是否意味着物品對于使用者而言必須是新穎的。從總體上講,可以将提供給使用者u的推薦清單Lu的偶然性定義為:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

其中Lunexp和Luseful表示L的子集,它們分别包含對使用者來說是意外的和對使用者有用的推薦。通常通過顯式詢問使用者或以使用者評分為代理來評估項目的有用性。通常,通過與預期項目之間的某種距離度量來量化項目的意外性。這些項目類似于使用者已經評估的項目。在MRS的背景下,Zhang提出了一種“非偶然性”度量,該度量被定義為使用者收聽曆史記錄中的項目與新推薦之間的平均相似度。在這種情況下,兩個項目之間的相似性是通過整合餘弦資訊(即喜歡這兩個項目的使用者數量)的适應餘弦度量來計算的。假定較低的值對應于更令人驚訝的推薦,因為較低的值表明推薦偏離了使用者的傳統行為。

多樣性是挑戰1的局限性部分中已經讨論的另一種超出準确性的度量标準。它衡量推薦項目彼此之間的差異程度,其中差異可能與各個方面,音樂風格,藝術家,歌詞或樂器有關,僅舉幾個。與偶然性相似,可以通過多種方式定義多樣性。最常見的方法之一是計算推薦集中所有項目之間的平均距離或相加距離。在前一種情況下,推薦清單L的多樣性計算如下:

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

其中distij是項i和j之間定義的某個距離函數。常見的選擇是反餘弦相似度,反皮爾遜相關系數或漢明距離。

當涉及評估播放清單推薦的任務時,目标是評估推薦在後續歌曲之間提供适當過渡的能力,是以傳統的錯誤或準确性名額可能無法捕獲此屬性。是以,需要序列感覺的評估措施。例如,考慮這樣一種情況:既喜歡古典音樂又喜歡搖滾音樂的使用者在聽完經典曲目後立即被推薦為搖滾音樂。即使兩種音樂風格都符合她的口味,但歌曲之間的過渡對于提高使用者滿意度也起着重要作用。在這種情況下,給定目前播放的歌曲并在接下來要播放的幾個同樣可能的好的選擇中,RS可能會根據歌曲的受歡迎程度對歌曲進行排名。是以,已經提出了諸如平均對數似然率之類的其他度量來更好地對轉變進行模組化。在這方面,當目标是推薦一系列項目時,需要使用替代的多名額評估方法來考慮多個品質因素。這樣的評估名額可以考慮建議的排名順序,或者考慮整個推薦清單的内部一緻性或多樣性。在許多情況下,采用此類品質名額可能會導緻精度方面的權衡,應通過RS算法進行權衡。

2.4.3 局限性

到目前為止,推薦系統研究中的絕大多數評估方法都集中在定量方法上,無論是準确性還是超出準确性,通常都是在離線研究中計算出來的。這樣做的好處是便于評估結果的可重複性。但是,将評估限制為定量措施意味着要放棄另一個重要因素,即使用者體驗。換句話說,在沒有以使用者為中心的評估的情況下,很難要求擴充到評估中的推薦系統的更重要的目标,進而為使用者提供愉悅而有用的個性化體驗。

盡管承認需要更多的以使用者為中心的評估政策,但人們、使用者或就MRS而言,聽衆的因素仍然經常被忽視或未得到适當解決。例如,盡管存在針對偶然性和多樣性的定量客觀名額,但是如上所述,感覺到的偶然性和多樣性可能與測得的差異很大,因為它們是主觀的使用者特定概念。這說明即使是超精确度的度量也無法完全捕捉對推薦系統的真實使用者滿意度。另一方面,可以研究解決使用者體驗(UX)的方法來評估推薦系統。例如,可以基于使用者參與度來評估MRS,這提供了對UX的有限解釋,該解釋集中在互動過程中對産品品質的判斷上。使用者滿意度,使用者參與度以及更廣泛的使用者體驗通常需要通過使用者研究進行評估。

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

針對客觀和主觀評估标準,Knijnenburg提出了一個以使用者為中心的推薦系統評估整體架構。圖1概述了這些元件。

  • 客觀系統方面(OSA) 是RS的無偏因素,包括使用者界面,算法的計算時間或顯示給使用者的項目數等方面。它們通常易于指定或計算。
  • OSA影響主觀系統方面(SSA),這是由與系統互動時的瞬間,主要的評估感覺引起的。這導緻不同的使用者對系統有不同的了解。是以,SSA是高度個人化的方面,通常通過使用者調查表進行評估。 SSA的示例包括系統的總體吸引力,可用性和感覺的推薦多樣性或新穎性。
  • 體驗方面(EXP) 描述了使用者對系統的态度,通常還通過調查表進行調查。它解決了使用者對與系統互動的感覺。體驗受其他元件的影響很大,這意味着更改任何其他元件可能會導緻EXP方面的更改。經驗可以分解為對系統的評估,決策過程和做出的最終決定,即結果。
  • 互動(INT)方面 描述了使用者的可觀察行為,檢視項目所花費的時間以及點選或購買行為。在音樂環境中,示例還包括喜歡歌曲或将其添加到播放清單。是以,互動方面屬于客觀度量,通常由系統記錄下來确定。最後,
  • Knijnenburg等人的架構提到了會影響使用者體驗的個人特征(PC)和情境特征(SC)。 PC包括沒有使用者就不存在的方面,例如使用者人口統計,知識或感覺控制,而SC包括互動上下文的方面,例如使用系統的時間和地點,或特定于情境的信任或隐私問題。

Knijnenburg等還提出了一份問卷,以評估架構中定義的因素,例如,感覺推薦品質,感覺系統有效性,感覺推薦多樣性,選擇滿意度,提供回報的意圖,對技術和系統的普遍信任特定的隐私問題

盡管此架構是通用架構,但根據MRS對其進行定制将允許其以使用者為中心進行評估。特别是,個人和情景特征方面應分别适應音樂收聽者和收聽情況的特殊性,請參見。第2.1節。為此,MRS的研究人員應考慮與音樂的感覺和偏愛有關的方面,以及它們對MRS的影響,這已在幾項研究中得到了證明。除了Knijnenburg等人提到的一般性因素外,在音樂領域中非常重要的似乎是心理因素,包括情感和性格,社會影響力,音樂訓練和經驗以及生理狀況。

我們相信,在離線和線上實驗中,通過準确性和超越準确性,客觀和主觀的措施仔細全面地評估MRS,将會更好地了解聽衆對MRS的需求和要求,并且最終大大改善了目前的MRS。

3. 未來方向和願景

盡管已經對上一節中确定的挑戰進行了深入研究,但在下文中,我們提供了更具前瞻性的分析,并讨論了一些與MRS相關的趨勢主題,我們認為這些主題對下一代MRS具有影響。他們都有一個共同點,即他們的目标是建立更多個性化的推薦。更準确地說,我們首先概述如何将諸如人格和情感之類的心理建構整合到MRS中。随後,我們讨論了情境感覺MRS,并提出了描述上下文和情境偏好的多方面使用者模型的需求。最後,我們讨論了使用者的文化背景對推薦偏好的影響,在建構具有文化意識的MRS時需要考慮這一點。

3.1 心靈啟發的音樂推薦

個性化和情感是重要的心理建構。人的性格特征是塑造人的行為的一種可預測且穩定的量度,而情緒是對特定刺激的短期情感反應。兩者都顯示出會影響音樂品味和使用者對MRS的要求。但是,在(音樂)推薦系統的背景下,個性和情感尚未發揮主要作用。鑒于有力的證據表明,兩者都會影響聽覺偏好,并且最近出現了根據使用者生成的資料準确預測聽覺偏好的方法,是以我們認為受心理啟發的MRS即将到來。

3.1.1 個性化

在心理學研究中,人格通常被定義為“源自個人内部的一緻的行為模式和人際交往過程” 。這個定義考慮了人們在情感,人際,體驗,态度和動機方面的個體差異。一些先前的工作研究了決策與人格因素的關系。個性可以影響人類的決策過程以及品味和興趣。由于這種直接關系,具有相似人格因素的人很可能會分享相似的興趣和愛好。

先前對使用者個性特征進行的研究支援個性資訊在推薦系統中可能具有的潛在好處。比如,心理學研究表明,性格外向的人可能更喜歡樂觀和傳統的音樂。是以,基于個性的MRS可以使用此資訊更好地預測哪些歌曲比其他歌曲更可能吸引人們。潛在用法的另一個例子是利用個性資訊,以便計算使用者之間的相似性,進而确定志趣相投的使用者。然後可以将該相似性資訊內建到基于鄰域的協作過濾方法中。

為了在推薦系統中使用個性資訊,系統首先必須從使用者那裡擷取此資訊,這可以顯式地或隐式地完成。在前一種情況下,系統可以要求使用者使用個性評估清單,填寫個性問卷。在後一種情況下,系統可以通過跟蹤和觀察使用者的行為模式來學習個性,例如,使用者在Facebook上的喜歡行為或對Instagram上釋出的圖像濾鏡。 明确引出個性特征的系統在使用者滿意度,易用性和預測準确性等方面都具有出色的推薦效果。然而,不利的一面是,許多使用者不願意在使用RS之前填寫較長的問卷。緩解此問題的一種方法是僅向使用者詢問個性工具的資訊量最多的問題。不過,首先需要基于現有使用者資料以及推薦領域來确定問哪些問題最有用。其他研究表明,使用者在某種程度上願意提供更多資訊,以換取更好的推薦品質。

個性資訊可以以多種方式使用,特别是在缺少傳統的評分或消費資料時生成推薦。此外,人格特質可以看作是擴充使用者資料的附加功能,主要用于識别基于鄰域的推薦系統中的相似使用者,或直接輸入擴充矩陣分解模型中。

3.1.2 情緒

MRS使用者的情緒狀态對其短期音樂喜好有很大影響。反之亦然,音樂對我們的情緒狀态有很大的影響。是以,将情感調節作為人們聽音樂的主要原因之一就不足為奇了。舉例來說,與悲傷時相比,人們在悲傷時可能會聆聽完全不同的音樂流派或風格。确實,有關音樂心理學的先前研究發現,人們可能會選擇音樂類型來緩解他們的情緒狀況。最近的發現表明,可以主要選擇音樂,以增強聽衆感覺的情緒狀況。為了建構可感覺情緒的MRS,是以有必要

  • (i)推斷收聽者所處的情緒狀态
  • (ii)從音樂本身推斷出情感概念
  • (iii)了解這兩者之間的互相關系

下面将詳細介紹這三個任務。

抽取聽衆的情緒狀态:類似于人格特質,可以顯式或隐式激發使用者的情緒狀态。在前一種情況下,通常會向使用者顯示各種分類模型之一(通過不同的情感詞(例如幸福,悲傷,憤怒或恐懼)描述情感)或尺寸模型(情緒是由相對于二維或三維的分數描述的)。可以例如通過分析視訊中使用者生成的文本,語音或面部表情來實作對情感狀态的隐式擷取。

音樂中的情感标記:音樂作品本身可以被認為是一種充滿情感的内容,并且可以用情感詞來描述**。自動将此類情感詞配置設定給樂曲的任務是一個活躍的研究領域,通常被稱為音樂情感識别(MER)。但是,由于多種原因,如何将MER工具建立的此類情感術語整合到MRS中并非易事。首先,早期的MER方法通常忽略了預期情緒,感覺情緒與誘發情緒之間的差別**。目前的MER方法關注于感覺或誘發的情緒。但是,音樂内容仍然包含影響聽者情緒狀态的各種特征,例如歌詞,節奏和和聲,并且它們如何影響情緒狀态是高度主觀的。即使研究發現了一些通用規則,也是如此。例如,具有大調的音樂作品通常比小調的音樂作品更明亮,更快樂,或者以快節奏的音樂作品比慢節奏的音樂作品更令人興奮或緊張。

将聽衆的情感和音樂情感标簽聯系起來:目前基于情感的MRS通常将情感分數視為表征使用者正在經曆的情況的上下文因素。是以,推薦系統利用情緒以便預先過濾使用者的偏好或後過濾所生成的推薦。不幸的是,這忽略了心理背景,特别是在表達,感覺和誘發的情感之間的主觀和複雜的互相關系上。個性影響了聽衆偏愛哪種情感狀态的音樂。是以,即使自動MER方法能夠準确預測給定音樂作品的感覺或誘發的情感,在缺乏深層的心理聽衆概況的情況下,比對項和聽衆的情感注釋也可能無法産生令人滿意的建議。之是以如此,是因為人們如何判斷音樂以及他們偏愛哪種音樂在很大程度上取決于他們目前的心理和認知狀态。是以,我們認為MRS領域應該包含心理學理論,激發出使用者特定的特質,并将其整合到推薦系統中,以建立體面的情緒感覺MRS。

3.2 情境感覺的音樂推薦

大多數現有的音樂推薦器系統僅基于一組特定于使用者和特定于項目的信号進行推薦。但是,在實際情況下,還有許多其他信号可用。這些附加信号可以進一步用于改善推薦性能。這些附加信号的很大一部分包括情境信号。更詳細地,使用者的音樂喜好取決于推薦時的情況。例如,使用者的音樂喜好在圖書館和體育館中會有所不同。是以,将位置視為特定情況的信号可能會導緻推薦性能的顯着改善。一天中的時間是可以用于推薦的另一種情況信号。例如,使用者希望在早晨聽的音樂與晚上的音樂有所不同。在音樂領域中,一種特别重要的情況信号是社會背景,因為音樂的品味和消費行為深深植根于使用者的社會身份并互相影響。例如,使用者很可能在獨處時會喜歡與見朋友時不同的音樂。是以,在建構情境感覺MRS時應考慮這些社會因素。有時還會利用其他情況信号,包括使用者的目前活動,天氣,使用者的心情以及星期幾。關于時間,還有另一個要考慮的因素,那就是多數年前被認為是時尚的音樂現在被認為是古老的。這意味着同一首歌曲或歌手的收聽率可能會大大不同,不僅在使用者之間,而且通常是時間的次元。為了将這些方面納入MRS,記錄所有收聽率的時間戳至關重要。

值得注意的是,情境特征已被證明是改善搜尋引擎檢索性能的有力信号。是以,我們認為,研究和建立情境感覺音樂推薦系統應該是MRS研究的中心課題。

盡管已經存在幾種感覺情景的MRS,但它們通常僅利用一個或很少的這種情景信号,或者被限制在特定的使用上下文中,例如,汽車或旅遊者場景中的音樂消費。另一方面,那些試圖從更全面的角度考慮各種信号的系統,由于資料執行個體或使用者數量很少,使得建立準确的上下文模型非常困難。我們認為,仍然缺少的是(商業)系統,這些系統大規模地內建了各種情況信号,以便真正了解聽者在任何給定情況下的需求和意圖,并相應地推薦音樂。雖然我們知道資料可用性和隐私問題會在大規模商業規模上阻礙此類系統的實作,但我們相信MRS最終将內建從上下文和情景因素推斷出多方面的使用者模型。

繼續閱讀