天天看点

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

摘要

近年来,由于在线流媒体服务的出现和成功,音乐推荐系统(MRS)经历了飞速发展,如今,在线推荐服务几乎可以使所有音乐触手可及。尽管当今的MRS可以极大地帮助用户在这些庞大的目录中找到有趣的音乐,但MRS的研究仍面临着严峻的挑战。特别是在构建、合并和评估推荐策略时,这些策略除了将信息整合到简单的用户物品交互、基于内容表达之外,还需要深入挖掘听众的需求、偏好和意图的本质。MRS研究成为很大的努力方向,但相关的出版物却很少。

此趋势和调查文章的目的是双重的。我们首先从学术和行业角度确定并阐明我们认为MRS研究面临的最紧迫挑战。我们回顾了解决这些挑战的最新技术并讨论了其局限性。其次,我们详细介绍了我们为该领域的进一步发展而设想的未来方向和愿景。因此,本文应有两个目的:为感兴趣的读者提供有关MRS研究中当前挑战的概述,并通过确定该领域有趣但未充分研究的方向为年轻研究人员提供指导。

1. 介绍

音乐推荐系统(MRS)的研究最近在学术界和行业中都获得了很大的兴趣。借助Spotify,Pandora或Apple Music之类的音乐流媒体服务,如今,音乐爱好者可以访问数千万首音乐作品。通过过滤大量的音乐项目,从而限制了选择的负担,MRS通常非常成功地建议适合其用户喜好的歌曲。但是,这样的系统还远远不够完善,经常会产生不令人满意的建议。部分原因在于用户的品味和音乐需求高度依赖于多种因素,而在当前的MRS方法中,这些因素并未得到足够深入的考虑,这些方法通常以用户与项目交互的核心概念为中心,或者有时是基于内容的项目描述符。相反,我们认为要满足用户的音乐娱乐需求,就需要考虑听众的内在、外在和语境方面,以及更体面的互动信息。 例如,已知听众的性格和情感状态(内在的)以及他们的活动(内在的)会影响音乐的品味和需求。用户的情境因素也是如此,包括天气条件,社交环境或名胜古迹。音乐播放列表或收听会话的组成和注释还揭示了有关哪些歌曲搭配得很好或适合于特定场合的信息。因此,MRS的研究人员和设计人员应该以一种整体的方式重新考虑他们的用户,以便构建针对每个用户的特殊性的系统。

在此背景下,在本趋势和调查文章中,我们通过讨论各自的最新技术水平及其局限性,详细阐述了我们认为是MRS研究中当前最紧迫的挑战之一(第2节)。无法完全解决所有挑战,我们专注于冷启动,自动播放列表继续和MRS评估。虽然这些问题在某种程度上在其他推荐领域中也很普遍,但是音乐的某些特征在这些情况下提出了特殊的挑战。其中包括项目的持续时间短(与电影相比),音乐的高情感内涵以及用户接受重复推荐的情况。在第二部分中,我们介绍了我们对MRS研究的未来方向的愿景(第3节)。更准确地说,我们详细介绍了受心理启发的音乐推荐(考虑人的个性和情感),情境感知的音乐推荐和文化感知的音乐推荐的主题。我们以总结和确定感兴趣的研究人员面对讨论的挑战的可能起点的结论作为结尾(第4节)。

2. 重大的挑战

在下文中,我们确定并详细说明了一些重大挑战,我们认为音乐推荐系统的研究领域目前正面临这些挑战,即克服冷启动问题,自动播放列表继续和正确评估音乐推荐器系统。我们回顾了各个任务的最新状态及其当前的局限性。

2.1 音乐推荐的特殊性

在我们开始深入研究这些挑战之前,我们首先要强调使音乐推荐成为特定工作,并将其与推荐其他项目(例如电影,书籍或产品)区分开。

项目的持续时间:在传统电影推荐中,感兴趣的项目的典型持续时间为90分钟或更长。在书中推荐,消耗时间通常甚至更长。相反,音乐项目的持续时间通常在3到5分钟之间(古典音乐除外)。因此,音乐项目可能被认为更易于使用。

项目集合的大小:常见的音乐集合有几千万,而电影的集合要小多(几万)。因此,可扩展性在音乐推荐中比在电影推荐中更重要。

顺序消费:与电影不同,音乐作品是按顺序消费的,一次最多消费一次,即在收听会话或播放列表中。这给MRS带来了许多挑战,与确定推荐列表中项目的正确排列有关。

先前推荐项目的推荐:与电影推荐者相比,MRS的用户可能会在以后的某个时间点再次推荐同一首乐曲,而电影或产品推荐者通常不希望重复推荐。

消费行为:音乐通常是在背景中被动消费的。虽然这本身不是问题,但它可能会影响推荐系统对听众偏好预测。特别是,当使用隐式反馈来推断听众的偏好时,听众没有注意音乐(例如,没有主动点击跳过歌曲),可能被错误地解释为正反馈。

聆听意图和目的:音乐为人们服务于各种目的,因此塑造了他们聆听音乐的意图。构建MRS时应考虑到这一点。在广泛的文献和实证研究中,Schafer等人,从129种不同的音乐用途和功能中,提炼出了三种音乐聆听的基本意图:自我意识,社交关系以及情绪调节。自我意识被认为是与听音乐的非常私人的关系。自我意识维度“帮助人们思考自己是谁,他们想成为谁,以及如何走自己的路” 。社交关系描述了使用音乐来与朋友亲近并向他人表达身份和价值观。情绪调节与情绪管理,当涉及到人类的幸福时,这是一个至关重要的问题。实际上,一些研究发现,情绪和情绪调节是人们听音乐的最重要目的,因此,我们在下面分别讨论情绪在听音乐时扮演的特殊角色。

情绪:众所周知,音乐会唤起强烈的情绪。但是,这是一种相互关系,因为用户的情绪也会影响音乐的喜好。由于音乐与情绪之间的这种紧密联系,以情绪词自动描述音乐的问题是一个活跃的研究领域,通常被称为音乐情绪识别(MER)。尽管可以使用MER来通过情绪术语来标记音乐,但是如何将这些信息集成到MRS中仍然是一项非常复杂的任务:

  • 首先,MER方法通常会忽略预期的情绪(即作曲家,作曲家或表演者在创作或演奏作品时所想到的情绪),感知的情绪(即在聆听时识别出的情绪)和诱发的情绪之间的区别。
  • 其次,是否对某种情绪的音乐有偏好,这取决于用户是否要增强或调节其这方面的情绪。
  • 第三,情绪变化常常发生在同一首乐曲中,而标签通常是从整首乐曲中提取出来的。因此,根据情绪来匹配音乐和听众,需要将听众的音乐偏好和他们情绪体验的时间依赖性函数建模,同时还要考虑预期的作用(增强情绪或调节)。这是一项极富挑战性的任务,通常在当前的MRS中被忽略,因此,我们将情绪感知型MRS讨论为MRS研究的主要未来方向之一,请参见第3.1节。

聆听情景:情景对音乐的喜好、消费和互动行为有很大影响。例如,与准备与朋友在周五晚上外出热身时相比,听众在准备浪漫晚餐时可能会创建不同的播放列表。最常被考虑的情景类型包括位置(例如,在工作场所的通勤,上下班或在家中放松)和时间(通常分为例如,上午,下午和晚上)。此外,情景还可能与听众的活动、天气或使用不同的听觉设备有关。例如,智能手机上的耳塞与家庭中的高保真立体声。由于听音乐也是一种高度社交活动,因此调查听众的社会背景对于理解他们的听觉偏好和行为至关重要。通过讨论情境感知型MRS作为趋势研究方向,可以认识到在MRS研究中考虑此类情境因素的重要性,请参见第3.2节。

2.2 挑战1:冷启动问题

2.2.1 问题定义

一般而言,推荐系统(尤其是音乐推荐系统)的主要问题之一是冷启动问题,即新用户注册到系统或目录中添加了新项目时,系统没有足够的数据与这些项目/用户关联。在这种情况下,系统不能正确地将现有项目推荐给新用户(新用户问题)或将新项目推荐给现有用户(新项目问题)。

冷启动的另一个子问题是稀疏性问题,即实际产生“用户-音乐”评分的数量远低于全部的“用户-音乐”之间评分的数量,当用户和物品的数量很大时,这种情况尤为突出。**高稀疏度导致评分覆盖率低,因为大多数用户倾向于对一小部分商品进行评分,推荐结果常常变得不可靠。**在大多数实际推荐系统中,稀疏度的典型值非常接近100%。在音乐领域,这是一个特别重大的问题。例如,分析了Yahoo!音乐数据集,截至撰写本文时,它代表最大的音乐推荐数据集。他们报告的稀疏度为99.96%。为了进行比较,Netflix的电影数据集的稀疏度为 98.82%。

2.2.2 SOTA

研究已经提出了许多方法来解决音乐推荐领域中的冷启动问题,其中最重要的是基于内容的方法、混合、跨域推荐和主动学习。

基于内容的推荐(CB)算法不需要目标用户以外的其他用户的评分。因此,只要可以获得有关用户自己的首选项的某些信息,这些技术就可以用于冷启动场景。此外,在最严重的情况下,当将新项目添加到目录中时,基于内容的方法将启用推荐,因为它们可以从新项目中提取特征并使用它们来推荐。值得注意的是,尽管协作过滤(CF)系统对于新用户和新项目都存在冷启动问题,但基于内容的系统仅对新用户具有冷启动问题。

对于新项目问题,一种标准方法是提取许多能够定义音频信号声学的特性,并使用基于内容的用户兴趣学习(用户画像特征学习)以实现推荐。特征提取通常是自动完成的,但也可以由音乐专家手动完成,例如Pandora的“音乐基因组计划”。 Pandora每首歌曲最多使用450个特定的描述符,例如“激进的女歌手”,“突出的备用声音”,“抽象的歌词”或“使用不寻常的和声”。无论特征提取过程是自动执行还是手动执行,此方法不仅有利于解决新商品问题,而且在随后的信息过滤阶段,由于准确的特征表示,可以很好预测用户的喜好和兴趣。音乐对视频的优势在于,与视频的音频和视觉通道相比,音乐的功能仅限于单个音频通道。

可以通过两种主要方式从音频信号中自动提取特征:

(1)通过独立于其他项目从每个项目中分别提取一个特征向量

(2)考虑训练数据集中项目之间的相互关系

不同之处在于, 在(1)中,在系统的训练和测试阶段执行相同的过程,并且提取的特征向量可以在后续处理阶段直接使用。 例如,在测试时以一对一的方式计算项目之间的相似度。相反,在(2)中,首先从训练阶段提取的所有特征构建模型,其主要作用是将特征映射到新的(声学)空间,在该空间中,可以更好地表示和利用项目之间的相似性。方法(1)的一个示例是块级特征框架,该框架为给定音乐集合中的每首歌曲独立创建约10,000个维度的特征向量。 该矢量描述了各个方面,例如频谱模式,重复节拍以及频带之间的相关性。

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

策略(2)的一个例子是《I-VECTORS FOR TIMBRE-BASED MUSIC SIMILARITY AND MUSIC

ARTIST CLASSIFICATION》。如上图,从梅尔频率倒谱系数(MFCC)创建低维i向量表示,该频率在某种程度上模拟了音色。为此,使用高斯混合模型(GMM)从整个音乐收藏的MFCC向量创建通用背景模型。 对GMM的表示进行因子分析最终会产生i向量。

在某种形式的语义标签(例如流派或乐器)可用的情况下,可以使用机器学习技术构建模型来学习低级音频特征和语义表示之间的中间映射,然后使用所学习的模型用于预测。

解决新项目问题的另一种技术是hybridization。

  • 《A Hybrid Social-acoustic Recommendation System for Popular Music》

    推荐系统将声学CB和基于项目的CF推荐器相结合。对于基于内容的组件,它会计算声学特征,包括频谱特性、音色、节奏和音高。然后,基于内容的组件协助协作过滤推荐器解决冷启动问题。

  • 《Hybrid Collaborative and Content-based Music Recommendation

    Using Probabilistic Model with Latent User Preferences》

    当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景
    一种混合推荐系统,是通过特征混合将CF和声学CB策略结合在一起。但是,在这项工作中,不会在原始特征域中执行特征级混合。相反,引入了一组称为conceptual genre的潜在变量,其作用是为两个推荐任务提供一个公共的共享特征空间并实现hybridization。与潜在变量相关联的权重反映了目标用户的音乐品味,并且是在训练阶段学习的。
  • 《Music Recommendation Based on Acoustic

    Features and User Access Patterns》

    当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

作者提出了一种混合推荐系统,该系统包含基于相似度学习的项目CF和声学CB。提出的度量学习是一种优化模型,旨在学习与音频内容特征相关联的权重(当以线性方式组合时),以便在基于CF的相似性和声学CB相似性度量之间建立一定程度的一致性。可以使用二次编程技术解决优化问题。

冷启动的另一种解决方案是跨域推荐技术,该技术旨在通过利用有关辅助域中用户偏好的信息来改善一个域(此处为音乐)中的推荐。因此,用户偏好的知识从辅助域转移到音乐域,从而形成了更完整,更准确的用户模型。同样,也可以集成与(新)用户有关的,与音乐不直接相关的其他信息(例如他们的个性),以改善对用户音乐偏好的估算。

除上述方法外,主动学习在处理单域或跨域推荐场景中的冷启动问题方面也显示出令人鼓舞的结果。 主动学习通过识别和获取(高质量)数据来解决此问题,而该数据可以更好地代表用户的喜好,而不是通过他们自己提供的数据。 因此,这样的系统交互地要求特定的用户反馈,以最大化系统性能的改善。

2.2.3 局限性

上面阐述的最新方法受到某些限制。例如,在使用基于内容的过滤时,几乎所有现有方法都依赖于一遍又一遍地使用的许多预定义音频特征,包括频谱特征,MFCC和大量派生特征。但是,这样做是假设(所有)这些特征都可以预测用户的音乐品味,而实际上已经证明,对于音乐的感知很重要的声学特性是高度主观的。此外,听众对不同音乐的不同品味和兴趣程度会影响对项目相似性的感知。这种主观性要求推荐系统将个性化纳入其数学模型。

  • RLFM

    提出了一种混合(CB + CF)推荐模型,即基于回归的潜在因子模型:

    当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景
  • UFSM

    作者提出了一个基于用户特定特征的相似度模型:

    当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景
    • 首先,每个用户都有自己的相似性特征,这导致了更高的个性化程度。
    • 其次,这些用户特定的相似度函数是固定数量的用户独立的相似度函数(称为全局相似度函数)的线性组合得出的。这些全局相似性特征对于所有用户都是相同的,但是它们以针对每个用户的特定方式组合在一起,从而导致不同的特定于用户的相似性特征。
    • 第三,通过考虑所有用户的历史偏好来估计全局相似性函数及其特定于用户的组合权重,从而允许他们在整个数据集中利用信息。

如上例所示,虽然hybridization因此可以在一定程度上缓解冷启动问题,但各种方法通常很复杂,计算量大且缺乏透明度。特别是,对于人类而言,采用潜在因子模型的hybridization的结果通常难以理解。

跨域推荐系统的主要问题是它们需要连接两个或多个目标域(例如,书籍,电影和音乐)的数据。为了使这种方法正常工作,项目、用户或两者都需要在一定程度上重叠。在没有这种重叠的情况下,必须以其他方式建立域之间的关系。例如,通过推断不同域中的项目之间的语义关系,或者假设所涉及域中用户的评分模式相似。但是,各种方法是否能够在域之间传递知识存在争议。跨域推荐中的问题是,缺少建立的具有明确定义域和推荐方案的数据集。因此,有关跨域RS的大多数现有工作都使用某种类型的常规推荐数据集转换来满足其需求。

最后,主动学习技术也遭受许多问题的困扰:

  • 首先,典型的主动学习技术倾向于对向用户推荐对系统预测对他们感兴趣的项目进行评分,即具有最高预测评分的项目。这确实是推荐系统中用于获得评分的默认策略,因为用户倾向于对已推荐给他们的内容进行评分。即使用户浏览商品目录,他们也更有可能对自己喜欢或感兴趣的商品进行评分,而不是对自己不喜欢或漠不关心的商品进行评分。确实,已经表明这样做会在收集的评分数据中产生强烈的偏差,因为数据库不成比例地填充了高评分。反过来,这可能会严重影响预测算法并降低推荐准确性
  • 此外,并非所有主动学习策略都必须个性化。用户在有关项目,偏好和决策方式方面的信息量差异很大。因此,请求所有用户对同一组项目进行评分显然效率低下,因为许多用户可能掌握的知识非常有限,忽略了许多项目,因此不会为这些项目提供评分。正确设计的主动学习技术应考虑到这一点,并向不同的用户推荐不同的项目以进行评分。这可能是非常有益的,并增加了获得更高质量评级的机会。
  • 此外,为推荐系统中的主动学习而设计的传统交互模型,要在注册过程中支持建立用户的初始画像特征。这是通过请求用户对一组所选项目进行评分来生成用户个人资料来完成的。另一方面,用户还必须能够随时通过提供更多评分来更新其个人资料。这要求系统采用对话交互模型,例如,通过利用用户界面中新颖的交互设计元素,例如可以描述提供更多评分并激励用户这样做的好处的解释。
  • 最后,重要的是要注意,在运行中的推荐系统中,不仅由系统要求(主动学习),而且由用户自愿浏览商品目录并对某些商品进行评分时,由用户给出评分熟悉的项目(自然获得评级)。尽管这可能会对系统的性能产生巨大影响,但在推荐系统的主动学习领域中,大多数研究工作都忽略了它。实际上,几乎所有的研究工作都是基于一个不切实际的假设,即收集新评分的唯一来源是通过系统请求。因此,在研究推荐系统中的主动学习技术时,考虑到更现实的情况至关重要,这可以更好地描绘出当用户提供评分时系统如何随着时间而发展。

2.3 挑战2:自动播放列表延续

2.3.1 问题定义

按照其最一般的定义,播放列表只是一系列打算一起收听的曲目。然后,自动播放列表生成(APG)的任务是指自动创建曲目序列。在这种情况下,播放列表中要生成的歌曲的顺序通常被突出显示为APG的特征,这是一项非常复杂的工作。因此,一些作者提出了基于马尔可夫链的方法来对播放列表中歌曲之间的位置进行建模。尽管已证明这些方法在对数似然性方面优于与歌曲顺序无关的方法,但最近的研究发现,几乎没有证据表明现实中多首歌曲之间确切顺序对用户很重要,但发现了播放列表中的歌曲集合、“歌曲->歌曲”的直接切换确实很重要。

自动播放列表生成(APG)的衍生任务为 自动播放列表延续(APC),即往播放列表中自动添加一两首歌曲,且添加的歌曲要具有原先列表中歌曲相同的特定。 这在收听和创建播放列表中都有好处:用户可以欣赏有限长度播放列表结束后的听音乐,同时还可以轻松创建更长、更引人注目的播放列表,而无需对音乐有广泛的了解。

APC任务的很大一部分是准确推断给定播放列表的预期目的。这具有挑战性,不仅因为这些预期目的范围广泛,而且还因为推断这些目的可能需要的基本特征或特性的多样性。

与挑战1相关,此任务的极端冷启动方案是使用某些元数据(例如,播放列表的标题)创建播放列表,但没有将歌曲添加到该播放列表中。可以将这个问题解释为临时信息检索任务,其中的任务是响应用户提供的元数据查询对歌曲进行排名。

APC任务还可以潜在地受益于用户画像特征,例如,利用先前的播放列表和用户的长期收听历史。我们称此为个性化播放列表的延续。

根据音乐商业协会(Music Business Association)在2016年进行的一项研究,作为其Music Biz Consumer Insights计划的一部分,播放列表占美国听众音乐收听时间的31%,高于专辑(22%),但更少比单曲(46%)。 MIDiA进行的其他研究表明,有55%的流媒体音乐服务订户创建了音乐播放列表,其中一些流媒体服务(例如Spotify)目前托管了超过20亿个播放列表。在尼尔森(Nielsen)进行的2017年研究中,发现58%的用户在美国创建自己的播放列表,其中32%与他人共享。此类研究表明,播放列表作为一种音乐消费方式正变得越来越重要,因此,对APG和APC的研究从未如此重要。

2.3.2 SOTA

自从数字多媒体传输为用户提供大量音乐目录以来,就有了对APG进行了研究。 Bonnin和Jannach对该领域进行了全面的调查。在该框架中,作者将APG任务定义为: 给定一些曲目背景特征的“背景知识”(从中可以得出播放列表曲目),创建满足播放列表某些“目标特征”的一系列音乐。现有的APG系统以许多不同的方式解决了这些问题。

  • 在早期方法中,播放列表的目标特点被指定为多个显式约束,其中包括音乐属性或元数据,例如艺术家,节奏和风格。播放列表没有显示的特点,可以选择第一首歌或者是最后一首歌的特点来替代。
  • 还有其他方法,创建循环播放列表,该列表包含给定音乐集中的所有曲目,以使连续歌曲尽可能相似。
  • 还有的方法,播放列表是基于听众的上下文创建的。推荐既可以取决于单一因素,也可以与基于内容的相似性。如下图《Just-for-Me: An Adaptive Personalization System for LocationAware Social Music Recommendation》:
    当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

建立用于播放列表生成的音乐目录的“背景知识”的常用方法是使用机器学习技术从手动生成的播放列表中提取该知识。这里的假设是这些播放列表的生产者正在编码丰富的潜在信息,这些信息一起创造了令人满意的收听体验。APG和APC系统可以利用在线广播电台、在线播放列表网站和音乐流服务等来源的播放列表数据进行训练。

具体解决播放列表中歌曲顺序的一种方法是:使用在手工生成的播放列表上,训练一个生成模型。 McFee和Lanckriet采用元数据、熟悉程度和音频内容特征表示歌曲,并采用了统计自然语言处理中的思想,他们训练各种马尔可夫链来模拟歌曲之间的转换。同样,Chen等。 提出了一种逻辑马尔可夫嵌入来模拟歌曲转换,这类似于矩阵分解方法,并导致歌曲在欧几里得空间中的嵌入。与McFee和Lanckriet的模型相比,Chen等人的模型不使用任何音频特征。

2.3.3 局限性

尽管一些有关自动播放列表连续性的工作突出了播放列表的特殊性,即它们的顺序的。但尚不了解在何种程度上以及在哪种情况下,需要考虑播放列表中曲目的顺序有助于创建更好的推荐模型。例如,Vall等人最近在手动生成的播放列表的两个数据集上证明,当存在很多流行歌曲时,歌曲顺序对于准确的播放列表连续性似乎可以忽略不计。另一方面,作者认为,创建带有长尾音乐的播放列表时,顺序确实很重要。 McFee和Lanckriet的另一项研究也表明,效果在播放列表连续性建模中起着重要作用。这与Kamehkhosh等人的研究一致:用户将“歌曲顺序”确定为评判播放列表质量的第二个但也是最后一个重要标准。在Tintarev等人进行的另一项最新用户研究中,作者发现许多参与者并不关心关于推荐播放列表中曲目的顺序,有时他们甚至没有注意到存在特定顺序。

APC的另一个挑战是评估:换句话说,如何评估播放列表的质量。下一节将更详细地讨论一般的评估,但是围绕播放列表的评估存在一些具体问题,应在此处指出。正如Bonnin和Jannach所说的那样,最终的标准是用户满意度,但这并不容易衡量。McFee和Lanckriet将APG评估的主要方法归类为人类评估,语义衔接和序列预测:

  • 人工评估最接近直接测量用户满意度,但存在规模和可重复性的问题。
  • 语义衔接作为一种质量指标很容易测量和再现,但是假设用户偏爱播放列表,其中曲目沿着特定的语义维度是相似的,这可能并不总是正确的
  • 序列预测将APC用作信息检索任务,但是在音乐领域,不准确的预测不必是一个糟糕的推荐,这又导致该指标与用户满意度的最终标准之间存在潜在的脱节。

Lee调查了哪些因素对于积极的用户对播放列表的认知可能很重要。Lee进行了定性用户研究,调查了基于内容的相似性自动创建的播放列表。他们做了几个有趣的观察。参与者经常提出的一个问题是,连续歌曲过于相似,而且普遍缺乏多样性。但是,不同的人对多样性有不同的解释,例如,流派或风格的多样性与播放列表中的不同艺术家。同样,当听众判断播放列表中歌曲的连贯性时,提到了不同的标准,包括歌词内容,节奏和情绪。在创建播放列表时,参与者提到相似的歌词,共同的主题(例如,火车上听的音乐),故事(例如,独立日的音乐)或时代(例如,1980年代的摇滚音乐)很重要。

Lee还发现个人喜好起着主要作用。实际上,听众非常喜欢或讨厌的一首歌已经对他们判断整个播放列表的方式产生了很大的影响。如果它是一首非常受人喜爱的歌曲,这似乎尤其正确。此外,将熟悉的歌曲和未知的歌曲很好地混合在一起,这是对一个好的播放列表的重要要求。支持发现有趣的新歌(仍然被熟悉的情境所围绕),增加了在播放列表中实现偶然相遇的可能性。最后,参与者还报告说,他们对播放列表的类型或主题的熟悉程度影响了他们对其播放质量的判断。一般而言,听众对播放列表的选择会更加挑剔,因为他们熟悉或喜欢很多曲目。

在上面总结的研究的支持下,我们认为,制作出色播放列表的问题是高度主观的,并且进一步取决于创作者或听众的意图。创建或判断播放列表时,重要的标准包括曲目的相似度/一致性,多品类/多样性,以及用户的个人偏好和对曲目的熟悉程度以及播放列表创建者的意图。不幸的是,当前的自动播放列表连续方法,无法确定影响用户选择将哪些歌曲包括在播放列表中的潜在心理和社会因素。由于了解这些因素对于了解播放列表创建者的意图至关重要,因此我们认为APC的算法方法需要从手动创建的播放列表中全面学习这些方面,并整合各自的意图模型。但是,我们知道,在当今时代,在线流媒体服务的用户共享数十亿个播放列表,因此无法对心理和社会背景因素进行大规模分析。然而,在缺乏有关用户意图的明确信息的情况下,创建意图模型的起点可能是与用户生成的播放列表(例如标题或描述)相关联的元数据。为了促进此类研究,ACM Recommender Systems Challenge 2018数据集中提供的播放列表包括播放列表标题。

2.4 挑战3:评估音乐推荐系统

2.4.1 问题定义

推荐系统领域起源于机器学习(参见评级预测)和信息检索(参见基于用户偏好给出的隐式“查询”检索“项目”),最初采用了来自这些相邻领域的评估指标。实际上,准确性和相关的定量度量(例如精度,召回率或错误度量)(介于预测评分和真实评分之间)仍然是判断推荐系统推荐质量的最常用标准。另外,近年来出现了针对推荐问题的新颖措施。这些所谓的“超准确性”措施解决了推荐系统的特殊性和度量标准,例如项目的实用性,新颖性或偶然性。但是,这类措施的主要问题在于它们整合了难以用数学方法描述的因素,例如,在采取意外措施时会感到惊讶。因此,有时会存在各种不同的定义来量化相同的超出精度的部分。

2.4.2 SOTA

在下文中,我们讨论在评估推荐系统时最常报告的性能指标。表1给出了这些方法的概述。它们可以粗略地分类为与精度相关的度量,例如预测误差(例如,MAE和RMSE)或标准IR度量(例如,精度和召回率)以及超精度度量,例如多样性,新颖性和偶然性。此外,尽管某些指标量化了推荐系统找到良好项目的能力(例如准确性和召回率),但其他指标则考虑了项目的排名,因此评估了系统将良好建议置于推荐列表顶部的能力,例如 MAP、NDCG或MPR。

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

平均绝对误差(MAE)是评估推荐算法预测能力的最常用指标之一。它计算预测等级与用户提供的实际等级之间的平均绝对偏差。实际上,MAE表示由MRS生成的评分预测与真实用户评分有多接近。 MAE计算如下:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

均方根误差(RMSE)是另一个类似的指标:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

它是对MAE的扩展,因为误差项是平方的,这对预测和真实评分之间的较大差异的惩罚要比对较小额度的惩罚更大。这是基于这样一个假设的:例如,当真实评分为4时,对于同一项目的评分预测为1,比其预测3严重得多。

精度最高的K个推荐(P @ K)是衡量相关推荐项的准确性的通用指标。为了计算P @ K,对于每个用户,考虑其评分也出现在测试集T中的前K个推荐项。此度量标准最初是为二进制相关性判断而设计的。因此,在不同级别可获得相关性信息的情况下,应对标签进行二值化,例如,将大于或等于4的评分视为相关。对于每个用户u,Pu @K的计算如下:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

Lu是测试集T中用户u的相关项的集合。Lˆu表示推荐集合,其中包含用户T中具有最高预测评分的T中的K个项目。然后,通过对测试集中所有用户的 [email protected] 值求平均值来计算总 P@ K。

前K个推荐的平均精度的平均(MAP @ K)是基于等级的度量标准,用于计算不同推荐列表长度下系统的整体精度。 MAP计算为测试集中整个用户组的平均精度的算术平均值。前K个推荐(AP @ K)的平均精度定义如下:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

rel(i) 表示第i个推荐是否相关,取值要么是0,要么是1。N是相关项目的总数。请注意,MAP隐式合并了召回,因为它还考虑了推荐列表中未包含的相关项目。

为了完整起见,此处提出了召回前K个推荐的评估指标(R @ K),即使从消费者的角度来看这并不是至关重要的措施。实际上,收听者通常不希望被推荐所有或大量相关项,而是对在推荐列表顶部具有好的推荐感兴趣。对一个用户的R @ K定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

归一化折现累计收益(NDCG)是对推荐的排序质量的度量。最初提出此度量标准是为了评估信息检索系统的有效性。如今,它也经常用于评估音乐推荐系统。假设针对用户u的推荐是根据预测的评分值以降序排序的。DCGu被定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

其中 rui 是对用户u排名在位置i处的项目的真实评级(在测试集T中找到),而N是推荐列表的长度。由于评级分布取决于用户的行为,因此不同用户的DCG值不能直接比较。因此,应该归一化每个用户的累积增益。这是通过计算用户u的理想DCG(表示为IDCGu)来完成的。IDCGu是获得最佳排名的DCGu值,它是通过按降序按真实评级对项目进行排序而获得的。然后将用户u的归一化折现累计收益计算为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

最后,通过对整个用户集平均NDCGu来计算总体归一化折现累计增益NDCG。

在下文中,我们将介绍一些通用的定量评估指标,这些指标是为推荐系统的性能而专门设计或采用的,即使其中一些源于信息检索和机器学习。前两个(HLU和MRR)仍属于与准确性相关的度量的类别,而后两个则捕获了超出准确性的部分。

半衰期效用(HLU)假设用户查看/选择推荐项目的可能性随项目在排名中的位置呈指数级下降,从而衡量了用户推荐列表的效用。用户u的HLU定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

可以通过最大效用(类似于NDCG)进一步对HLUu进行归一化,最终的HLU是测试集中所有用户获得的半时效的平均值。较大的HLU可能对应于较高的推荐性能。

**平均百分等级(MPR)估计用户对推荐列表中项目的满意度,并计算为每个用户的测试集项目在推荐列表中的百分位的平均值。**项目的百分位,是在推荐列表中的位置等于或低于项本身位置的项的百分比。用户u的百分位PRu定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

rui是用户u评估的项目i的真实评分(在测试集T中找到),ranku是用户u的推荐排序列表中项目i的百分位。然后,MPR是所有用户上各个PRu值的算术平均值。随机排序的推荐列表的预期MPR值为50%。

Spread 是推荐器算法可以将其注意力分散到较大项目集上的程度的度量。更详细地说,Spread 是测试集中推荐给用户的项目分布的熵。定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

P(i) 为:项目i在推荐列表中出现的次数 / sum(各个项目在推荐列表中出现的次数)。

覆盖率最简单的定义是:推荐系统能够推荐出来的物品占总物品的比例:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

其中分母为测试集项目集合大小,分子为被评分的项目集合大小。这个指标在冷启动阶段非常重要。预测新用户或新商品的评分,覆盖率会降低。因此,覆盖率较低的推荐器系统可以推荐的项目数量有限。改善低覆盖率的一种简单方法是对未知的用户项输入实施一些默认推荐策略。例如,我们可以将用户对某项商品的平均评分视为其评分的估算值。这可能会以准确性为代价,因此在评估过程中需要考虑覆盖范围和准确性之间的权衡。

新颖性衡量推荐系统推荐用户以前不知道的新项目的能力。推荐列表可能是准确的,但是如果它包含许多对用户而言并不新颖的项目,则不一定是有用的列表。

尽管应该在单个用户级别上定义新颖性,但要考虑推荐商品的实际新鲜度,通常使用相对于其全局热门度的推荐商品的自我信息:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

其中popi是项i的受欢迎程度,以对i进行评价的用户的百分比来衡量。Lu是用户u的前N条推荐的推荐列表。上面的定义假设用户选择以前未知的商品的可能性与其全局热门度成正比,并被用作新颖性的近似值。为了获得有关新颖性或新鲜度的更准确的信息,需要明确的用户反馈,特别是因为用户以前可能已经通过其他渠道收听了音乐。

通常假设用户偏爱带有更多新颖项目的推荐列表。但是,如果所呈现的项目太新颖,则用户不太可能对它们有任何了解,也无法理解或评价它们。因此,中等值表示性能更好。

偶然性旨在根据相关且令人惊讶的建议评估MRS。尽管对偶然性的需求已达成共识,但如何衡量推荐清单的偶然性问题却存在争议。这特别适用于以下问题:惊奇因素是否意味着物品对于用户而言必须是新颖的。从总体上讲,可以将提供给用户u的推荐列表Lu的偶然性定义为:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

其中Lunexp和Luseful表示L的子集,它们分别包含对用户来说是意外的和对用户有用的推荐。通常通过显式询问用户或以用户评分为代理来评估项目的有用性。通常,通过与预期项目之间的某种距离度量来量化项目的意外性。这些项目类似于用户已经评估的项目。在MRS的背景下,Zhang提出了一种“非偶然性”度量,该度量被定义为用户收听历史记录中的项目与新推荐之间的平均相似度。在这种情况下,两个项目之间的相似性是通过整合余弦信息(即喜欢这两个项目的用户数量)的适应余弦度量来计算的。假定较低的值对应于更令人惊讶的推荐,因为较低的值表明推荐偏离了用户的传统行为。

多样性是挑战1的局限性部分中已经讨论的另一种超出准确性的度量标准。它衡量推荐项目彼此之间的差异程度,其中差异可能与各个方面,音乐风格,艺术家,歌词或乐器有关,仅举几个。与偶然性相似,可以通过多种方式定义多样性。最常见的方法之一是计算推荐集中所有项目之间的平均距离或相加距离。在前一种情况下,推荐列表L的多样性计算如下:

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

其中distij是项i和j之间定义的某个距离函数。常见的选择是反余弦相似度,反皮尔逊相关系数或汉明距离。

当涉及评估播放列表推荐的任务时,目标是评估推荐在后续歌曲之间提供适当过渡的能力,因此传统的错误或准确性指标可能无法捕获此属性。因此,需要序列感知的评估措施。例如,考虑这样一种情况:既喜欢古典音乐又喜欢摇滚音乐的用户在听完经典曲目后立即被推荐为摇滚音乐。即使两种音乐风格都符合她的口味,但歌曲之间的过渡对于提高用户满意度也起着重要作用。在这种情况下,给定当前播放的歌曲并在接下来要播放的几个同样可能的好的选择中,RS可能会根据歌曲的受欢迎程度对歌曲进行排名。因此,已经提出了诸如平均对数似然率之类的其他度量来更好地对转变进行建模。在这方面,当目标是推荐一系列项目时,需要使用替代的多指标评估方法来考虑多个质量因素。这样的评估指标可以考虑建议的排名顺序,或者考虑整个推荐列表的内部一致性或多样性。在许多情况下,采用此类质量指标可能会导致精度方面的权衡,应通过RS算法进行权衡。

2.4.3 局限性

到目前为止,推荐系统研究中的绝大多数评估方法都集中在定量方法上,无论是准确性还是超出准确性,通常都是在离线研究中计算出来的。这样做的好处是便于评估结果的可重复性。但是,将评估限制为定量措施意味着要放弃另一个重要因素,即用户体验。换句话说,在没有以用户为中心的评估的情况下,很难要求扩展到评估中的推荐系统的更重要的目标,从而为用户提供愉悦而有用的个性化体验。

尽管承认需要更多的以用户为中心的评估策略,但人们、用户或就MRS而言,听众的因素仍然经常被忽视或未得到适当解决。例如,尽管存在针对偶然性和多样性的定量客观指标,但是如上所述,感知到的偶然性和多样性可能与测得的差异很大,因为它们是主观的用户特定概念。这说明即使是超精确度的度量也无法完全捕捉对推荐系统的真实用户满意度。另一方面,可以研究解决用户体验(UX)的方法来评估推荐系统。例如,可以基于用户参与度来评估MRS,这提供了对UX的有限解释,该解释集中在交互过程中对产品质量的判断上。用户满意度,用户参与度以及更广泛的用户体验通常需要通过用户研究进行评估。

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

针对客观和主观评估标准,Knijnenburg提出了一个以用户为中心的推荐系统评估整体框架。图1概述了这些组件。

  • 客观系统方面(OSA) 是RS的无偏因素,包括用户界面,算法的计算时间或显示给用户的项目数等方面。它们通常易于指定或计算。
  • OSA影响主观系统方面(SSA),这是由与系统交互时的瞬间,主要的评估感觉引起的。这导致不同的用户对系统有不同的理解。因此,SSA是高度个人化的方面,通常通过用户调查表进行评估。 SSA的示例包括系统的总体吸引力,可用性和感知的推荐多样性或新颖性。
  • 体验方面(EXP) 描述了用户对系统的态度,通常还通过调查表进行调查。它解决了用户对与系统交互的感知。体验受其他组件的影响很大,这意味着更改任何其他组件可能会导致EXP方面的更改。经验可以分解为对系统的评估,决策过程和做出的最终决定,即结果。
  • 交互(INT)方面 描述了用户的可观察行为,查看项目所花费的时间以及点击或购买行为。在音乐环境中,示例还包括喜欢歌曲或将其添加到播放列表。因此,交互方面属于客观度量,通常由系统记录下来确定。最后,
  • Knijnenburg等人的框架提到了会影响用户体验的个人特征(PC)和情境特征(SC)。 PC包括没有用户就不存在的方面,例如用户人口统计,知识或感知控制,而SC包括交互上下文的方面,例如使用系统的时间和地点,或特定于情境的信任或隐私问题。

Knijnenburg等还提出了一份问卷,以评估框架中定义的因素,例如,感知推荐质量,感知系统有效性,感知推荐多样性,选择满意度,提供反馈的意图,对技术和系统的普遍信任特定的隐私问题

尽管此框架是通用框架,但根据MRS对其进行定制将允许其以用户为中心进行评估。特别是,个人和情景特征方面应分别适应音乐收听者和收听情况的特殊性,请参见。第2.1节。为此,MRS的研究人员应考虑与音乐的感知和偏爱有关的方面,以及它们对MRS的影响,这已在几项研究中得到了证实。除了Knijnenburg等人提到的一般性因素外,在音乐领域中非常重要的似乎是心理因素,包括情感和性格,社会影响力,音乐训练和经验以及生理状况。

我们相信,在离线和在线实验中,通过准确性和超越准确性,客观和主观的措施仔细全面地评估MRS,将会更好地了解听众对MRS的需求和要求,并且最终大大改善了当前的MRS。

3. 未来方向和愿景

尽管已经对上一节中确定的挑战进行了深入研究,但在下文中,我们提供了更具前瞻性的分析,并讨论了一些与MRS相关的趋势主题,我们认为这些主题对下一代MRS具有影响。他们都有一个共同点,即他们的目标是创建更多个性化的推荐。更准确地说,我们首先概述如何将诸如人格和情感之类的心理建构整合到MRS中。随后,我们讨论了情境感知MRS,并提出了描述上下文和情境偏好的多方面用户模型的需求。最后,我们讨论了用户的文化背景对推荐偏好的影响,在构建具有文化意识的MRS时需要考虑这一点。

3.1 心灵启发的音乐推荐

个性化和情感是重要的心理建构。人的性格特征是塑造人的行为的一种可预测且稳定的量度,而情绪是对特定刺激的短期情感反应。两者都显示出会影响音乐品味和用户对MRS的要求。但是,在(音乐)推荐系统的背景下,个性和情感尚未发挥主要作用。鉴于有力的证据表明,两者都会影响听觉偏好,并且最近出现了根据用户生成的数据准确预测听觉偏好的方法,因此我们认为受心理启发的MRS即将到来。

3.1.1 个性化

在心理学研究中,人格通常被定义为“源自个人内部的一致的行为模式和人际交往过程” 。这个定义考虑了人们在情感,人际,体验,态度和动机方面的个体差异。一些先前的工作研究了决策与人格因素的关系。个性可以影响人类的决策过程以及品味和兴趣。由于这种直接关系,具有相似人格因素的人很可能会分享相似的兴趣和爱好。

先前对用户个性特征进行的研究支持个性信息在推荐系统中可能具有的潜在好处。比如,心理学研究表明,性格外向的人可能更喜欢乐观和传统的音乐。因此,基于个性的MRS可以使用此信息更好地预测哪些歌曲比其他歌曲更可能吸引人们。潜在用法的另一个例子是利用个性信息,以便计算用户之间的相似性,从而确定志趣相投的用户。然后可以将该相似性信息集成到基于邻域的协作过滤方法中。

为了在推荐系统中使用个性信息,系统首先必须从用户那里获取此信息,这可以显式地或隐式地完成。在前一种情况下,系统可以要求用户使用个性评估清单,填写个性问卷。在后一种情况下,系统可以通过跟踪和观察用户的行为模式来学习个性,例如,用户在Facebook上的喜欢行为或对Instagram上发布的图像滤镜。 明确引出个性特征的系统在用户满意度,易用性和预测准确性等方面都具有出色的推荐效果。然而,不利的一面是,许多用户不愿意在使用RS之前填写较长的问卷。缓解此问题的一种方法是仅向用户询问个性工具的信息量最多的问题。不过,首先需要基于现有用户数据以及推荐领域来确定问哪些问题最有用。其他研究表明,用户在某种程度上愿意提供更多信息,以换取更好的推荐质量。

个性信息可以以多种方式使用,特别是在缺少传统的评分或消费数据时生成推荐。此外,人格特质可以看作是扩展用户资料的附加功能,主要用于识别基于邻域的推荐系统中的相似用户,或直接输入扩展矩阵分解模型中。

3.1.2 情绪

MRS用户的情绪状态对其短期音乐喜好有很大影响。反之亦然,音乐对我们的情绪状态有很大的影响。因此,将情感调节作为人们听音乐的主要原因之一就不足为奇了。举例来说,与悲伤时相比,人们在悲伤时可能会聆听完全不同的音乐流派或风格。确实,有关音乐心理学的先前研究发现,人们可能会选择音乐类型来缓解他们的情绪状况。最近的发现表明,可以主要选择音乐,以增强听众感知的情绪状况。为了构建可感知情绪的MRS,因此有必要

  • (i)推断收听者所处的情绪状态
  • (ii)从音乐本身推断出情感概念
  • (iii)了解这两者之间的相互关系

下面将详细介绍这三个任务。

抽取听众的情绪状态:类似于人格特质,可以显式或隐式激发用户的情绪状态。在前一种情况下,通常会向用户显示各种分类模型之一(通过不同的情感词(例如幸福,悲伤,愤怒或恐惧)描述情感)或尺寸模型(情绪是由相对于二维或三维的分数描述的)。可以例如通过分析视频中用户生成的文本,语音或面部表情来实现对情感状态的隐式获取。

音乐中的情感标记:音乐作品本身可以被认为是一种充满情感的内容,并且可以用情感词来描述**。自动将此类情感词分配给乐曲的任务是一个活跃的研究领域,通常被称为音乐情感识别(MER)。但是,由于多种原因,如何将MER工具创建的此类情感术语整合到MRS中并非易事。首先,早期的MER方法通常忽略了预期情绪,感知情绪与诱发情绪之间的区别**。当前的MER方法关注于感知或诱发的情绪。但是,音乐内容仍然包含影响听者情绪状态的各种特征,例如歌词,节奏和和声,并且它们如何影响情绪状态是高度主观的。即使研究发现了一些通用规则,也是如此。例如,具有大调的音乐作品通常比小调的音乐作品更明亮,更快乐,或者以快节奏的音乐作品比慢节奏的音乐作品更令人兴奋或紧张。

将听众的情感和音乐情感标签联系起来:当前基于情感的MRS通常将情感分数视为表征用户正在经历的情况的上下文因素。因此,推荐系统利用情绪以便预先过滤用户的偏好或后过滤所生成的推荐。不幸的是,这忽略了心理背景,特别是在表达,感知和诱发的情感之间的主观和复杂的相互关系上。个性影响了听众偏爱哪种情感状态的音乐。因此,即使自动MER方法能够准确预测给定音乐作品的感知或诱发的情感,在缺乏深层的心理听众概况的情况下,匹配项和听众的情感注释也可能无法产生令人满意的建议。之所以如此,是因为人们如何判断音乐以及他们偏爱哪种音乐在很大程度上取决于他们目前的心理和认知状态。因此,我们认为MRS领域应该包含心理学理论,激发出用户特定的特质,并将其整合到推荐系统中,以建立体面的情绪感知MRS。

3.2 情境感知的音乐推荐

大多数现有的音乐推荐器系统仅基于一组特定于用户和特定于项目的信号进行推荐。但是,在实际情况下,还有许多其他信号可用。这些附加信号可以进一步用于改善推荐性能。这些附加信号的很大一部分包括情境信号。更详细地,用户的音乐喜好取决于推荐时的情况。例如,用户的音乐喜好在图书馆和体育馆中会有所不同。因此,将位置视为特定情况的信号可能会导致推荐性能的显着改善。一天中的时间是可以用于推荐的另一种情况信号。例如,用户希望在早晨听的音乐与晚上的音乐有所不同。在音乐领域中,一种特别重要的情况信号是社会背景,因为音乐的品味和消费行为深深植根于用户的社会身份并相互影响。例如,用户很可能在独处时会喜欢与见朋友时不同的音乐。因此,在构建情境感知MRS时应考虑这些社会因素。有时还会利用其他情况信号,包括用户的当前活动,天气,用户的心情以及星期几。关于时间,还有另一个要考虑的因素,那就是多数年前被认为是时尚的音乐现在被认为是古老的。这意味着同一首歌曲或歌手的收听率可能会大大不同,不仅在用户之间,而且通常是时间的维度。为了将这些方面纳入MRS,记录所有收听率的时间戳至关重要。

值得注意的是,情境特征已被证明是改善搜索引擎检索性能的有力信号。因此,我们认为,研究和建立情境感知音乐推荐系统应该是MRS研究的中心课题。

尽管已经存在几种感知情景的MRS,但它们通常仅利用一个或很少的这种情景信号,或者被限制在特定的使用上下文中,例如,汽车或旅游者场景中的音乐消费。另一方面,那些试图从更全面的角度考虑各种信号的系统,由于数据实例或用户数量很少,使得建立准确的上下文模型非常困难。我们认为,仍然缺少的是(商业)系统,这些系统大规模地集成了各种情况信号,以便真正了解听者在任何给定情况下的需求和意图,并相应地推荐音乐。虽然我们知道数据可用性和隐私问题会在大规模商业规模上阻碍此类系统的实现,但我们相信MRS最终将集成从上下文和情景因素推断出多方面的用户模型。

继续阅读