
作者|杏花,王
编辑|我正在嗅闻
22日晚,ACM多媒体2021公布了最佳论文、最佳学生、最佳演示、最佳开源、SIGMM时间测试、SIGMM优秀博士论文等奖项,共评选出6篇论文,其中北京航空团队、台湾大学团队荣获最知名最佳论文奖和最佳学生论文奖。
获奖论文是北京大学、查特豪斯大学和海洋人工智能实验室的联合团队"音乐变能视频背景音乐生成",以BA二年级学生Shangzhe Di的研究方向为基础,针对的是发电网络的可控性。
本文主要研究视频背景音乐生成的问题。为了生成与给定视频相匹配的背景音乐,作者在视频和背景音乐之间建立了节奏关系,并提出了一种受控音乐Transformer CMT,它可以在本地控制节奏特征,如音符节拍,音符密度和强度,以及对用户指定的音乐类型和所用乐器的全局控制。
最佳学生论文奖由台湾大学和国立台南艺术大学联合完成,论文由台湾大学的胡友扬本人提出。
此外,ACM多媒体还颁发了SIGMM杰出技术成就奖和SIGMM Nova奖。罗切斯特大学教授罗杰·波(Roger Bo)因其在多媒体计算、通信和应用方面的杰出贡献而获得技术成就奖,电子科技大学教授宋敬光因其对多媒体紧凑演示和分析的贡献而获得SIGMM Nova奖。以下是对这两位学者的简要介绍:
Roger Bo,罗切斯特大学计算机科学教授,ACM,AAAI,IEEE,SPIE和IAPR研究员。他的研究兴趣包括计算机视觉,机器学习,数据挖掘,社交媒体和生物医学信息学。
简介: https://www.cs.rochester.edu/u/jluo/
罗杰波教授撰写了500多篇技术论文和90多项美国专利。此外,罗杰波还曾担任ACM多媒体2010、IEEE CVPR 2012、ACM ICMR 2016和IEEE ICIP 2017的项目主席,目前是IEEE Transactions onMultimedia的主编。
宋景光,电子科技大学教授,博士生导师。他于2014-2016年毕业于澳大利亚昆士兰大学,担任特伦托大学的博士后研究员,并于2016-2017年在哥伦比亚大学担任博士后研究员。
简介: https://cfm.uestc.edu.cn/~songjingkuan/
宋教授在多媒体、计算机视觉、人工智能等领域的主要会议和期刊上发表了近100篇论文,谷歌学术论文被引用7188次,H指数,40次。他被提名为ICPR的2016年最佳论文奖和SIGIR 2017年最佳论文奖。他曾担任IEEE TPAMI,IEEE TIP,IEEE TMM,IJCV等多家顶级期刊的客座审稿人,以及几个顶级国际会议(CVPR'18,MM'18,IJCAI'18)的项目成员。
《AI技术评论》简要介绍获奖论文如下:
最佳论文奖
论文标题:使用受控音乐转换器的视频背景音乐生成
获奖团队:北方航空团队
论文地址: https://dl.acm.org/doi/abs/10.1145/3474085.3475195
摘要:在这项工作中,我们解决了视频背景音乐生成的问题。以前的一些工作虽然成功地产生了音乐,但没有专门为给定的视频制作旋律音乐,也没有考虑到视频与音乐节奏的一致性。为了生成与给定视频匹配的背景音乐,我们首先在视频和背景音乐之间建立节奏关系。特别是,我们将视频中的时间,运动速度和运动意义与音乐中的节拍,模拟的音符密度和模拟的音符强度相关联。然后,我们提出了CMT,这是一种受控的音乐转换器,可以在本地控制这些节奏特征,以及对用户指定的音乐类型和所用乐器的全局控制。主要目标双重评价表明,生成的背景音乐与输入视频之间的兼容性令人满意,音乐质量也令人印象深刻。
最佳学生论文奖
论文题目:aBio:使用低音炮进行虚拟现实的主动双嗅觉显示器
获奖团队:台湾大学、国立台南艺术大学
论文地址: https://dl.acm.org/doi/10.1145/3474085.3475678
摘要: 在虚拟现实(VR)中添加嗅觉线索可以增强用户对虚拟环境的沉浸感,而对气味的精确控制将促进更逼真的体验。在本文中,我们介绍了aBio,这是一种主动式双嗅觉显示系统,可将气味精确地传递到特定位置,而不是将其传播到整个空气中。aBio为用户提供了空气中自然的嗅觉,同时通过与两个双扬声器的涡旋发生器碰撞来缓冲空气的影响。根据不同应用的要求,涡旋环的碰撞点可以位于用户鼻子前方的任何地方。为了验证设备的有效性,了解用户在系统中使用不同参数时的体验,我们进行了一系列实验和用户研究。结果表明,我们提出的系统是有效的,用户感知气味而不感觉到触觉干扰,系统只消耗非常少量的芳香精油。我们相信aBio具有通过有效传输气味来增强VR体验的巨大潜力。
最佳演示奖
论文标题:ViDA-MAN:与数字人类的视觉对话
获奖团队:JD.com 人工智能研究所、咪咕文化科技有限公司
论文地址: https://dl.acm.org/doi/10.1145/3474085.3478560
摘要:在本文中,我们展示了VidA-MAN,这是一种用于多模态交互的数字人类代理,可为即时语音查询提供实时视听响应。与传统的文本或语音系统相比,ViDA-MAN 提供类似人类的交互(例如,生动的声音、自然的面部表情和身体姿势)。如果发出语音请求,演示文稿可以在亚秒级延迟内以高质量视频进行响应。为了提供身临其境的用户体验,ViDA-MAN 无缝集成了多模态技术,包括声学语音识别 (ASR)、多轮对话、文本到语音转换 (TTS)、对话头像视频生成等。凭借庞大的知识库,ViDA-MAN能够与用户就不同主题进行聊天,包括聊天,天气,设备控制,新闻推荐,酒店预订以及使用结构化知识回答问题。
最佳开源奖
论文标题:X-modaler:用于跨模式分析的多功能高性能代码库
获奖团队:JD.com 人工智能研究所
论文地址:https://arxiv.org/pdf/2108.08217.pdf
摘要: 随着近十年来深度学习的兴起和发展,不断的创新和突破推动了视觉与语言在多媒体领域的跨模态分析技术的发展。但是,没有开源代码库支持许多神经网络模型,这些模型在模态分析中以统一和模块化的方式进行训练和部署。在这项工作中,我们提出了X-modaler,这是一种多功能的高性能代码库,它将最先进的跨模态分析分为几个共同阶段(例如,预处理,编码器,跨模态交互,解码器解码策略)。每个阶段都涵盖了在一系列先进技术中广泛使用的模块功能,并允许在两者之间无缝切换。这种方法可以自然而灵活地实施最先进的算法,用于图像字幕,视频字幕和视觉语言预培训,旨在促进研究社区的快速发展。同时,由于有效模块化设计的几个阶段(例如跨模态交互)在不同的视觉语言任务中共享,因此X-modaler可以简单地扩展到启动原型,用于其他跨模态分析任务,包括视觉问题回答,视觉常识推理和跨模式检索。X-modaler是一个Apache许可的代码库,其源代码,示例项目和预训练模型可在线获得:https://github.com/YehLi/xmodaler
SIGMM时间测试奖
论文标题:通过HTTP-:标准和设计原则动态实时流
获奖者:托马斯·斯托克哈默
地址: https://dl.acm.org/doi/abs/10.1145/1943552.1943572
摘要:在本文中,我们提供了一些关于3GPP和MPEG草案版本中HTTP动态响应流(HTTP,DASH的动态自适应流)规范的见解和背景。具体而言,3GPP 版本提供了媒体呈现、分段格式和交付协议的规范说明。此外,它还添加了有关DASH客户端如何使用提供的信息为用户建立流媒体服务的信息的信息描述。该解决方案支持不同的服务类型(例如,按需、实时、延时查看)、不同的功能(例如,自适应比特率切换、多语言支持、广告插入、技巧模式、DRM)和不同的部署选项。此外,还提供了设计原则和示例。
SIGMM杰出博士论文奖
论文标题:视频改编,提供高质量内容
获奖团队:马萨诸塞大学阿默斯特分校
摘要: 本文提出了视频自适应算法,以提供内容并最大限度地提高受众体验质量(QoE)。视频提供商将视频划分为短片段,并以多个比特率对每个片段进行编码。视频播放器自适应地选择要下载的每个剪辑的比特率,对于连续剪辑,可能具有不同的比特率。我们将比特率适应开发为效用最大化问题,并设计算法以提供可以证明接近最优的时间平均效用。我们设计的算法在生产系统上提供iv视频,保持理论算法的优势,并应对生产的挑战。我们的算法现在是官方DASH参考播放器DASH.js的一部分,并由视频提供商在生产环境中使用。大多数在线视频都是通过 TCP 上的 HTTP 流式传输的。TCP 提供可靠的传输,但代价是重新传输丢失的数据包和行头阻塞时会出现额外的延迟。使用 QUIC 允许视频播放器容忍数据包丢失而不会损失性能。我们设计和实现的算法利用了这种额外的灵活性,通过减少延迟和重新缓冲,同时允许一些数据包丢失,从而提供更高的整体QoE。我们开发了一个开源模拟环境,用于快速、可重复地测试 360 度算法。我们开发了自适应算法,通过分配更多带宽资源来提供观看者更有可能看到的磁贴,同时确保视频播放器在观看者改变头部姿势时及时做出响应,从而提供高 QoE。
<h1>关于我们 MM2021</h1>
ACM多媒体(ACM MM)是国际顶级多媒体学术和产业交流盛会,也是中国计算机学会推荐该领域唯一的A级国际学术会议。
第29届ACM多媒体2021于10月20日至24日在成都举行,由电子科技大学计算机科学与技术学院院长ACM研究员沈恒涛教授主持开幕。本次会议是我国计算机领域历史上第一届A级会议,会议收到了来自40多个国家和地区的2000多份投稿,1000多位学者,两者都是历史新高!
ACM多媒体2009在北京举行,ACM多媒体2021是该会议第二次在中国举行。沈恒涛教授自2000年以来一直在ACM多媒体工作,并在该领域做了很多创新工作。其团队成员分别在2013年和2017年获得了会议的最佳学生论文奖和最佳论文奖。沈恒涛教授还作为大会程序委员会联合主席,在澳大利亚成功举办了ACM多媒体2015。ACM多媒体2021将大大提高电子科技大学和成都的国际知名度和国际学术地位,同时促进国际学术交流与合作,为人工智能的快速发展做出贡献。
相关链接 http://www.https://2021.acmmm.org/
雷 Feng.com