天天看點

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

作者|杏花,王

編輯|我正在嗅聞

22日晚,ACM多媒體2021公布了最佳論文、最佳學生、最佳示範、最佳開源、SIGMM時間測試、SIGMM優秀博士論文等獎項,共評選出6篇論文,其中北京航空團隊、台灣大學團隊榮獲最知名最佳論文獎和最佳學生論文獎。

獲獎論文是北京大學、查特豪斯大學和海洋人工智能實驗室的聯合團隊"音樂變能視訊背景音樂生成",以BA二年級學生Shangzhe Di的研究方向為基礎,針對的是發電網絡的可控性。

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

本文主要研究視訊背景音樂生成的問題。為了生成與給定視訊相比對的背景音樂,作者在視訊和背景音樂之間建立了節奏關系,并提出了一種受控音樂Transformer CMT,它可以在本地控制節奏特征,如音符節拍,音符密度和強度,以及對使用者指定的音樂類型和所用樂器的全局控制。

最佳學生論文獎由台灣大學和國立台南藝術大學聯合完成,論文由台灣大學的胡友揚本人提出。

此外,ACM多媒體還頒發了SIGMM傑出技術成就獎和SIGMM Nova獎。羅切斯特大學教授羅傑·波(Roger Bo)因其在多媒體計算、通信和應用方面的傑出貢獻而獲得技術成就獎,電子科技大學教授宋敬光因其對多媒體緊湊示範和分析的貢獻而獲得SIGMM Nova獎。以下是對這兩位學者的簡要介紹:

Roger Bo,羅切斯特大學計算機科學教授,ACM,AAAI,IEEE,SPIE和IAPR研究員。他的研究興趣包括計算機視覺,機器學習,資料挖掘,社交媒體和生物醫學資訊學。

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

簡介: https://www.cs.rochester.edu/u/jluo/

羅傑波教授撰寫了500多篇技術論文和90多項美國專利。此外,羅傑波還曾擔任ACM多媒體2010、IEEE CVPR 2012、ACM ICMR 2016和IEEE ICIP 2017的項目主席,目前是IEEE Transactions onMultimedia的主編。

宋景光,電子科技大學教授,博士生導師。他于2014-2016年畢業于澳洲昆士蘭大學,擔任特倫托大學的博士後研究員,并于2016-2017年在哥倫比亞大學擔任博士後研究員。

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

簡介: https://cfm.uestc.edu.cn/~songjingkuan/

宋教授在多媒體、計算機視覺、人工智能等領域的主要會議和期刊上發表了近100篇論文,谷歌學術論文被引用7188次,H指數,40次。他被提名為ICPR的2016年最佳論文獎和SIGIR 2017年最佳論文獎。他曾擔任IEEE TPAMI,IEEE TIP,IEEE TMM,IJCV等多家頂級期刊的客座審稿人,以及幾個頂級國際會議(CVPR'18,MM'18,IJCAI'18)的項目成員。

《AI技術評論》簡要介紹獲獎論文如下:

最佳論文獎

論文标題:使用受控音樂轉換器的視訊背景音樂生成

獲獎團隊:北方航空團隊

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

論文位址: https://dl.acm.org/doi/abs/10.1145/3474085.3475195

摘要:在這項工作中,我們解決了視訊背景音樂生成的問題。以前的一些工作雖然成功地産生了音樂,但沒有專門為給定的視訊制作旋律音樂,也沒有考慮到視訊與音樂節奏的一緻性。為了生成與給定視訊比對的背景音樂,我們首先在視訊和背景音樂之間建立節奏關系。特别是,我們将視訊中的時間,運動速度和運動意義與音樂中的節拍,模拟的音符密度和模拟的音符強度相關聯。然後,我們提出了CMT,這是一種受控的音樂轉換器,可以在本地控制這些節奏特征,以及對使用者指定的音樂類型和所用樂器的全局控制。主要目标雙重評價表明,生成的背景音樂與輸入視訊之間的相容性令人滿意,音樂品質也令人印象深刻。

最佳學生論文獎

論文題目:aBio:使用低音炮進行虛拟現實的主動雙嗅覺顯示器

獲獎團隊:台灣大學、國立台南藝術大學

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

論文位址: https://dl.acm.org/doi/10.1145/3474085.3475678

摘要: 在虛拟現實(VR)中添加嗅覺線索可以增強使用者對虛拟環境的沉浸感,而對氣味的精确控制将促進更逼真的體驗。在本文中,我們介紹了aBio,這是一種主動式雙嗅覺顯示系統,可将氣味精确地傳遞到特定位置,而不是将其傳播到整個空氣中。aBio為使用者提供了空氣中自然的嗅覺,同時通過與兩個雙揚聲器的渦旋發生器碰撞來緩沖空氣的影響。根據不同應用的要求,渦旋環的碰撞點可以位于使用者鼻子前方的任何地方。為了驗證裝置的有效性,了解使用者在系統中使用不同參數時的體驗,我們進行了一系列實驗和使用者研究。結果表明,我們提出的系統是有效的,使用者感覺氣味而不感覺到觸覺幹擾,系統隻消耗非常少量的芳香精油。我們相信aBio具有通過有效傳輸氣味來增強VR體驗的巨大潛力。

最佳示範獎

論文标題:ViDA-MAN:與數字人類的視覺對話

獲獎團隊:JD.com 人工智能研究所、咪咕文化科技有限公司

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

論文位址: https://dl.acm.org/doi/10.1145/3474085.3478560

摘要:在本文中,我們展示了VidA-MAN,這是一種用于多模态互動的數字人類代理,可為即時語音查詢提供實時視聽響應。與傳統的文本或語音系統相比,ViDA-MAN 提供類似人類的互動(例如,生動的聲音、自然的面部表情和身體姿勢)。如果發出語音請求,示範文稿可以在亞秒級延遲内以高品質視訊進行響應。為了提供身臨其境的使用者體驗,ViDA-MAN 無縫內建了多模态技術,包括聲學語音識别 (ASR)、多輪對話、文本到語音轉換 (TTS)、對話頭像視訊生成等。憑借龐大的知識庫,ViDA-MAN能夠與使用者就不同主題進行聊天,包括聊天,天氣,裝置控制,新聞推薦,酒店預訂以及使用結構化知識回答問題。

最佳開源獎

論文标題:X-modaler:用于跨模式分析的多功能高性能代碼庫

獲獎團隊:JD.com 人工智能研究所

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

論文位址:https://arxiv.org/pdf/2108.08217.pdf

摘要: 随着近十年來深度學習的興起和發展,不斷的創新和突破推動了視覺與語言在多媒體領域的跨模态分析技術的發展。但是,沒有開源代碼庫支援許多神經網絡模型,這些模型在模态分析中以統一和子產品化的方式進行訓練和部署。在這項工作中,我們提出了X-modaler,這是一種多功能的高性能代碼庫,它将最先進的跨模态分析分為幾個共同階段(例如,預處理,編碼器,跨模态互動,解碼器解碼政策)。每個階段都涵蓋了在一系列先進技術中廣泛使用的子產品功能,并允許在兩者之間無縫切換。這種方法可以自然而靈活地實施最先進的算法,用于圖像字幕,視訊字幕和視覺語言預教育訓練,旨在促進研究社群的快速發展。同時,由于有效子產品化設計的幾個階段(例如跨模态互動)在不同的視覺語言任務中共享,是以X-modaler可以簡單地擴充到啟動原型,用于其他跨模态分析任務,包括視覺問題回答,視覺常識推理和跨模式檢索。X-modaler是一個Apache許可的代碼庫,其源代碼,示例項目和預訓練模型可線上獲得:https://github.com/YehLi/xmodaler

SIGMM時間測試獎

論文标題:通過HTTP-:标準和設計原則動态實時流

獲獎者:托馬斯·斯托克哈默

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

位址: https://dl.acm.org/doi/abs/10.1145/1943552.1943572

摘要:在本文中,我們提供了一些關于3GPP和MPEG草案版本中HTTP動态響應流(HTTP,DASH的動态自适應流)規範的見解和背景。具體而言,3GPP 版本提供了媒體呈現、分段格式和傳遞協定的規範說明。此外,它還添加了有關DASH用戶端如何使用提供的資訊為使用者建立流媒體服務的資訊的資訊描述。該解決方案支援不同的服務類型(例如,按需、實時、延時檢視)、不同的功能(例如,自适應比特率切換、多語言支援、廣告插入、技巧模式、DRM)和不同的部署選項。此外,還提供了設計原則和示例。

SIGMM傑出博士論文獎

論文标題:視訊改編,提供高品質内容

獲獎團隊:馬薩諸塞大學阿默斯特分校

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

摘要: 本文提出了視訊自适應算法,以提供内容并最大限度地提高閱聽人體驗品質(QoE)。視訊提供商将視訊劃分為短片段,并以多個比特率對每個片段進行編碼。視訊播放器自适應地選擇要下載下傳的每個剪輯的比特率,對于連續剪輯,可能具有不同的比特率。我們将比特率适應開發為效用最大化問題,并設計算法以提供可以證明接近最優的時間平均效用。我們設計的算法在生産系統上提供iv視訊,保持理論算法的優勢,并應對生産的挑戰。我們的算法現在是官方DASH參考播放器DASH.js的一部分,并由視訊提供商在生産環境中使用。大多數線上視訊都是通過 TCP 上的 HTTP 流式傳輸的。TCP 提供可靠的傳輸,但代價是重新傳輸丢失的資料包和行頭阻塞時會出現額外的延遲。使用 QUIC 允許視訊播放器容忍資料包丢失而不會損失性能。我們設計和實作的算法利用了這種額外的靈活性,通過減少延遲和重新緩沖,同時允許一些資料包丢失,進而提供更高的整體QoE。我們開發了一個開源模拟環境,用于快速、可重複地測試 360 度算法。我們開發了自适應算法,通過配置設定更多帶寬資源來提供觀看者更有可能看到的磁貼,同時確定視訊播放器在觀看者改變頭部姿勢時及時做出響應,進而提供高 QoE。

<h1>關于我們 MM2021</h1>

ACM多媒體(ACM MM)是國際頂級多媒體學術和産業交流盛會,也是中國計算機學會推薦該領域唯一的A級國際學術會議。

第29屆ACM多媒體2021于10月20日至24日在成都舉行,由電子科技大學計算機科學與技術學院院長ACM研究員沈恒濤教授主持開幕。本次會議是我國計算機領域曆史上第一屆A級會議,會議收到了來自40多個國家和地區的2000多份投稿,1000多位學者,兩者都是曆史新高!

ACM多媒體2009在北京舉行,ACM多媒體2021是該會議第二次在中國舉行。沈恒濤教授自2000年以來一直在ACM多媒體工作,并在該領域做了很多創新工作。其團隊成員分别在2013年和2017年獲得了會議的最佳學生論文獎和最佳論文獎。沈恒濤教授還作為大會程式委員會聯合主席,在澳洲成功舉辦了ACM多媒體2015。ACM多媒體2021将大大提高電子科技大學和成都的國際知名度和國際學術地位,同時促進國際學術交流與合作,為人工智能的快速發展做出貢獻。

相關連結 http://www.https://2021.acmmm.org/

ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎關于ACM MM2021

雷 Feng.com

繼續閱讀