天天看點

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

作者:機器之心Pro

機器之心專欄

機器之心編輯部

香港中文大學(深圳)資料科學學院武執政副教授團隊聯合上海人工智能實驗室 OpenMMLab 團隊開源了綜合音頻生成項目 Amphion(安菲翁)。該系統旨在打造一個集語音合成轉換、歌聲合成轉換、音效音樂生成等多功能為一體的開源平台。截至目前,Amphion 已經多次進入 GitHub Trending Repositories 榜單。

2022 年被稱為 AIGC 元年,ChatGPT、Stable Diffusion、MidJourney 為代表的文字、圖像應用帶火了 AI 領域。2023 年,AI 孫燕姿、AI 郭德綱、音效生成、音樂生成也在社交媒體上火了一把。

今天,我們還能聽到泰勒 · 斯威夫特唱周傑倫的稻香。

視訊加載中...

這看似簡單,但實際上背後的技術十分複雜,也正是由于音頻領域的領域知識壁壘,工程師們上手并不容易。

近日,香港中文大學(深圳)資料科學學院武執政副教授團隊聯合上海人工智能實驗室 OpenMMLab 團隊開源了綜合音頻生成項目 Amphion(安菲翁)。該系統旨在打造一個面向科研群體及剛進入或想要進入該領域的工程師的,集語音合成及轉換、歌聲合成及轉換、音效及音樂生成等多功能為一體的開源平台。目前,該研究已經在海外社交平台上引發了極大的關注。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了
  • 項目位址: https://github.com/open-mmlab/Amphion
  • 論文位址:https://arxiv.org/abs/2312.09911

OpenMMLab 在 AI 領域無人不知,是目前最具國際影響力的計算機視覺開源算法體系,在 GitHub 上獲得超過 9 萬星标,使用者遍及全球 140 個國家和地區。聯合實驗室兄弟團隊推出了性能領先的千億級參數大語言模型 “書生・浦語”(InternLM),并建設了首個面向大模型研發與應用的全鍊條開源體系。該團隊的研究成果還包括社群内規模最大、覆寫領域最完整的大模型評測平台 OpenCompass,推理性能領先的大模型推理架構 LMDeploy 等。

這是 OpenMMLab 第一次涉足音頻與語音領域,相信這次開源會給多模态生成帶來了更多的想象空間。在沒有公開宣傳之前,Amphion 已經數次進入 GitHub Trending Repositories 榜單。可以說,Amphion 一出生就自帶光環。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion

Amphion 是一個綜合的音頻生成平台。該項目涵蓋多種經典的音頻生成任務,如語音合成、語音轉換、歌聲合成、歌聲轉換、音效生成、音樂生成、語音增強,以及多元的 AIGC 音頻任務,諸如多模态控制的音效生成和音樂生成。Amphion 獨有的可視化功能可以幫助初級研究人員和工程師更好地了解相關模型,進而協助初級研究人員和工程師在音頻、音樂和語音生成等方面實作可持續的研究與開發。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 技術報告詳細對比了 Amphion 的一些任務和算法與 GitHub 上較受歡迎的開源系統在性能上的異同。總體來說,Amphion 用一個系統達到甚至超過了 GitHub 上相關任務多個熱門系統。

SVC:歌聲轉換

對很多人來說,“歌聲轉換” 這個詞可能比較陌生,但是不少人都應該聽說過今年爆火的 “AI 孫燕姿”。“AI 孫燕姿” 背後的技術正是歌聲轉換。

通俗來說,歌聲轉換技術就是通過 AI 技術,把一個人唱歌的聲音音色轉變得聽起來像另外一個人的技術。這一過程通常牽涉到信号處理、機器學習、深度學習等算法。Amphion 系統內建了經典的特征提取模型。除了內建了經典的擴散模型、VITS 模型外,還內建了來自大名鼎鼎的 OpenAI 的 Whisper 模型。為了得到好的音質,Amphion 內建了 BigVGAN、HiFi-GAN、DiffWave 等主流聲碼器。同時,Amphion 的聲碼器還內建了港中大(深圳)的最新成果。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 的技術報告裡的主觀評測顯示,Amphion 在自然度和相似度上均超過了之前流行的 So-VITS-SVC 系統。目前,Amphion 的特征設計已被 So-VITS-SVC 5.0 系統借鑒。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

TTS:語音生成

語音生成即文語生成,指的是将文字輸入轉成相應的語音輸出的技術。目前,該子產品主要采用了深度學習技術,将文本轉換成自然流暢的高拟真度的語音。該技術在有聲電子書、視訊配音等方面有廣泛的應用。Amphion 系統實作了經典的 FastSpeech2 模型、VITS 模型等,以及最新流行的 zero-shot 語音合成技術,即 Vall-E,NaturalSpeech2。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 的技術報告顯示,在客觀名額和主觀名額上,Amphion 均達到乃至超越了目前最受關注的開源系統的水準。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

TTA:音頻生成

文本驅動的生成模型在圖像和視訊領域均已取得顯著成果。在圖像領域,Stable Diffusion 和 MidJourney 已經可以生成高品質的圖像;而在音頻領域,文本到音頻的生成模型必将對許多與創作相關的行業必将産生積極深遠的影響。例如,遊戲開發者或電影配音人員可以利用這項技術,根據特定的需求生成音效,而不必在龐大的音頻效果資料庫中進行搜尋及編輯,進而提高生産效率。

Amphion 內建了當下最主流的文本驅動的音頻生成模型架構,即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驅動的音頻生成算法。在該架構下,Latent Diffusion 擴散模型以 T5 編碼後的文本為輸入,根據文本的指引生成對應的音頻效果。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 的技術報告的客觀名額顯示,Amphion 在 TTA 任務上達到了領先的技術水準。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Vocoder:聲碼器

聲碼器(Vocoder)是音頻、語音生成最重要的一個子產品,也是確定聲音合成品質的關鍵。Amphion 內建了 BigVGAN、HiFi-GAN、DiffWave 等主流聲碼器,也內建了港中大(深圳)最新發表的成果。

Amphion 的技術報告表明,Amphion 中的 HiFi-GAN 聲碼器在客觀名額上均超過目前熱門的開源工具。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

可視化

與傳統的語音、音頻開源工具不同,Amphion 提供了可視化功能。Amphion 團隊希望可視化功能能讓初學者更好地了解模型的原理和細節。目前,Amphion 團隊提供了擴散模型的可視化截圖。該功能通過擴散模型在歌聲轉換上的可視化,形象地呈現出一位歌手模仿另外一位歌手的漸變過程。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 團隊

負責人:武執政博士

武執政博士現任香港中文大學(深圳)副教授。他曾入選國家級青年人才,連續多次入選斯坦福大學 “全球前 2%頂尖科學家”、愛思唯爾 “中國高被引學者” 榜單。他于 2015 年獲得南洋理工大學博士學位,并先後在 Meta(原 Facebook)、京東、蘋果、愛丁堡大學、微軟亞洲研究院等多個機構從事學術研究和技術上司工作。武執政博士帶領開發了語音合成開源系統 Merlin,發起并組織了第一屆聲紋識别欺騙檢測國際評測、第一屆語音轉換國際評測,并組織了 2019 年語音合成國際評測(Blizzard Challenge 2019),曾獲得 INTERSPEECH 2016 最佳學生論文獎、2012 年亞太信号與資訊處理協會年度峰會最佳論文獎。他現在是 IEEE 語音與語言處理技術委員會委員,語音領域權威期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing 的 Associate Editor,IEEE Spoken Language Technology Workshop 2024 的大會主席,曾受邀在 ICASSP 2022、ISCA SPSC Workshop、IJCAI 2023 DADA Workshop 等權威學術會議做特邀報告。

核心成員

Amphion 團隊核心都是港中大(深圳)學生,他們的背景都相當亮眼,是妥妥的 “别人家的團隊”。

共一張雪遙剛剛博二,他的文章卻已經被谷歌學術引用數百次,且在 2023 年入選了全國僅 55 人的騰訊犀牛鳥精英人才計劃;共一王遠端帶一作頂會 NeurIPS 直博入學港中大(深圳);共一薛浏蒙博士有微軟、騰訊、京東等多家大廠的實習經曆。

值得一提的是,Amphion 核心成員中還有兩位港中大(深圳)大二學生。共一顧毅騁包攬了 Amphion 中聲碼器(vocoder)的所有代碼,他大一入學三周即進組科研,大二第一學期即手握語音領域頂級會議文章;大二學生王超人也是人如其名,一個人包攬 Amphion 可視化部分的所有代碼,而且他的個人開源系統在 GitHub 上已收獲數千顆星。

Amphion 名字背後的含義

"Amphion" 取名自古希臘神話中傳奇音樂家 Amphion。傳說中,Amphion 以彈奏豎琴而著稱,并運用他的音樂才能建造了底比斯城牆。據說他的琴聲能感動樹木和岩石。Amphion 團隊希望借用安菲翁的音樂天賦和傳奇,暢想項目助力科研和開發的美好願景,擘畫聲音科技逐漸邁向可持續發展的美好藍圖。

黴黴演唱《稻香》,國内團隊的Amphion音頻生成火了

Amphion 線上 Demo 體驗連結:

  • Text to Speech
    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Speech
    • OpenXLab應用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Speech
  • Singing Voice Conversion
    • HuggingFace Space: https://huggingface.co/spaces/amphion/singing_voice_conversion
    • OpenXLab應用: https://openxlab.org.cn/apps/detail/Amphion/singing_voice_conversion
  • Text to Audio
    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Audio
    • OpenXLab應用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Audio

繼續閱讀