天天看點

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

作者:替代視訊共享細菌

AI語音再進化,人耳還能聽出AI和真人的差别嗎?

在播客App小宇宙上,“Hacker News”賬号用“曉曉”的聲音制作了一期節目,聽衆在評論區留言表示“想打賞”。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

實際上,這已經不是AI第一次入侵播客圈了。

2022年10月,一段美國知名播客主持人喬·羅根(Joe Rogan)與蘋果公司已故創始人史蒂夫·喬布斯的對話音頻在外網引發熱議。長達20分鐘的播客節目中,兩人探讨了包括喬布斯的大學經曆、對計算機的見解和個人信仰在内的多個話題。

這段播客音頻由podcast.ai推出,為了生成這段内容,podcast.ai使用了喬布斯的傳記和網絡上關于他的所有錄音,通過Play.ht人工智能語言模型進行了大量訓練。此外,節目主持人羅根的語音也是AI生成的。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

2023年7月,國内播客節目《大俗小雅》釋出了一期完全由AI生成故事情節和語音的播客,在小宇宙上獲得了超5000次收聽,評論區還有聽衆留言表示,誤把AI生成語音中的不自然當成了兩位主播“情緒狀态不好”。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

從喬布斯“複活”錄播客到《大俗小雅》的AI播客實驗,AI生成人聲面臨的一個主要争議是缺乏真人發聲時的抑揚頓挫和情感,如聲音的單調和機械化,以及在節奏和語調上的不自然。這些都是阻礙AI語音技術進一步落地應用在有聲内容創作上的難題。

如今,微軟“曉曉”已經正式上線可用。它可以成為中文創作者新的語音生成利器嗎?AI+有聲内容創作又有哪些新玩法?“頭号AI玩家”進行了一番探究。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

實測微軟“曉曉”:比真人配音還逼真?

“曉曉”是微軟雲服務平台Azure旗下TTS(文本轉語音)語音庫中的一個女性語音角色。目前有兩個版本:

第一個版本是中文版“曉曉”,它支援21種不同的說話風格,适用于有聲書、新聞、AI客戶服務以及多情感表達等場景。

在“多情感表達”場景示範中,她能夠在多種台詞之間自如切換情緒,并精準比對相應的語氣和語調,整體表現既自然又流暢。

第二個版本是多語言版本的“曉曉”,支援91種語言的文本到語音轉換,但僅提供預設的說話風格選項。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

目前,兩個版本的“曉曉”都可以在Azure官網免費體驗(連結已同步整理至文末)。

由于申請微軟Azure賬戶和部署語音服務的流程較為複雜,在此先附上詳細操作步驟,以供參考:

首先,進入微軟Azure官網,建立一個免費賬戶。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

新使用者注冊後可享12個月免費服務,服務期滿後,每月仍可獲得50萬字元的免費額度。對于大多數創作者而言,這樣“量大管飽”的免費額度已然夠用。

整個注冊和使用過程,無需魔法,但需要提供一張VISA、萬事達等信用卡或借記卡進行驗證。實測中,我們用國内銀行發行的VISA信用卡以及國内手機号完成了注冊。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

驗證成功後,跳轉到Azure首頁,進入控制台,在“AI+機器學習”類别下,找到“語音”點選“Create”,部署語音服務。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

進入建立語音服務頁面,定價層選擇“Free F0(即免費服務)”,區域選擇你想使用的TTS語音支援的地區,因為是測試“曉曉”,在這裡我們最後選擇了“East Asia(東亞)”。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

最後,點選頁面下方的“審閱并建立”,就完成了部署。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

接着轉到“有聲内容創作”頁面,就可以投喂文本,讓AI替你生成語音了。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

界面布局主要包括中間的文本操作區和右側的調音編輯工具欄。使用者可以一次性編輯整個文本,也可以對單個句子或詞語進行微調。

具體編輯功能涵蓋朗讀角色切換、停頓設定、朗讀規則調整以及語調語速控制等,都支援使用者根據需要進行自定義修改。

例如,在下面這段文本中,我們将叙事旁白設定成了中文版曉曉的“新聞”說話風格,并在同一個句子中切換朗讀角色,營造出小說中的對話感。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

測試1,頭号AI玩家,59秒

對比測試中,我們讓其用不同情緒說同一句話,也表現出明顯的區分度,效果令人驚喜。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

測試2,頭号AI玩家,12秒

而多語言版本的“曉曉”雖然隻支援預設的說話風格,但其生成的聲音效果既自然又流暢,并且能夠處理文本中的語氣詞,乍一聽根本無法分辨真假。

曉曉多語言版測試1,頭号AI玩家,8秒

不過,在我們的測試中,她隻有在語言技能選擇“中文國語”時,才可以還原早前微軟放出的示範效果,生成的人聲自然逼真。

如果選擇其他語言或地區方言,如粵語或台灣國語,聲音就又回到“一聽即AI”的效果。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

曉曉多語言版測試2,頭号AI玩家,10秒

據微軟官方介紹,包括多語言版曉曉在内的9種聲音角色是基于大語言模型訓練的,如OpenAI搭建在Azure雲上的GPT服務,是以尤其擅長口頭對話、日常聊天等對語言自然度和表現力要求較高的場景。

除了使用TTS語音庫預設定好的聲音,微軟Azure還提供了聲音定制服務,支援品牌或個人使用有版權的音頻樣本作為訓練資料,建立自定義語音。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”
AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

AI+有聲内容,進入真假難辨時代

從有聲書到短視訊配音,再到軟硬體内随處可見的文本朗讀功能,AI生成的有聲内容已經成為普通人日常最頻繁使用的AI技術之一。

以微軟的語音角色“雲希”為例,隻要你刷過短視訊,就一定能認得他的聲音。

由于去除了以往AI的機械式發音和單一腔調,“雲希”在影視解說配音中廣受歡迎,迅速火遍全網。同時,它在有聲書領域也得到了廣泛應用,許多網友會借助接入微軟TTS服務的軟體和API,利用“雲希”的聲音文本轉語音,提升聽書體驗。

技術快速疊代下, 如今市面上出現了越來越多友善易用的産品。例如,如喜馬拉雅旗下的音剪,即支援一站式AI音頻創作,提升有聲書制作效率、降低創作成本。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

具體到AI文本轉語音賽道上,國外爆火的産品如ElevenLabs對中文的支援度并不高,而國内的MiniMax、火山引擎等産品,雖然可以生成較為流暢的中文朗讀音頻,但仍未達到播客聲音制作所需的自然度和情感表達水準。

例如,在《大俗小雅》的AI播客實驗中,不少網友回報AI生成的聲音“念稿”痕迹很明顯。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

相較短視訊和有聲書,AI語音技術在播客場景的應用還很有限。

“頭号AI玩家”從多方了解到,目前播客創作者會使用ChatGPT等文本生成模型,來提高前期内容策劃、内容大綱以及播客内容摘要(shownotes)等文本内容的生産效率。

但在聲音生成上,播客内容制作追求的不僅僅是流暢的朗讀,更重要的是通過聲音傳遞情感,增強聽衆的沉浸感和情感共鳴。

此外,播客聲音内容的強IP屬性,以及高度人格化的表達,也是創作者在使用AI生成語音時需要謹慎考量的問題。這些特性要求AI不僅要準确傳達資訊,還要能夠模仿人類的情感和語調,與聽衆建立情感聯系。

對于能夠自如地通過口語表達自己觀點的創作者而言,獨特的口音或語調反而可以形成一種差異化優勢,有助于塑造創作者的個人風格。

随着AI生成語音、克隆語音越來越真實,也不乏有内容創作者開始利用AI技術來制作更新頻率高的資訊類語音播報内容。

例如,播客節目《十字路口》主播就曾在一期節目中透露,得到聯合創始人快刀青衣主理的一檔AI資訊節目《快刀廣播站》,就是隻寫腳本,語音部分由AI來完成,效果相當自然。

AI入侵播客圈!比真人配音還逼真?實測微軟AI語音角色“曉曉”

AI語音技術的發展,無疑為内容創作者提供了新的工具和可能性。

尤其是微軟最近推出的多語言版曉曉,進一步展示了AI語音技術在播客内容制作中的應用潛力。可以預見,在技術抹平内容創作門檻的同時,内容創作也将前所未有的“卷”,如何打造差異化内容,是每一個創作者都需要思考的問題。