天天看點

OpenAI語音模型“炸場” 15秒樣本即可複刻人聲

作者:投資快報

小範圍内測,為安全性加碼。

21世紀經濟報道記者孔海麗 實習生牛淑銳 北京報道

繼文生視訊大模型Sora後,近日,OpenAI終于将按捺許久的語音引擎模型—Voice Engine公之于衆。

利用文本輸入和單個15秒音頻樣本,Voice Engine就能生成與原說話者非常相似且情感豐富的自然語音。不過,和文本生成視訊模型Sora一樣,目前OpenAI隻針對少部分内測使用者開放Voice Engine。

OpenAI在其官網披露,2022年底,Voice Engine就被首次開發,并已經用它來支援文本轉語音API以及ChatGPT語音和朗讀中可用的預設語音。但考慮到合成語音被濫用的潛在風險,OpenAI選擇了謹慎有序地推進和釋出Voice Engine。

近兩年,全球生成式AI應用規模呈現爆發式增長。據IDC預測,全球AI軟體市場規模有望從2022年的640億美元增長至2027年的2790億美元,複合增長率為31.4%。

華泰證券分析師認為,随着基礎模型能力優化,多模态應用有望在内容創作、AI教育、虛拟陪伴等場景加速落地。

Voice Engine的問世,解鎖了語音模型的更多可能性,例如輔助閱讀、視訊轉譯等,也将在發音障礙人群的語言表達上提供有效幫助。

當AI瞄準聲音克隆技術

去年,黴黴說道地中文的視訊火上微網誌熱搜,而這背後的AI工具來自Voice Engine的采用者之一—AIGC初創公司HeyGen,此話題的閱讀量超600萬。

通過Voice Engine進行實時轉換翻譯,說話者将保留原始口音,原語言不僅能轉換成中文、英文、日文等各類語言,也能讓面部嘴型完美比對。

除此之外,特朗普随口飙一段中文、郭德綱用英語說相聲、蔡明阿姨講段子的視訊也在各大社交平台上廣為流傳。

Voice Engine的官宣也有迹可循。2024年3月19日,OpenAI已經為“Voice Engine”申請了商标,商标的覆寫範圍主要是圍繞語音識别、語音合成和語音生成等方面。

谷歌前員工Jonathan Chavez也曾在前段時間透露,OpenAI将在今年推出一款全球最好的個人助理産品,就像鋼鐵俠中的Jarvis。

果不其然,Voice Engine如期而至,團隊還公示了多場景下的内測結果與相關音頻。

根據OpenAI的介紹,Voice Engine能夠通過自然、富有感情的聲音為非讀者和兒童提供閱讀幫助;可以翻譯視訊和播客等内容,以便創作者和企業可以用自己的聲音流利地接觸世界各地的更多人;支援非語言人群和幫助患有突發性或退化性言語病症的患者恢複聲音。

OpenAI語音引擎産品團隊成員傑夫·哈裡斯 (Jeff Harris)表示,該模型是根據“許可資料和公開資料的組合”進行訓練的。

對于Voice Engine的進展,網友直呼:“人工智能的發展速度令人興奮,勢不可擋。”

從業人士認為,Voice Engine将對播客、配音藝術家、口語表演者、有聲書和廣告解說員、遊戲玩家、流媒體主播、客戶服務代理、銷售人員等衆多職業帶來現實影響,這其中也包括就業壓力。

大衆也期待,當OpenAI的Sora與Voice Engine這兩項前沿科技相碰撞,又會擦出什麼樣的火花,真正意義上的有聲AI視訊乃至電影短片,是不是也就不遠了。

勒緊“深度僞造”的缰繩

對于Voice Engine技術的使用,除了驚喜與贊歎聲,也有人提出了質疑,如果這樣的技術用于電信詐騙,後果會很可怕。

有在校大學生告訴21世紀經濟報道記者,家長曾接到AI僞造學生聲音的詐騙電話。

其實,OpenAI去年所釋出“可以說話”的ChatGPT版本,長期以來一直為各種企業提供根據配音演員的錄音所建立的聲音,并沒有釋出從短視訊中複制聲音的技術。 OpenAI産品經理傑夫·哈裡斯(Jeff Harris)表示,以這種方式複制任何聲音的能力是有風險的。

2024年2月,美國曾發生利用AI生成語音影響選民投票事件。據報道,在大選之際,新罕布什爾州的部分選民接到一個神秘來電,電話中酷似美國總統拜登的聲音号召他們不要在該州初選中投票。後經證明,該來電是機器人語音電話,并非拜登本人錄制。此事件在當時引起了不小的轟動,加劇了人們對競選“深度僞造”的擔憂。

為加強語音引擎的安全建構,OpenAI在官方公告中稱,公司正在與來自政府、媒體、娛樂、教育、民間社會等領域的美國和國際合作夥伴合作,以確定在建設過程中吸收他們的回報。 不過,OpenAI與這些合作夥伴針對語音引擎的業務進展,需要原始發言者的明确和知情同意,合作夥伴還必須清楚地向觀衆強調,他們聽到的聲音是由AI生成的。

OpenAI将為AI生成的語音添加水印,以追蹤并主動監控其使用方式,以確定其透明度和安全度。

OpenAI官方表示:“我們目前不會廣泛釋出這項技術,僅小部分開放内測,希望語音引擎的這次内測既能強調其潛力,又能增強潛在問題的抵禦能力,以應對越來越逼真的生成模型帶來的挑戰。”

此外,他們還将采取一系列安全措施,包括逐漸淘汰基于語音的身份驗證作為通路銀行賬戶和其他敏感資訊的安全措施;探索保護人工智能中個人聲音使用的政策;教育公衆了解人工智能技術的能力和局限性,包括欺騙性人工智能内容的可能性;加速開發和采用追蹤視聽内容來源的技術等。

繼續閱讀