天天看點

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

編輯:好困 小鹹魚

一個時代,終究還是落幕了。

11月22日,上海第三中院對「人人影視字幕組」侵權案進行公開審理,并當庭作出一審判決。

以侵犯著作權罪判處被告人梁永平有期徒刑三年六個月,并處罰金人民币一百五十萬元。

違法所得予以追繳,扣押在案的供犯罪所用的本人财物等予以沒收。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

前段時間,南韓反烏托邦題材劇集《鱿魚遊戲》(Squid Game)可謂是相當火爆,上線1個月播放量就達到了1.42億,霸榜90個國家和地區。

Netflix也為其提供了多達31種語言的字幕和13種語言的配音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

然而韓裔美籍喜劇演員Youngmi Mayer卻發現《鱿魚遊戲》的官方字幕過于離譜,完全就是詞不達意。

就比如說,當女演員用韓語表示「看什麼看」,Netflix 的英文字幕翻譯為「走開」。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

随着Netflix等流媒體的興起,像是《鱿魚遊戲》這類的非英語作品也越來越多。

然而,字幕和配音行業的人才卻非常緊缺,尤其是小語種直譯方面。

還是以《鱿魚遊戲》為例,如果想将其推向西班牙語市場,通常會先輸出英文版的字幕,然而再在這個基礎上進行法語翻譯。

也就是說,部分語種字幕的品質完全取決于英文的翻譯如何,而這個轉化過程難免會丢失很多資訊細節。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

據統計,《鱿魚遊戲》的配音版比字幕版的觀看人數還要多。

為此,不管是Netflix這樣的流媒體巨頭,還是一些小型的本地化服務供應商,都在探索能不能用AI技術代替人工翻譯。

那麼,AI到底是能行,還是不能行?

這就得從Deepfake Voice是什麼開始說起了。

複制或克隆一個人的聲音,常用到的一項技術叫Deepfake Voice,也稱為語音克隆或合成語音,其目的是使用AI生成一個人的語音。

目前,這項技術已經發展到可以在音調和相似度上非常精确地複制人聲的地步。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

聲音克隆是一個過程,在這個過程中,人們使用計算機生成真實個體的語音,使用人工智能(AI)建立一個特定的、獨特的聲音的克隆。

要克隆某人的聲音,必須有訓練資料輸給人工智能模型。這些資料通常記錄了目标人說話的例子。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

人工智能可以使用這些資料來呈現一個真實的聲音,比如可以用文字鍵入的任何東西生成一段語音,這個過程稱為文本到語音。

在以往的文本到語音(TTS)系統中,訓練資料是關鍵組成部分,它控制了語音輸出的産生。換句話說,你聽到的聲音就應該是資料集中給出的聲音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

不過現在,随着最新AI技術的引入,使用一些目标聲音的特征,比如語音波形,也可以進行更深入的分析和提取。

合成聲音是一個術語,也就是通常所說的Deepfake Voice,合成聲音也經常與聲音克隆互換使用。

但簡單來說,合成語音就是計算機生成的語音,也叫語音合成,一般是通過人工智能(AI)和深度學習來實作的。

合成聲音的方式主要有兩種:文本到語音轉換(TTS)和語音到語音(STS)。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

文本到語音轉換(TTS)在上文中已經介紹過,目前,TTS軟體已被用于幫助視障人士閱讀數字文本,還被搭載在語音助手等其他應用上。

而語音到語音(STS)不是使用文本,而是使用一段語音修改其聲音的特征來建立另一段聽起來很真實的合成語音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

過去的語音合成并不能生成以假亂真的聲音。但是随着技術的發展,這種情況已經改變。

傳統的語音合成通常使用兩種基本技術。這兩種技術是拼接合成和共振峰合成。

拼接合成采用的方法是将錄制聲音的短樣本拼接在一起,形成一個稱為單元的鍊。這些單元然後被用來生成使用者定義的聲音模式。

而共振峰合成這種技術最常用來複制人們用元音發出的聲音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

這些方法的缺點是,它們時不時會生成一些人們無法發出的聲音。但是深度學習和人工智能的出現将TTS技術帶到了新的高度。

AI文本到語音轉換通常被稱為神經文本到語音轉換,它利用神經網絡和機器學習技術從文本中合成語音輸出。

首先,語音引擎接受音頻輸入,并識别人類聲音産生的聲波。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

接着,這些資訊被翻譯成語言資料,這被稱為自動語音識别(ASR)。在獲得這些資料後,語音引擎必須對資料進行分析,以了解它所收集的單詞的含義,這被稱為自然語言處理(NLP)。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

尋找訓練資料是合成聲音的第一個基本項目。沒有清晰的聲音錄音,就沒有辦法成功地訓練人工智能模型來捕捉一個人說話的所有複雜細節。

錄制過程可能需要幾個小時到幾個小時,語音解決方案團隊将提供一個全面的短語清單,以捕捉一個人聲音的所有特征。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

通常,這個清單不會超過4000個短語,但目标确實是圍繞某人獨特的聲音捕獲盡可能多的資料——捕獲的資料越多,聲音克隆就越準确。

接下裡,AI要對語音資料進行模組化。

使用神經網絡擷取一組有序的音素,然後将它們轉換成一組頻譜圖。頻譜圖是信号頻帶頻譜的可視化呈現。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

神經網絡選擇合适的頻譜圖,其頻帶能夠更準确地刻畫人腦在了解語音時使用的聲學特征。然後,神經聲碼器将這些頻譜圖轉換成語音波形,就可以發出自然且逼真的聲音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

今年10月,GitHub上的一個項目狂攬13k星。

隻需5秒,就能用AI技術來模拟聲音來生成任意語音内容,并且還支援中文。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

根據上傳的示範視訊來看,聲音模仿的也很逼真。

Mocking Bird的主要特性包括:

支援國語并使用多種中文資料集進行測試:aidatatang_200zh, magicdata, aishell3, biaobei,MozillaCommonVoice等

适用于pytorch,已在1.9.0版本中測試,GPU Tesla T4和GTX 2060

可在Windows作業系統和Linux作業系統中運作(蘋果系統M1版也有社群成功運作案例)

僅需下載下傳或新訓練合成器(synthesizer就有良好效果,複用預訓練的編碼器/聲碼器,或實時的HiFi-GAN作為vocoder)

提供一個Webserver可檢視訓練結果,供遠端調用

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

Mocking Bird除了在知乎上有專欄分享保姆級教程和訓練技巧之外,其使用也非常簡單。

首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩餘包。

第二步是準備預訓練模型,可以使用作者提供的或者是其他人訓練好的模型。

重要的資料處理操作是進行音頻和梅爾頻譜圖預處理:python pre.py <datasets_root> 可以傳入參數 --dataset {dataset} 支援 aidatatang_200zh, magicdata, aishell3

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

第三步在浏覽器直接啟動一個Web程式來進行調試。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

或者啟動一個更完善的工具箱軟體。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

作者還貼心的附上了所有可以學習的論文及原始代碼倉庫。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

這個倉庫的名字MockingBird 是仿聲鳥、反舌鳥,以善于模仿其他鳥類及昆蟲、兩栖動物的叫聲而聞名,也是一種經常出現在西方文學或影視作品之中的鳥類,在生物學上是嘲鸫的俗稱。

著名的書的名字《殺死一隻知更鳥》的英文就是To Kill a Mocking Bird,實際上屬于翻譯的錯誤,知更鳥的英文是Robin。

Deepfake Voice帶來的語音欺詐是一個很大的問題。

2019年,犯罪分子克隆了一家總部位于英國的能源公司CEO的聲音,騙走了24萬美元,原因就是這個假CEO在口音和語氣上聽起來都是十分真實的。這起事件是歐洲已知的第一起直接使用人工智能的網絡犯罪。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

另一起事件發生在2020年。一位在阿拉伯聯合酋長國工作的銀行經理接了一個電話,他當時以為他在和一家公司的董事說話,結果掉進了一個徹頭徹尾的語音騙局,錯誤地準許了3500萬美元的轉賬。

随着技術的發展,Deepfake Voice詐騙變得越來越複雜,許多人可能在社交媒體上就已經遇到過一些Deepfake Voice僞造的聲音。

人人影視落幕,鱿魚遊戲殺瘋!要什麼字幕,AI配音5秒生成

那麼,如何防範Deepfake Voice欺詐呢?

有兩種方法。

第一種方法是建立一個檢測器,分析聲音以确定它是否是使用deepfake技術制作的。不幸的是,因為Deepfake Voice技術會不斷發展,檢測器無法永遠保持正确。

第二種方法則相對更加現實,主要是實作一個聽衆聽不到、人們也無法編輯的音頻水印。音頻水印本質上是聲音被創造、編輯和使用的記錄。這樣一來,人們就更容易知道一段聲音是否是合成的。

參考資料:

https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html

https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale

https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/

https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/

https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/

https://www.veritone.com/blog/how-to-create-a-synthetic-voice/

特别鳴謝ifan

https://www.ifanr.com/1454818

synthetic-voice/

繼續閱讀