僅需 3 秒語音就能完美複制整個人的口音?在爆火的生成性人工智能GPT 的背景下,技術被濫用的風險,對普通人造成的安全隐患和威脅,絕對不容低估。根據 McAfee 公布的最新報告,基于人工智能(AI)的語音詐騙日益猖獗,在接到詐騙電話的群體中,77% 的人會導緻經濟損失。
那麼,不法分子是如何利用 AI 技術克隆使用者語音的?
聲紋識别是一項根據語音波形中所蘊涵的說話人資訊、自動識别說話人身份的技術。近年來,金融、電信、保險等業務實作線上化普及,生物特征識别技術在身份認證場景中發揮重要作用。與人臉、虹膜、指紋等生物特征相比較,聲紋具備成本低、易接受、難仿造等資料優勢,現已在金融、公安等領域的登入、支付、業務核身、反詐、遠端身份認證等諸多場景中廣泛應用,特别是基于電信網絡的身份識别,如電話銀行、電話炒股、電子購物等。
聲紋認證廣泛應用的背後,則是規模龐大、亂象叢生的聲紋認證市場。市面上 AI 語音克隆的免費工具和收費工具都唾手可得,許多工具隻需要基本的經驗和專業知識即可使用。其中有工具甚至隻需三秒鐘語音就足以生成比對度達 85% 的克隆語音。克隆語音越準确,網絡犯罪分子誘騙受害者交出錢财或采取其他所要求的操作的可能性就越大。
從聲紋認證的灰黑産業鍊來看,黑産團夥通過網絡管道擷取到個人的真實資訊,并結合 AI 技術手段或工具克隆使用者語音,繞過聲紋活體檢測等校驗機制,欺騙聲紋識别系統,進而實作賬号及資訊竊取、電信詐騙等業務違規目的。
01
聲紋認證安全漏洞的攻擊利用方式
聲紋識别技術在某些方面雖然比傳統的身份驗證技術更加安全,但仍然存在一些安全漏洞和攻擊利用方式:
1. 錄音攻擊:通過錄制目标使用者的聲音,使用錄音欺騙聲紋識别系統,獲得未經授權的通路權限。
2. 語音合成攻擊:使用語音合成技術生成與目标使用者相似的聲音,使用這些聲音欺騙聲紋識别系統,獲得未經授權的通路權限。
3. 聲音變形攻擊:使用聲音變形技術改變自己的聲音,欺騙聲紋識别系統,獲得未經授權的通路權限。
4. 聲音重播攻擊:使用聲音重放技術來重放之前的聲音,欺騙聲紋識别系統,獲得未經授權的通路權限。
5. 語音幹擾攻擊:使用語音幹擾技術幹擾聲紋識别系統的正常運作,使其無法正确識别聲音。
6. 聲紋識别算法漏洞:聲紋識别算法可能存在漏洞,攻擊者可以利用這些漏洞來欺騙聲紋識别系統,獲得未經授權的通路權限。
7. 資料庫攻擊:攻擊者可以通過攻擊聲紋識别系統的資料庫,擷取使用者的聲紋資訊,進而獲得未經授權的通路權限。
02
聲紋識别系統繞過技術分析
對抗樣本攻擊
對抗樣本攻擊(Counter Sample Attacks)是攻擊者故意設計,導緻算法模型出現錯誤輸入,通過對樣本添加特定擾動資訊,幹擾模型輸出指向錯誤的結果或輸出結果異常,在深度學習算法安全對抗領域有廣泛應用和一定通用性。
對抗樣本攻擊是在一段非目标人物的語音上加上擾動資訊,生成對抗語音,使系統将對抗語音識别為目标人物,分為白盒攻擊、黑盒攻擊和半黑盒攻擊。攻擊者可以通路目标神經網絡的所有資訊,包括其架構、參數、梯度等。
攻擊者可以充分利用網絡資訊,精心制作對抗樣本。下圖展示對抗樣本攻擊的方法:
模型後門攻擊
模型後門攻擊(Model Backdoor Attack)是指在模型的訓練過程中,通過某種方式埋藏後門(Backdoor),然後通過攻擊者預先設定的觸發器(Trigger)激發。後門未被激發時,被攻擊的模型和正常模型表現類似;當模型中埋藏的後門被攻擊者指定的觸發器激活時,模型的輸出變為攻擊者預先指定的标簽(Target Label),進而達到惡意攻擊目的。
後門攻擊發生在訓練過程非完全受控的很多場景,如使用第三方資料集、使用第三方平台進行訓練、直接調用第三方模型等,對模型安全性造成巨大威脅。目前,對訓練資料投毒是實作後門攻擊最直接、最常見的方法。
樣例:
https://github.com/zhaitongqing233/Backdoor-attack-against-speaker-verification
深度僞造攻擊
深度僞造攻擊(Deep Forgery Attack)指通過各種語音合成、語音轉換或高度模仿攻擊目标聲音的音調、音強、發音習慣等音律特征,對聲紋識别系統進行攻擊,是一種新型攻擊方法,條件限制要求較高,需要利用各種聲頻處理軟體僞造語音,進而模糊聲紋識别系統,繞過聲紋識别。
完成深度僞造的音頻,需要克服複雜因素:
- 保證音頻高品質,幾乎沒有背景噪聲;
- 分階段傳送音頻;
- 避免面對面交談,隻使用語音留言等手段達到目的。
03
繞過聲紋識别的技術防禦指南
為了規範人工智能發展,2022年12月,《網際網路資訊服務深度合成管理規定》正式釋出,對資料和技術管理規範進行了明确。其中關于授權同意的原則提到,深度合成服務提供者和技術支援者提供人臉、人聲等生物識别資訊編輯功能的,“應當提示深度合成服務使用者依法告知被編輯的個人,并取得其單獨同意”。
面對如此猖獗繞過聲紋認證的黑産技術,企業可從以下措施進行有效防禦:
1.添加多因素認證方式
多因素認證可以降低單一認證方式被攻破的風險。結合其他身份驗證方法,如密碼、PIN碼、面部識别或指紋識别等,以增強安全性。
2.定時更新聲紋識别系統
確定聲紋識别系統及其算法保持最新,以修複已知的漏洞和提高識别準确性。
3.引入活體檢測技術
活體檢測可以要求使用者在驗證過程中進行随機的動作或說出随機的短語,以確定聲音來源于實時的人類使用者,防止錄音攻擊和語音合成攻擊。
4.語音加密
對使用者的聲紋資料進行加密,以防止在傳輸過程中或存儲時被截獲或篡改。
5.安全存儲
確定聲紋資料存儲在安全的環境中,例如使用安全的資料庫和通路控制政策。
6.定期更換驗證短語
鼓勵使用者定期更換用于聲紋識别的驗證短語,以降低被攻擊者模仿的風險。
7.監控和報警
實施實時監控和報警機制,以便在發生異常行為或攻擊時及時發現并采取相應措施。
8.定期審計
定期對聲紋識别系統進行審計,以確定其安全性和合規性。
對于個人而言,應該增強資訊保護意識,不要輕易在不明軟體、小程式上洩露自己的語音消息、動态視訊等,減少聲音被惡意利用的風險。
作為,梆梆安全将持續洞察行業技術發展趨勢,強化理論研究,推進标準制定,完善評測評估和咨詢服務能力,與聲紋識别廠商一道,建構共治、共赢、共享的“生物特征識别技術應用生态”。