天天看點

“動動嘴皮子”AI就能知道你在說啥,當心隐私洩露

——闫懷志 北京理工大學計算機學院副教授、網絡與安全研究所所長

雖然電視劇《狂飙》已經迎來了大結局,但熱度仍然沒有絲毫減弱,有的網友利用劇中人物創作娛樂視訊,也有的網友剪輯其中精彩片段。不過,還有一些“較真”的網友,發現《狂飙》中的一些人物對話,配音和嘴型對不上,于是便想通過人工智能進行唇語識别,還原最初的劇本情節。

然而,AI讀唇語并非隻能被用于破譯“隐藏劇情”。據統計,大陸聽力殘障人口超過2054萬,除了主要的手語交流外,讀唇語也是他們重要的溝通方式。但人工解讀唇語容易受到個人經驗、視覺感受能力、語言了解能力等因素影響,在正确率方面差強人意,于是人們開始嘗試利用AI技術來解讀唇語。

比唇語專家更懂唇語

“所謂AI讀唇語,即人工智能唇語識别,其核心技術架構為視覺識别和自然語言處理。”北京理工大學計算機學院副教授、網絡與安全研究所所長闫懷志介紹道,具體而言,就是利用機器視覺技術,将人臉從圖像中連續識别出來,并提取其中連續的口型變化特征,輸入至唇語識别模型,辨識出該人物口型對應的發音,進而輸出可能性最大的表達語句。

“視覺識别和自然語言處理分别有着龐大的技術體系和不同的技術路線,但究其本質,都是通過大量的唇語資料來訓練AI模型,力求文本輸出的準确性。”闫懷志補充道。

近幾年,不斷有AI巨頭開始在唇語識别賽道上作出嘗試。谷歌旗下Deep Mind公司就與英國牛津大學合作,研發出了一款AI讀唇語軟體,通過讓AI讀唇語軟體“收看”數千小時的電視節目來訓練其唇語識别能力。有意思的是,在随機抽取200個視訊片段的讀唇語測試中,AI讀唇語軟體的準确率達到了46.8%,而經過專業訓練的人類讀唇語專家,準确率僅為12.4%。

為何AI讀唇語能夠悄然興起?闫懷志給出了自己的分析:一是強烈的需求牽引,二是巨大的技術推動。從需求牽引來說,唇語識别不僅可為部分殘障人士提供友善,更可以在公共安防等諸多領域發揮巨大作用;從技術推動來說,由于AI算法、算力以及資料瓶頸被不斷突破,使得AI技術在唇語識别領域取得較大成功成為現實。

衆多難題有待突破

不過,闫懷志也表示,目前大陸人工智能唇語識别技術尚處于起步階段,若想利用人工智能準确地識别唇語,還有很長的路要走。

從語言本身來看,人類語言具有較高的複雜性,在人類話語所涉及的所有音标中,僅有30%左右是直接由人類嘴唇來控制的,70%是難以通過肉眼,甚至是機器視覺區分的齒音、舌音以及喉音。而且,不同人說話的語氣、方言、連詞、口音,乃至胡須遮蓋等因素,都會導緻嘴型的細微變化,而恰恰是這種細微變化,會嚴重影響人工智能對于唇語的識别和判斷。

從技術層面來看,人工智能采集唇語的環境通常較為複雜,若想精準識别難度很高。以目前的人工智能技術而言,對于長句、複雜句式等的識别水準不盡如人意,更不用說還存在着多場景識别、多人像唇語識别等問題。

闫懷志表示,隻有解決了上述問題,AI讀唇語才能得到突破性提升,邁向成熟發展階段。

人類不同語種之間千差萬别,AI能讀懂每個語種的唇語嗎?

闫懷志介紹,此前較為成功的AI讀唇語系統大多僅限于英語模型,這是因為多數AI模型都是基于英語資料訓練而得。但是,從技術架構上來說,不同語種的訓練模型是基本一緻的,或者說可以依賴于同一類技術手段來實作。

當然,為了适應不同語種的唇語識别,也需要作一些适應性調整:一方面要選擇對應語種的資料進行有針對性的訓練;另一方面,還需要對AI模型進行調整,比如納入時間屏蔽、優化語言模型以及改進超參數等。

此外,同一語種也會有不同口型,即便口型類似,也可能代表着完全不同的意思。是以,成熟的AI讀唇語系統需要大量的唇語特征樣本資料,并盡可能地覆寫多種應用場景、多類型的說話人群,借此來提升訓練後的唇語識别模型的泛化能力,提高AI讀唇語對于不同口型和不同表意語言的識别準确率。

亟須監管的技術雙刃劍

盡管存在種種難題,但仍有越來越多的AI企業開始涉足并計劃深耕人工智能唇語識别賽道。目前來看,各大AI巨頭的選擇不盡相同,具體可分為唇語資料、唇語視訊識别、唇語了解等。

闫懷志也表示,目前許多人工智能唇語識别技術領域已實作初步突破,全鍊條內建前景可期,産業叢集正在逐漸形成。

從應用場景來看,AI讀唇語在社會公益、公共安全等領域都已開始嶄露頭角。從目前各大巨頭的布局以及相關技術的發展趨勢來看,AI讀唇語預期可在身份識别、國家安全、智慧系統等方面具有廣闊的應用前景。“可以想見,由于公益、公共安全、國家安全等領域巨大的潛在需求的牽引,以及AI技術飛速發展的強力推動作用,在不久的将來,AI讀唇語有望實作快速推廣與深度普及,産業前景十分可期。”闫懷志說。

例如,在安防安監領域,很多安監場景噪音較大或僅有視訊信号,無法準确捕捉聲音,人工智能唇語識别技術就能派上用場;在身份識别領域,可以利用AI讀唇語來實作口型支付密碼輸入,“動動嘴唇”就能實作身份識别和支付交易;在公共安全領域,利用AI讀唇語,可以在各類視訊中分析案件當事人的唇語資訊,輔助案件偵查工作;在智慧系統領域,可利用AI讀唇語來實作“無聲勝有聲”——隻依靠口型來控制智能裝置,比如智能家電等。

當然,技術應用是把雙刃劍。很多人擔心,AI讀唇語會使人們對話中的隐私内容遭到洩露,無論當事人是公開發言、竊竊私語或是自言自語。“張張嘴”就被别人竊取聊天内容,仔細想來确實可怕。

闫懷志表示,這種擔心并非杞人憂天。AI讀唇語導緻的隐私洩露,一方面可能是有人惡意進行唇語擷取識别,另一方面也可能是正常使用的AI讀唇語系統,但其中的存儲、使用等環節保護不當,導緻相關資料被竊取或濫用,進而對個人權益造成損害。而且,由于涉及到當事人的對話内容,具有明顯的方向性,這種隐私洩露的危害性可能要比普通的個人資訊洩露更為嚴重。

是以,闫懷志建議,應從隐私安全保護的角度,在管理層面加強相關法律法規的制定,嚴格規範和限制AI讀唇語的應用場景、範圍和目的,加大對技術惡意利用的監管和懲戒力度。此外,還要在技術層面加強AI讀唇語系統的安全保護體系建設,以技術手段提高系統的識别精準度,避免技術濫用,切實保障使用者對話的内容安全。

來源: 科技日報