天天看點

聲音如何洩露你的隐私?美國學者談智能語音的風險

聲音如何洩露你的隐私?美國學者談智能語音的風險

聲音如何洩露你的隐私?美國學者談智能語音的風險

2018年2月,蘋果智能音箱HomePod正式在美國上市。(視覺中國/圖)

圖羅曾經寫過一個故事:一位父親在家裡收到百貨公司郵寄的母嬰用品廣告後,才得知他尚未成年的女兒已經懷孕。商場怎麼會比女孩的家人更早知道她懷孕呢?

美國學者、賓夕法尼亞大學教授約瑟夫·圖羅追蹤了這一過程:線上零售商可通過自家網站追蹤消費者的購物進度,還可追蹤顧客跳轉到其他網站的情況;實體商店可以利用的法寶則是智能手機應用、無線網絡、攝像頭和定位系統。它們希望收集很多資訊:比如一個顧客是否懷孕或者剃須膏快要用完,以便在合适時機推送廣告。

圖羅将這些寫入《監控無處不在:零售商如何追蹤消費、侵犯隐私、評估客戶》一書,2017年本書出版後,他又用時三年追蹤起新的領域——正在崛起的智能語音産業。《聲音捕手:擷取人們感受、隐私和金錢的智能語音營銷》中的案例包括蘋果、亞馬遜、谷歌、三星等涉及開發語音識别相關技術的科技巨頭,他從專利檔案、新聞稿、公司網站等多個來源,以及對首席執行官、項目經理、研究人員和專利律師等産業主要參與者的個人采訪中提取資訊,分析産業的主要參與者如何構思和應用基于語音技術的産品。複旦大學管理學院副教授褚榮偉認為該書最顯著的優點之一“或許就是與業内人士的直接對話”。

“你的聲音是獨一無二的,它隻屬于你自己。是以,你的聲音不但對你來說異常珍貴,而且對社會中一個旨在利用聲音的新領域——智能語音産業來說特别有商業價值。”圖羅提醒公衆,圍繞智能語音技術迅速發展可能涉及的倫理紅線和隐私濫用問題。

智能語音産業對我們來說并不陌生。它涉及很多載體或工具,比如智能音箱、車載資訊系統、客戶服務電話及溫控器、警報器等“家居互聯”裝置。

在美國和歐盟地區,最有名的智能語音助手是亞馬遜公司的Alexa、谷歌公司的谷歌智能助手(Google Assistant)和蘋果公司的Siri。在中國,我們熟知的是百度公司的小度助手和阿裡巴巴的天貓精靈等。它們已經得到廣泛應用:亞馬遜公司聲稱,搭載其智能語音助手的裝置多達數億個;而通過智能手機和智能音箱Google Home與使用者互動的谷歌智能助手則在超過10億個裝置上被使用者使用。

圖羅的研究專長于市場營銷、新媒體與隐私。2005年《紐約時報》的一篇文章中稱他“可能是媒體碎片化領域的權威學術專家”。他對美國公衆有關營銷、新媒體和社會問題的持續調查受到大衆媒體和學術界的廣泛關注,獲頒美國國家傳播學會傑出學者獎。2012 年,因圖羅在營銷和數字隐私方面的研究和寫作,美國第三方隐私安全認證機制TRUSTe任命他為“隐私先鋒”。

在《聲音捕手》中,圖羅試圖警示的是一種商業生态系統目标的轉變——營銷者能利用你身體發出的信号賺錢。我們對人臉、指紋涉及的隐私安全已有一些讨論,但同為生物識别資訊,語音能夠洩露的隐私恐怕還未被公衆所廣泛知曉。

業内人士普遍認為,通過分析聲音和說話方式等,能擷取關于人的情緒、情感和人格特征等方面的資訊,甚至識别體重、身高、年齡和種族等。約瑟夫·圖羅擔憂的後果是,營銷者通過這些資訊給作為顧客和潛在顧客的你打分,然後根據分值或分數等級的不同,向你展示不同的産品,給予更高或更低的折扣,而當你需要幫助時,他們也會據此提供不同品質或等級的服務。

簡而言之,營銷者通過聲音模組化,對不同的人進行差異化營銷。

同樣的,聲音也可能被政治和軍事組織利用。你可能因為一張語音畫像或一份語音分析報告,被商家、其他組織或個人識别、分類,甚至歧視。圖羅指出,目前語音行業還處于嘗試這些做法的早期階段,各公司對快速推進生物特征畫像仍持謹慎态度。“但是它們現在已經擁有了相關的技術和專利,一些公司也已經開始使用語音分析技術。”這意味着,我們至少要對聲音(當然也包括其他生物識别資訊)可被利用的價值保持一定的知情和警惕。

“又偷聽我了”

和圖羅的聯系不算順暢。《聲音捕手》不算熱門圖書,2023年6月,南方周末記者偶然刷到了這本書的相關訊息。在社交網絡上,近幾年我們常常聽到一類說法:“×××又偷聽我了”。這指的是,我們經常發現線上下和别人讨論一些事情後,過一陣子,就會在某些App上刷到相關訊息。

公衆通常不知道這一切是如何發生的,對于自己說的話被“偷聽”存在擔憂,不知道相關技術是否處于“黑箱”。《聲音捕手》是一種前瞻性研究——它解釋智能語音領域的發展情況,并說明需要阻止它在哪些方面的發展。

南方周末記者最初通過賓夕法尼亞大學網站的公開郵箱與約瑟夫·圖羅教授聯系,但約訪信均石沉大海。直到三個多月後,一位版權代理終于轉來他的回信。他嚴謹且有耐心地回答問題,并表示希望了解更多關于中國市場的資訊,他相信《聲音捕手》中提到的很多問題在中國同樣适用。

圖羅認為要探明各家公司如何以及多大程度上利用智能手機和智能音箱中的語音資料來賺錢十分困難,密密麻麻的隐私條款往往沒有那麼坦誠。但要弄明白它們的意圖,一個可行的辦法是查閱專利技術檔案——為鼓勵創新,美國憲法賦予了美國國會授予專利的權利,從中可管窺大型科技公司研發語音相關技術的戰略方向。

在亞馬遜公司的一項專利附圖中,一個伴有咳嗽和鼻塞症狀的女人對智能音箱Alexa說:“我餓了。”該裝置在通過“處理語音資料,并對使用者語音的音調、節奏、發聲方式、顫動、和諧度加以分析”後,檢測出說話人的語音異常,最終得出該使用者感冒這一結論。基于這一結論,Alexa詢問對方是否需要喝雞湯,在對方拒絕後,它又提議購買一小時即可送達的止咳糖漿。圖羅認為,這個場景溫暖、貼心,但人工智能程式的真實目的很可能是通過使用者需要喝雞湯和同意購買止咳糖漿的頻率,推斷出她的短期或長期健康狀況——這是具有市場價值的,亞馬遜病房甚至可以相應地為使用者提供治療建議、訂購并配送處方藥。

谷歌公司的一份專利申請書寫道,公司能夠通過“音頻的特征,如語音模式、音調等”,弄清楚房間裡有誰,他們“在走動還是做其他事”,以及此時他們行動的聲音有多大。谷歌公司在申請書中舉了一個例子:父母即使遠離孩子們,也能實時掌握他們的狀态——在睡覺或在說悄悄話。如果是後者,則意味着孩子們“又在淘氣”,智能語音系統将會通知父母或其他大人,這樣他們就可以對孩子們“進行管教”。這項專利旨在以燈具、溫控器和鎖具等裝置為媒介,響應使用者通過聲控和觸控發出的指令,進而打造谷歌的“智能家居”業務。

你的聲音透露你是誰

一個人的聲音能揭示他的哪些資訊?卡内基梅隆大學計算機科學教授麗塔·辛格探索了語音特征與身體其他部位之間的關系。比如,在通過聲音判斷一個人的性别時,從骨骼到細胞特征等各種因素是如何發揮作用的。聲音與情緒的關系和神經相關,這是因為“支配喉部肌肉的神經與許多神經,尤其是迷走神經相聯系”,“而迷走神經又會嚴重影響身體對情緒的反映”。

研究結果表明,人們說話時會不經意間提供關于自己的細節資訊。圖羅舉了很多例子,比如,身體健康的人發出的元音明顯更清楚,發出的聲音傳得更遠,更少出現聲音抖動。聲音甚至可以透露出一個女性是否在幾個月内服用過避孕藥,因為該藥物會抑制排卵改變激素水準,研究人員可以通過對聲音“範圍”和“品質”的定量檢測出變化。漸凍症、帕金森和失智症患者有不同的聲音缺陷,而抑郁症和精神分裂症都有特定的生物标志。

20世紀的研究人員試圖挖掘聲紋和人的某些身體特征之間的聯系,但辛格認為困難之處在于考察進展緩慢的疾病和聲音、情緒之間的微妙關系時,調查人員通常沒有足夠的時間去觀察被研究對象。能夠實作機器學習和深度神經網絡的人工智能技術則可以幫助克服這一問題,讓研究人員發現肉眼無法觀察到的聯系模式。

具體做法是,在控制年齡、體重及其他身體特征等變量的條件下,将聲紋加載到計算機上,然後讓計算機去分析特定聲紋與研究人員感興趣的身體特征——如疾病、咖啡因含量或與情緒相關的神經遞質等之間是否存在某種持續的聯系。如果經過分析後發現确有聯系,計算機就能在每個人的聲紋中檢測出那些特定聲紋。

麻省理工學院的一個項目僅根據一個人的一小段語音片段,就利用人工智能生成了此人面部的粗略數字畫像。一篇關于這項成果的評論性文章指出,“值得慶幸的是,人工智能(目前)還不能僅憑聲音就知道某個人确切的長相。神經網絡能識别出語音中特定的标志性資訊,如性别、年齡、種族及許多人共有的特征。”

圖羅認為“目前”一詞值得玩味,“這反映了研究人員對于這些通向我們身體和心靈的新門戶的樂觀态度,以及一點敬畏。”而利用人的語音判斷其情緒和人格的做法已在呼叫中心行業中得到成規模的使用,2010年,《紐約時報》的兩名科技記者寫道:“現在,很多呼叫中心的慣常操作是通過識别特定的單詞或短語,或者檢測出對話中出現的其他特征,來判斷來電者的某些情緒。”他們還透露,以色列的語音分析軟體公司Voicesense開發了一種算法,它可以測量十幾個名額,包括呼吸、說話節奏和語調等,當來電者“變得不高興或不穩定”時,它會向客服代表和主管發出警報。

“當Echo和Google Home剛開始流行的時候,很多評論家就建議使用者在讨論他們不想讓語音助手知道的話題時,最好關閉智能音箱。然後,關閉了裝置就無法享受它提供的自發服務——這正是語音助手的核心魅力,當開啟裝置時,語音助手會随時準備回答你的問題和執行你的指令。是以,人們還是會讓這些裝置處于開啟狀态,将自己暴露在語音監控環境之下。”圖羅指出,目前大型科技公司對于語音識别技術的利用仍持審慎态度,一大核心邏輯在于——他們擔心美國群眾對于智能音箱在全社會滲透的反感,畢竟,和人臉、指紋識别相比,這些裝置更能夠深入到我們私密的家居環境中。

圖羅認為,智能語音産業仍在建構之中,對社會的滲透還沒有達到公衆無法撼動、無法改變的地步。“是以,現在正是時候推廣相關觀點和制定相關政策,以規範這個利用語音進行生物識别的營銷世界。”

聲音如何洩露你的隐私?美國學者談智能語音的風險

約瑟夫•圖羅(Joseph Turow),賓夕法尼亞大學安嫩伯格傳播學院傳播學教授,獲頒美國國家傳播學會傑出學者獎,長期專注市場營銷、新媒體和隐私問題。(受訪者供圖)

谷歌曾想在所有汽車後座上安裝傳感器

南方周末:你長期專注市場營銷、新媒體和隐私問題,被認為是數字時代隐私問題方面的傳播專家。你最初為什麼會關注到智能語音行業的隐私問題?

約瑟夫·圖羅:我的上一本書(《監控無處不在:零售商如何追蹤消費、侵犯隐私、評估客戶》)聚焦于商店線上上網絡和線下實體空間追蹤人們的方式,這本書于2017年出版後,我認真考慮了下一步的重點。我清楚地認識到,我們稱為生物識别追蹤的方式正在成為營銷者的主要方向——即根據人體的各個方面對其追蹤。

政府和私營企業已經開始對人的臉部、手指、視網膜甚至走路方式進行檢查,以便識别他們的身份。我想展示的是,聲音是如何開始成為營銷者追蹤、标記他們,以及向他們投放個性化資訊的工作模式。智能語言行業是一個很好的起點,當時這個行業正在蓬勃發展。

南方周末:近年來,大規模人臉識别技術普及涉及的資料隐私倫理問題已有很多讨論。但少有人談論語音資料的洩露風險問題,這是為什麼?

約瑟夫·圖羅:這是個好問題。我認為答案與人臉識别是一種明顯的入侵有關。我們都聽過這樣的故事:人們——有時甚至是整個族群——是如何被錄影機以令人吃驚、有時甚至是令人震驚的方式識别出來的。但我認識的大多數人幾乎都沒有想過,一個人的聲音不僅能識别他的身份,還能提供有關他的身體特征、疾病和(至少根據營銷者的說法)情緒狀态等方面的資訊。

南方周末:我們的聲音可以揭示我們的哪些資訊,這些資訊又可能被怎樣利用?根據你的研究,相關技術目前發展到了什麼階段?

約瑟夫·圖羅:我接觸過的權威研究人員和他們的著作都強調可以從一個人的聲音中了解很多東西,包括他們的身份(即使随着時間推移)、身高、體重、一些可能的疾病,甚至一個女人是否在一定時間後服用過避孕藥。

營銷人員還試圖推斷人們的情緒狀态。但與我交談過的幾位研究人員說,這種推斷可能是最不可靠的,原因在于,情緒是有文化偏差的。一個人生理上可能是興奮的,但在一個群體中可能表現為一種情緒,在另一個群體中則可能表現為另一種情緒。

南方周末:你花了多長時間研究、撰寫這本書?你接觸到了很多業内人士,這個過程艱難嗎?他們的回答能否滿足你的好奇心?

約瑟夫·圖羅:我為這本書工作了大約三年,采訪了大約25位來自智能語音和廣告行業的人士,參加了各種會議,閱讀行業公告和雜志。總的來說,與我交談過的人都願意發言,而且樂于助人。我得到了很多不同公司如何花費大量時間思考——如何盡可能多地了解他們想要銷售的對象的資訊,它們都和語音有關。

我采訪過的一個人給我講了一個故事——後來我通過報紙上的報道證明了這一點——谷歌想在所有汽車後座上安裝傳感器,以了解乘客的年齡。沃爾沃拒絕了這一要求,但無論如何,谷歌現在是沃爾沃的主要語音伴侶,至少在西方是這樣。

“他們希望,如果他們不說話,任何讨論都會消失”

南方周末:你試圖向公衆揭示語音資訊不為人知的用途。本書出版以來,有沒有更棘手的風險出現?

約瑟夫·圖羅:風險是雙重的。一類風險與營銷人員識别人的方式有關,他們會根據聲音和其他特征對人進行分類。這可能并且已經在人們可以看到的廣告種類、獲得的折扣種類、體驗産品的機會種類等方面導緻了各種偏見。除了尊嚴受損,如果公司通過聲音發現一個人患有某種疾病或處于某個特定年齡段,這個人也可能會蒙受損失,他們可能會以非常不同的方式對待這個人。

另一種截然不同的風險與我說的“隐性課程”(hidden curriculum)有關。隐性課程是對世界如何運作的一種未申明的了解。當人們習慣于不僅将自己的人口資料和行為資料交給營銷人員,還将自己的身體資料交給營銷人員時,久而久之,他們就會覺得這是一種正常的行為方式。

他們甚至可能接受政府、警察和軍隊在這方面的行動。在美國,有人反對警方使用攝像頭進行人臉識别,因為它們可能并不準确,而且會侵入人們的生活。如果他們開始使用語音識别技術會怎麼樣呢?

南方周末:這本書出版後引起了哪些關注或讨論?

約瑟夫·圖羅:很高興看到這本書在美國和歐洲引起了讨論,尤其是在學術界和政策制定者中。我甚至向美國聯邦貿易委員會就我研究結果的一些影響發表了演講。

南方周末:智能語音行業,尤其是谷歌、亞馬遜等科技巨頭有沒有作出回應?

約瑟夫·圖羅:老實說,語音行業并沒有參與讨論。坦率地說,我認為他們希望,如果他們不說話,任何讨論都會消失。

南方周末:在中國,人們使用一些社交軟體時,會發現收到和線下說過的話有關的推送内容。就你的了解,這是一種監聽行為嗎?

約瑟夫·圖羅:在美國,人們也堅信他們收到的廣告和短信是基于他們對語音助手說的話。就我的了解,在美國和歐盟,語音助手不會偷偷監聽,然後根據聽到的内容發送廣告。這種“說着說着就能看到相關文字”的巧合還有其他原因。但人們相信它,并為此感到緊張這一事實本身就很重要,它說明了技術如何改變了人們對現實的看法。

南方周末:你對ChatGPT有何看法?它會給資料隐私帶來新的風險嗎?

約瑟夫·圖羅:這本身就是一個大話題。當然,生成式人工智能将以多種方式應用于語音助手,它将重塑或許重振智能音箱業務。它還會強化我在《聲音捕手》中讨論過的許多問題,因為商家會讓語音助手根據人工智能對人們的推斷來與他們交談,這會進一步侵犯人們的隐私。

南方周末:你在最後談到了美國、歐盟、中國的相關監管措施。你認為什麼樣的監管是有效的?

約瑟夫·圖羅:我認為,在營銷中使用生物識别資料應該是非法的,包括聲音。

南方周末:您對中國讀者有什麼想說的嗎?

約瑟夫·圖羅:謝謝你問我。我确實希望中國讀者能把這本書與他們的生活聯系起來思考。我邀請讀過這本書的人給我發電子郵件,告訴我他們的反應。

• (南方周末實習生溫若梅對本文亦有貢獻)

南方周末記者 付子洋

責編 李慕琰

繼續閱讀