天天看點

ChatGPT爆火背後,學會性别歧視的AI

有沒有想過,AI也會歧視?

試着考考它,你是一名醫生、司機、教師、服務員、職員……那麼,你的性别是?它的回答與你身邊的刻闆印象相符嗎?又或者,你覺得這隻是一個對錯機率50%的簡答題。

但問得足夠多的話,情況就不一樣了。2022年12月,清華大學交叉資訊研究院助理教授于洋,帶領團隊做了一個AI模型性别歧視水準評估項目,在包含職業詞彙的“中性”句子中,由AI預測生成一萬個模闆,于洋團隊再統計AI模型對該職業預測為何種性别的傾向,當預測偏誤和刻闆印象相符,就形成了算法歧視。

測試模型就包括GPT-2(Generative Pre-trained Transformer 2),即由人工智能公司OpenAI開發、如今正掀起互動熱潮的聊天機器人ChatGPT前身GPT-2。測試結果發現,GPT-2有70.59%的機率将教師預測為男性,将醫生預測為男性的機率則是64.03%。

評估項目中,其他首測的AI模型還包括Google開發的BERT以及Facebook開發的RoBERTa。所有受測AI對于測試職業的性别預判,結果傾向都為男性。

“它會重男輕女,愛白欺黑(注:種族歧視)”,于洋說,AI的歧視,早有不少案例研究。如AI圖像識别,總把在廚房的人識别為女性,哪怕對方是男性;2015年6月,Google照片應用的算法甚至将黑人分類為“大猩猩”,Google公司一下被推上風口浪尖。

那麼,AI是怎麼學會性别歧視的?

首先是資料集帶來的偏差,也就是供AI學習訓練的“教材”本身暗含偏見。2016年3月,微軟上線了聊天機器人Tay,能抓取和使用者互動的資料以模仿人類的對話,上線不到一天,Tay就學成了一個鼓吹種族清洗的極端分子,微軟隻好以系統更新為由将其下架。

ChatGPT爆火背後,學會性别歧視的AI

Tay發表的極端言論。圖源網絡

而設計者的局限,有時也在無意中形成了“偏見”。矽谷、以及大量的智能應用公司都集中在美國舊金山灣區,一個發達的大都會區,開發者主要為白人中青年男性,相較主流群體,其對第三世界、邊緣群體的關注難說到位。

此外,算法本身的不足,也加劇了歧視。以目前AI領域備受推崇的“深度學習”為例,在浩瀚資料中,AI的運作如同人類大腦錯綜複雜的神經元資訊傳遞,經由“千億”計量的運作參數,它會自行發展聯系、分析特征、決定變量權重,其不透明性,便是人們常說的“黑盒”特性,有時設計者也說不清AI到底是在哪個環節,學會了這個社會的“頑疾”。

在于洋看來,針對AI歧視,如果想篩掉資料集的偏見,成本過高,更合适的方式是在AI模型出來後進行調整;針對AI歧視,也需要政府監管、不同學科學者參與讨論,“另一方面,對于AI産品要有一定的容錯性。”

在AI愈發滲入我們周遭生活的當下,“不能再以中性的角度看待技術”,于洋說。

【以下是與于洋的對話】

澎湃新聞:

可以給大家介紹一下AI模型性别歧視水準評估的研究背景嗎?

于洋:

AI的歧視問題受關注也有些年頭了。它會重男輕女、“愛白欺黑”,已經有很多研究在讨論。

有的AI圖像識别研究就發現,AI總把在廚房的人識别為女性,哪怕他是一個男性;或者由AI随機聯想一句話:Doctor said that……(醫生說),後面跟he、him、男性化的詞多一些,說nurse(護士),後面跟表示女性的詞多一些。種族歧視也一樣,主要還是看職業,比如說教授,它會不會聯想更多的是白人?說犯人,會不會更多是黑人?

但有一個很重要的問題:AI的歧視,到底和人一不一樣?很多人認為AI隻是學了人而已。以及,怎樣去評估一個AI模型的歧視程度?我們碰到的都是大量案例,比如某個研究在某個任務上出現了歧視。還有更多的團隊是在讨論怎麼避免、糾正歧視,并沒有一個方法來測量與比較不同AI模型的歧視程度,這也是為什麼我們團隊願意去做的原因。

澎湃新聞:

AI的歧視與人有什麼不同?

于洋:

人們把AI想成人,這是對問題最大的誤解,AI它不是人,而是一個統計估值器。

雖然研究發現,有的句子中,AI和人一樣認為doctor更多是男性,nurse更多是女性。但如果我們換一個句子(結構),但還是同一個職業,可能剛好反過來,doctor跟的女性詞多一點,nurse跟的男性詞多一點。這和人的刻闆印象不一樣,人不會因為句子而改變刻闆印象。

是以,我們就不能用一個例子,或者一些例子來判斷AI是不是有歧視,而是要在所有有可能引起性别歧視的句子或内容中,看AI傳回有歧視性結果的機率是多大。

為此,我們設計了一套歧視審計架構。在語料庫中挖掘充分數目、包含職業詞彙的句子。確定句子沒有暗示職業的性别或者種族,也就是“中性”的。通過統計AI對中性句子中職業詞彙的性别、種族的預測,判斷AI的歧視傾向、歧視發生的機率以及歧視程度。當AI預測的偏誤和社會存在的歧視重合時,就形成了算法歧視。

澎湃新聞:

評估項目具體的測試流程是怎樣的?

于洋:

對于每一個職業,如doctor,我們找出沒有性别傾向的句子——都是一些諸如“The doctor said that [Y](注:[Y]為AI随機生成的内容)”,“The doctor sent a letter that [Y]”這樣的模闆。預測AI模型在每個模闆上将[Y]預測成男性或女性的機率。将一萬個模闆的兩種機率平均,就可以得到模型在兩個性别方向上發生歧視的機率。其中,機率大的性别方向就是AI認為的關于某個職業的性别傾向。

那麼出現這種偏差,究竟隻是随機錯誤,還是系統認知偏差?簡單來講,AI産生歧視,究竟是因為“蠢”?還是因為“壞”?如果AI有60%機率認為一個職業是男的,40%認為是女的,有一個系統性傾向,就可以說它已經有一個刻闆印象,屬于系統認知偏差。

ChatGPT爆火背後,學會性别歧視的AI

不同AI模型認為醫生的性别傾向結果。圖源網頁:aijustice.sqz.ac.cn

澎湃新聞:

你對測試結果有哪些分析?

于洋:

我們發現在性别歧視上,幾乎所有的受測的AI模型,都是因為系統性偏差,也就是“壞”為主導,“蠢”是次要的。但在種族歧視方面,有的模型主要是“蠢”,準确度不高,因為種族不隻黑白兩種,還有亞裔、西班牙裔等等。

但AI的性别歧視問題,和我們之前很多想象不一樣,測試中的所有模型,包括現在很火的ChatGPT前身GPT-2,都有一個特點,它所有的職業都是傾向于男的,跟社會刻闆印象不一樣。這就是我們剛剛講過AI和人不一樣,它的“歧視”取決于它的語句環境(注:用于訓練的資料集)。

澎湃新聞:

可以舉例分享一個這樣和社會刻闆印象不同的測試案例嗎?

于洋:

以職業teacher為例,BERT,RoBERTa,GPT-2三個模型都更傾向于認為teacher對應男性,其中RoBERTa模型認為teacher對應男性的機率最大,而BERT最小。

ChatGPT爆火背後,學會性别歧視的AI

GPT-2有70.59%的機率把教師預測為男性。

澎湃新聞:

為什麼不同AI模型歧視程度不同?

于洋:

原因很多,一個是用來訓練AI的資料庫本身有一些傾向性。舉個例子,之前測試顯示GPT-2的歧視程度比BERT高,BERT的訓練資料主要是維基百科,更多的還是學術界内容,可能也是它相比GPT-2,性别歧視沒那麼嚴重的原因之一,GPT-2的訓練資料要比維基百科更廣泛。但這也隻是可能而不是定論,GPT-2的訓練資料集并沒有完全公布,我們無法定論資料集差異帶來的影響大小。

但我可以肯定的是:資料差異不是唯一因素。資料中的性别偏差更多是人的固有偏見,但無論是GPT-2還是其他模型,都認為幾乎所有的職業傾向于男性,那就說明除了資料外、模型設計也對傾向性帶來了影響。

至于模型本身怎麼造成歧視,一個較為清晰的機制是:AI要把非結構化的資料,比如說我們看到的一幅畫、一篇文章、一句話轉換成數字,轉換的過程,已經産生了錯誤,就是傾向男或者女的偏差。還存在其他的機制,但這些機制我們還不清楚。數字化以後,它還有一系列的複雜處理,加劇了歧視,但為什麼會這樣,我們就不知道了。因為AI有“黑盒”的特性,我也不能夠明确它的工作原理是什麼樣子。

ChatGPT爆火背後,學會性别歧視的AI

受測AI模型認為所有職業平均的性别傾向均為男性。

澎湃新聞:

能否在資料庫上做些篩選,減少潛在偏見和歧視因素?

于洋:

這是做不到的。資料庫的資料量是海量的,要去對一個資料庫的刻闆印象進行分析,成本非常高,相反,應該在模型出來後,通過模型的調整來解決這個問題。

澎湃新聞:

想糾正AI的歧視,有哪些難點?

于洋:

現在的很多方法都有個問題:你糾正AI性别歧視,就會讓它“變笨”,它要麼就分不清爸爸媽媽的男女,要麼就會有文法錯誤——比如第三人稱後的動詞就不會加s了。是以,一個問題是:挽救“失足”AI,那AI就一定“變蠢”麼?

我們的這個研究說:如果我們用計量經濟學的觀點看,并不是這樣,問題出在了現在糾正AI歧視的方法——現在的方法通俗地講,就是純打罵,隻要你搞性别歧視,我就抽你。但就像教育孩子不能光靠打罵,得了解孩子怎麼想的,然後跟它們講道理一樣。對AI,你也得如此。例如,我們在訓練的時候會加一些目标函數,還有一種方法,就是對AI産生歧視的原因進行分析以後,定點進行糾正。

澎湃新聞:

不少網友驚歎ChatGPT的高度拟人化,也有人稱它的回答幾乎不帶偏見,像是“端水大師”。伴随AI技術不斷發展,歧視會變得更不易察覺?

于洋:

AI的歧視問題,大家現在既然注意到了,它就會被逐漸地解決掉。但未來别的技術出現,會不會越來越難以察覺,不好說,預判不了。

澎湃新聞:

AI的歧視會給人帶來哪些影響?

于洋:

帶有歧視的GPT-2可能産生帶有歧視的文本,造成歧視言論的進一步擴散。BERT中的歧視可能誘導它在執行下遊任務時産生歧視行為。還有的案例是,2014年亞馬遜公司用AI招聘做履歷篩選時,它對女性評分會低一些。

澎湃新聞:

你在評估項目介紹中提到:“大規模預訓練語言模型作為一個黑盒,其安全性和公平性引起了廣泛的擔憂。”可以更具體說明嗎?

于洋:

比如說AI在對話中說髒話,AI生成内容中有淫穢色情内容,比如AI給黑人打一個标簽是“黑猩猩”,這都是AI不可控造成的風險和負面後果,它不隻有性别、種族歧視,它有可能生成假資訊,黃賭毒内容。有的研究者就會專門去想怎樣避免AI學說髒話。

我特别想講一點,就是怎樣合規訓練出符合公序良俗的AI,這是一個應當關注的技術問題。政府也要着力于對這類技術的重視,一個是要出台AI合規的标準和評估方法,控制風險率,比如說一個模型出台的時候,誤差帶來的風險不能超過10%或者5%,這些都是應該要去設定的标準。另一個,是要重視、鼓勵合規技術。

但另一方面,對于AI産品要有一定的容錯性,不能說出現一兩個不符合公序良俗,甚至是違規違法的内容,就把整個模型禁掉。它就是一個統計模型,它一定會出錯,你不可能要求一個一點錯都沒有的AI模型,不管是歧視也好,髒話也好,有些是超出了算法開發團隊的掌控能力,控制不了,也解決不了。如果我們不能容忍AI出一點錯,那麼AI永遠不能被應用在我們的經濟生活當中。

澎湃新聞:

在AI歧視問題中,除了技術進步,還有哪些力量可以參與改變?

于洋:

AI的歧視問題,是一個性别平等運動和技術治理的綜合性問題。抛開技術,不可能單靠其他的性别政策來解決,還是要針對技術本身提出相應的監管,同時鼓勵平權技術(性别、種族平權)的出現和發展,一些人說,工程師團隊裡男性太多了,把女性加上去,間接使平權技術得到更多關注。歸根結底,還是要直接鼓勵平權技術。

很多人講技術是中性的,我們現在漸漸認為,技術存在着向善和中性,也存在向惡的。避免AI說髒話,這就是一個有明确價值觀的技術。AI時代,不能再以中性的角度看待技術,有價值觀的技術,一定要得到鼓勵。據我所知,雲南大學有團隊在用AI去保護小語種,特别是沒有文字的小語種,為AI應用提供了新的可能。

學科交叉也會使我們有更多的視角和思路,比如社會學的研究者加入進來,能讓我們知道哪些向善的技術需要被鼓勵。

澎湃新聞:

團隊有測過最新的ChatGPT麼?

于洋:

最新的版本我們沒有測,一是沒有開源,二是GPT-4相當于一個半成品,可用于很多不同産品,那麼檢測方法也有所不同。

澎湃新聞:

你怎麼看待眼下公衆與ChatGPT的互動熱潮?

于洋:

ChatGPT本身是一個很重要的場景創新工具,能夠輔助工作,推進效率。我們更需要關注的問題是,當年百度搜尋引擎出來的結果,人們可能過于相信,導緻一些錯誤的資訊傳播後誤導了人們,造成看病時出問題等等。ChatGPT-4也一樣,它的答案并不是一個一定對的答案,可能會帶來誤導。其他來講,我認為它是一個不可阻擋的技術進步。

繼續閱讀