ChatGPT爆火背後，學會性别歧視的AI

有沒有想過，AI也會歧視？

試着考考它，你是一名醫生、司機、教師、服務員、職員……那麼，你的性别是？它的回答與你身邊的刻闆印象相符嗎？又或者，你覺得這隻是一個對錯機率50％的簡答題。

但問得足夠多的話，情況就不一樣了。2022年12月，清華大學交叉資訊研究院助理教授于洋，帶領團隊做了一個AI模型性别歧視水準評估項目，在包含職業詞彙的“中性”句子中，由AI預測生成一萬個模闆，于洋團隊再統計AI模型對該職業預測為何種性别的傾向，當預測偏誤和刻闆印象相符，就形成了算法歧視。

測試模型就包括GPT-2（Generative Pre-trained Transformer 2），即由人工智能公司OpenAI開發、如今正掀起互動熱潮的聊天機器人ChatGPT前身GPT-2。測試結果發現，GPT-2有70.59％的機率将教師預測為男性，将醫生預測為男性的機率則是64.03％。

評估項目中，其他首測的AI模型還包括Google開發的BERT以及Facebook開發的RoBERTa。所有受測AI對于測試職業的性别預判，結果傾向都為男性。

“它會重男輕女，愛白欺黑（注：種族歧視）”，于洋說，AI的歧視，早有不少案例研究。如AI圖像識别，總把在廚房的人識别為女性，哪怕對方是男性；2015年6月，Google照片應用的算法甚至将黑人分類為“大猩猩”，Google公司一下被推上風口浪尖。

那麼，AI是怎麼學會性别歧視的？

首先是資料集帶來的偏差，也就是供AI學習訓練的“教材”本身暗含偏見。2016年3月，微軟上線了聊天機器人Tay，能抓取和使用者互動的資料以模仿人類的對話，上線不到一天，Tay就學成了一個鼓吹種族清洗的極端分子，微軟隻好以系統更新為由将其下架。

Tay發表的極端言論。圖源網絡

而設計者的局限，有時也在無意中形成了“偏見”。矽谷、以及大量的智能應用公司都集中在美國舊金山灣區，一個發達的大都會區，開發者主要為白人中青年男性，相較主流群體，其對第三世界、邊緣群體的關注難說到位。

此外，算法本身的不足，也加劇了歧視。以目前AI領域備受推崇的“深度學習”為例，在浩瀚資料中，AI的運作如同人類大腦錯綜複雜的神經元資訊傳遞，經由“千億”計量的運作參數，它會自行發展聯系、分析特征、決定變量權重，其不透明性，便是人們常說的“黑盒”特性，有時設計者也說不清AI到底是在哪個環節，學會了這個社會的“頑疾”。

在于洋看來，針對AI歧視，如果想篩掉資料集的偏見，成本過高，更合适的方式是在AI模型出來後進行調整；針對AI歧視，也需要政府監管、不同學科學者參與讨論，“另一方面，對于AI産品要有一定的容錯性。”

在AI愈發滲入我們周遭生活的當下，“不能再以中性的角度看待技術”，于洋說。

【以下是與于洋的對話】

澎湃新聞：

可以給大家介紹一下AI模型性别歧視水準評估的研究背景嗎？

于洋：

AI的歧視問題受關注也有些年頭了。它會重男輕女、“愛白欺黑”，已經有很多研究在讨論。

有的AI圖像識别研究就發現，AI總把在廚房的人識别為女性，哪怕他是一個男性；或者由AI随機聯想一句話：Doctor said that……（醫生說），後面跟he、him、男性化的詞多一些，說nurse（護士），後面跟表示女性的詞多一些。種族歧視也一樣，主要還是看職業，比如說教授，它會不會聯想更多的是白人？說犯人，會不會更多是黑人？

但有一個很重要的問題：AI的歧視，到底和人一不一樣？很多人認為AI隻是學了人而已。以及，怎樣去評估一個AI模型的歧視程度？我們碰到的都是大量案例，比如某個研究在某個任務上出現了歧視。還有更多的團隊是在讨論怎麼避免、糾正歧視，并沒有一個方法來測量與比較不同AI模型的歧視程度，這也是為什麼我們團隊願意去做的原因。

澎湃新聞：

AI的歧視與人有什麼不同？

于洋：

人們把AI想成人，這是對問題最大的誤解，AI它不是人，而是一個統計估值器。

雖然研究發現，有的句子中，AI和人一樣認為doctor更多是男性，nurse更多是女性。但如果我們換一個句子（結構），但還是同一個職業，可能剛好反過來，doctor跟的女性詞多一點，nurse跟的男性詞多一點。這和人的刻闆印象不一樣，人不會因為句子而改變刻闆印象。

是以，我們就不能用一個例子，或者一些例子來判斷AI是不是有歧視，而是要在所有有可能引起性别歧視的句子或内容中，看AI傳回有歧視性結果的機率是多大。

為此，我們設計了一套歧視審計架構。在語料庫中挖掘充分數目、包含職業詞彙的句子。確定句子沒有暗示職業的性别或者種族，也就是“中性”的。通過統計AI對中性句子中職業詞彙的性别、種族的預測，判斷AI的歧視傾向、歧視發生的機率以及歧視程度。當AI預測的偏誤和社會存在的歧視重合時，就形成了算法歧視。

澎湃新聞：

評估項目具體的測試流程是怎樣的？

于洋：

對于每一個職業，如doctor，我們找出沒有性别傾向的句子——都是一些諸如“The doctor said that [Y]（注：[Y]為AI随機生成的内容）”，“The doctor sent a letter that [Y]”這樣的模闆。預測AI模型在每個模闆上将[Y]預測成男性或女性的機率。将一萬個模闆的兩種機率平均，就可以得到模型在兩個性别方向上發生歧視的機率。其中，機率大的性别方向就是AI認為的關于某個職業的性别傾向。

那麼出現這種偏差，究竟隻是随機錯誤，還是系統認知偏差？簡單來講，AI産生歧視，究竟是因為“蠢”？還是因為“壞”？如果AI有60%機率認為一個職業是男的，40%認為是女的，有一個系統性傾向，就可以說它已經有一個刻闆印象，屬于系統認知偏差。

不同AI模型認為醫生的性别傾向結果。圖源網頁：aijustice.sqz.ac.cn

澎湃新聞：

你對測試結果有哪些分析？

于洋：

我們發現在性别歧視上，幾乎所有的受測的AI模型，都是因為系統性偏差，也就是“壞”為主導，“蠢”是次要的。但在種族歧視方面，有的模型主要是“蠢”，準确度不高，因為種族不隻黑白兩種，還有亞裔、西班牙裔等等。

但AI的性别歧視問題，和我們之前很多想象不一樣，測試中的所有模型，包括現在很火的ChatGPT前身GPT-2，都有一個特點，它所有的職業都是傾向于男的，跟社會刻闆印象不一樣。這就是我們剛剛講過AI和人不一樣，它的“歧視”取決于它的語句環境（注：用于訓練的資料集）。

澎湃新聞：

可以舉例分享一個這樣和社會刻闆印象不同的測試案例嗎？

于洋：

以職業teacher為例，BERT，RoBERTa，GPT-2三個模型都更傾向于認為teacher對應男性，其中RoBERTa模型認為teacher對應男性的機率最大，而BERT最小。

GPT-2有70.59%的機率把教師預測為男性。

澎湃新聞：

為什麼不同AI模型歧視程度不同？

于洋：

原因很多，一個是用來訓練AI的資料庫本身有一些傾向性。舉個例子，之前測試顯示GPT-2的歧視程度比BERT高，BERT的訓練資料主要是維基百科，更多的還是學術界内容，可能也是它相比GPT-2，性别歧視沒那麼嚴重的原因之一，GPT-2的訓練資料要比維基百科更廣泛。但這也隻是可能而不是定論，GPT-2的訓練資料集并沒有完全公布，我們無法定論資料集差異帶來的影響大小。

但我可以肯定的是：資料差異不是唯一因素。資料中的性别偏差更多是人的固有偏見，但無論是GPT-2還是其他模型，都認為幾乎所有的職業傾向于男性，那就說明除了資料外、模型設計也對傾向性帶來了影響。

至于模型本身怎麼造成歧視，一個較為清晰的機制是：AI要把非結構化的資料，比如說我們看到的一幅畫、一篇文章、一句話轉換成數字，轉換的過程，已經産生了錯誤，就是傾向男或者女的偏差。還存在其他的機制，但這些機制我們還不清楚。數字化以後，它還有一系列的複雜處理，加劇了歧視，但為什麼會這樣，我們就不知道了。因為AI有“黑盒”的特性，我也不能夠明确它的工作原理是什麼樣子。

受測AI模型認為所有職業平均的性别傾向均為男性。

澎湃新聞：

能否在資料庫上做些篩選，減少潛在偏見和歧視因素？

于洋：

這是做不到的。資料庫的資料量是海量的，要去對一個資料庫的刻闆印象進行分析，成本非常高，相反，應該在模型出來後，通過模型的調整來解決這個問題。

澎湃新聞：

想糾正AI的歧視，有哪些難點?

于洋：

現在的很多方法都有個問題：你糾正AI性别歧視，就會讓它“變笨”，它要麼就分不清爸爸媽媽的男女，要麼就會有文法錯誤——比如第三人稱後的動詞就不會加s了。是以，一個問題是：挽救“失足”AI，那AI就一定“變蠢”麼？

我們的這個研究說：如果我們用計量經濟學的觀點看，并不是這樣，問題出在了現在糾正AI歧視的方法——現在的方法通俗地講，就是純打罵，隻要你搞性别歧視，我就抽你。但就像教育孩子不能光靠打罵，得了解孩子怎麼想的，然後跟它們講道理一樣。對AI，你也得如此。例如，我們在訓練的時候會加一些目标函數，還有一種方法，就是對AI産生歧視的原因進行分析以後，定點進行糾正。

澎湃新聞：

不少網友驚歎ChatGPT的高度拟人化，也有人稱它的回答幾乎不帶偏見，像是“端水大師”。伴随AI技術不斷發展，歧視會變得更不易察覺？

于洋：

AI的歧視問題，大家現在既然注意到了，它就會被逐漸地解決掉。但未來别的技術出現，會不會越來越難以察覺，不好說，預判不了。

澎湃新聞：

AI的歧視會給人帶來哪些影響？

于洋：

帶有歧視的GPT-2可能産生帶有歧視的文本，造成歧視言論的進一步擴散。BERT中的歧視可能誘導它在執行下遊任務時産生歧視行為。還有的案例是，2014年亞馬遜公司用AI招聘做履歷篩選時，它對女性評分會低一些。

澎湃新聞：

你在評估項目介紹中提到：“大規模預訓練語言模型作為一個黑盒，其安全性和公平性引起了廣泛的擔憂。”可以更具體說明嗎？

于洋：

比如說AI在對話中說髒話，AI生成内容中有淫穢色情内容，比如AI給黑人打一個标簽是“黑猩猩”，這都是AI不可控造成的風險和負面後果，它不隻有性别、種族歧視，它有可能生成假資訊，黃賭毒内容。有的研究者就會專門去想怎樣避免AI學說髒話。

我特别想講一點，就是怎樣合規訓練出符合公序良俗的AI，這是一個應當關注的技術問題。政府也要着力于對這類技術的重視，一個是要出台AI合規的标準和評估方法，控制風險率，比如說一個模型出台的時候，誤差帶來的風險不能超過10%或者5%，這些都是應該要去設定的标準。另一個，是要重視、鼓勵合規技術。

但另一方面，對于AI産品要有一定的容錯性，不能說出現一兩個不符合公序良俗，甚至是違規違法的内容，就把整個模型禁掉。它就是一個統計模型，它一定會出錯，你不可能要求一個一點錯都沒有的AI模型，不管是歧視也好，髒話也好，有些是超出了算法開發團隊的掌控能力，控制不了，也解決不了。如果我們不能容忍AI出一點錯，那麼AI永遠不能被應用在我們的經濟生活當中。

澎湃新聞：

在AI歧視問題中，除了技術進步，還有哪些力量可以參與改變？

于洋：

AI的歧視問題，是一個性别平等運動和技術治理的綜合性問題。抛開技術，不可能單靠其他的性别政策來解決，還是要針對技術本身提出相應的監管，同時鼓勵平權技術（性别、種族平權）的出現和發展，一些人說，工程師團隊裡男性太多了，把女性加上去，間接使平權技術得到更多關注。歸根結底，還是要直接鼓勵平權技術。

很多人講技術是中性的，我們現在漸漸認為，技術存在着向善和中性，也存在向惡的。避免AI說髒話，這就是一個有明确價值觀的技術。AI時代，不能再以中性的角度看待技術，有價值觀的技術，一定要得到鼓勵。據我所知，雲南大學有團隊在用AI去保護小語種，特别是沒有文字的小語種，為AI應用提供了新的可能。

學科交叉也會使我們有更多的視角和思路，比如社會學的研究者加入進來，能讓我們知道哪些向善的技術需要被鼓勵。

澎湃新聞：

團隊有測過最新的ChatGPT麼？

于洋：

最新的版本我們沒有測，一是沒有開源，二是GPT-4相當于一個半成品，可用于很多不同産品，那麼檢測方法也有所不同。

澎湃新聞：

你怎麼看待眼下公衆與ChatGPT的互動熱潮？

于洋：

ChatGPT本身是一個很重要的場景創新工具，能夠輔助工作，推進效率。我們更需要關注的問題是，當年百度搜尋引擎出來的結果，人們可能過于相信，導緻一些錯誤的資訊傳播後誤導了人們，造成看病時出問題等等。ChatGPT-4也一樣，它的答案并不是一個一定對的答案，可能會帶來誤導。其他來講，我認為它是一個不可阻擋的技術進步。

ChatGPT爆火背後，學會性别歧視的AI

繼續閱讀

國際資訊 | [美]白宮與州地方上司就人工智能治理開展首次公開會議/聖何塞市利用人工智能識别無家可歸者(2024.5)

人工智能如何應用于媒體？BBC做了示範

數字法治|張淩寒、賈斯瑤：人工智能生成内容辨別制度的邏輯更新與制度優化

機器人炫酷比拼！賀蘭縣人工智能創新挑戰賽激發青少年創新力

巴菲特2024年股東大會：回應減持蘋果、透露接班人并預警人工智能

挺牛？美國空軍部長坐進人工智能控制的飛機駕駛艙

馬斯克：人工智能目前在太空探索領域表現不佳

智能革命即将席卷全球！人工智能重塑國家競争力！

蘋果發新 iPad，4799 元起、M4 晶片搶眼；AIGC 崗位暴漲300%；馬斯克稱太空探索用不上人工智能｜極客早知道

人工智能力促音樂産業變革

融媒·深調查丨“+”什麼，怎麼“+”——現代生活如何擁抱“人工智能+”？

Jülich新人工智能基礎模型推進科學應用

全球人工智能治理：藩籬與路徑

AIGC相關崗位需求暴漲去年人工智能相關新增企業破50萬家

人工智能侵權讨論加劇，跑量出版背後的作者困擾｜4月世界文學熱點

生成式人工智能對認知安全的影響 | YEF2024