天天看點

人工智能算法也許可以面部圖像中推斷出性取向

一項研究聲稱,人工智能可以從面部圖像中推斷出性取向,引起媒體軒然大波。“經濟學人”在9月9日雜志的封面上展示了這項工作。另一方面,兩個主要的LGBTQ組織,即人權運動和GLAAD,立即将其稱為“垃圾科學”。Michal Kosinski與研究員Yilun Wang共同撰寫了這項研究,他最初表示驚訝,稱這些批評是“junk science”。然而,他接着提出了更大膽的主張:這種人工智能算法很快就能夠僅通過他們的面部圖像來衡量人們的智力,政治傾向和犯罪傾向。

Kosinski的有争議的主張并不是什麼新鮮事。去年,來自國内的兩位計算機科學家在網上發表了一份非同行評審論文,其中他們認為他們的人工智能算法正确地将“犯罪分子”從單獨的政府身份證照片中準确地歸類為近90%。科技初創公司也開始崛起,聲稱他們可以通過面部圖像描繪人物的角色。這些發展促使我們三個人在今年早些時候在一篇中篇文章“面相新衣”上進行合作,以面對人臉識别表明其深刻的性格特征的說法。我們描述了地貌的垃圾科學如何根源于古代,每個時代的實踐者都使用新時代的方法論基于偏見的信仰複活。在19世紀,這包括人類學和心理學; 20,遺傳學和統計分析;而在21世紀,人工智能。

在2016年底,推動我們的地貌論文的論文似乎遠遠超出了科技和學術界的主流,但正如在其他話語領域一樣,最近感覺像邊緣位置的東西現在必須正面解決。Kosinski是斯坦福大學商學院的教員,這項新研究已被人們接受在受人尊敬的人格與社會心理學雜志上發表。随後的審查大部分都集中在道德上,隐含地認為科學是有效的。我們将專注于科學。

作者使用美國約會網站上的公開個人資料中的35,326張圖像對他們的“性取向檢測器”進行了教育訓練和測試。樣本中女同志,男同志和男性和女性的複合圖像顯示了該算法可用資訊的大量内容:

人工智能算法也許可以面部圖像中推斷出性取向

顯然,這四個複合面之間存在差異。Wang和Kosinski斷言,關鍵的差別在于地貌,這意味着性取向傾向于伴随着特有的面部結構。但是,我們可以立即看到其中一些差異更為膚淺。例如,“普通”直女人似乎戴着眼影,而“普通”女同志者則沒有。在同志者身上可以清楚地看到眼鏡,在女同志者身上可以看到較少的眼鏡,而在異性戀複合體中它們似乎不存在。可能的情況是,算法檢測方向的能力與面部結構幾乎沒有關系,但是歸結為修飾,示範和生活方式的模式?

我們使用亞馬遜的Mechanical Turk衆包平台對8,000名美國人進行了一項調查,看看我們是否可以獨立确認這些模式,詢問77是/否問題,例如“你戴眼影嗎?”,“你戴眼鏡嗎?”和“做你有胡子嗎?“,還有關于性别和性取向的問題。結果顯示,女同志者确實使用眼影的次數遠遠少于直女,同志男性和女性都更多地戴眼鏡,年輕的異性吸引男性比同志者更容易擁有突出的面部毛發 - 吸引了同行。

按受訪者的年齡分解答案可以提供比任何單一統計資料更豐富,更清晰的資料視圖。在下面的圖中,我們展示了對“你曾經使用化妝品嗎?”(上圖)和“你戴眼影嗎?”(下圖)回答“是”的女性比例,平均年齡超過6歲:

人工智能算法也許可以面部圖像中推斷出性取向
人工智能算法也許可以面部圖像中推斷出性取向

藍色曲線代表嚴格反對性吸引的女性(與那些對“你是異性戀還是直的?”回答“是”的人幾乎完全相同); 青色曲線代表那些對“你是否對女性有性吸引力?”和“你是否浪漫地吸引女性?”中的任何一個或兩者都回答“是”的女性。而紅色曲線代表對“你是同志,同志還是同志?”回答“是”的女性。[1]每條曲線周圍的陰影區域顯示68%的置信區間。[2]這裡揭示的模式是直覺的; 對于大多數人來說,直接的女性往往比同志者更多的化妝和眼影,以及(甚至更多)識别女同志的女性,這些都不會成為突發新聞。另一方面,這些曲線也向我們展示了這些刻闆印象被違反的頻率。

同性吸引了大多數年齡段的男性戴眼鏡的次數明顯多于完全異性吸引的男性可能會有點不太明顯,但這種趨勢同樣明顯:[3]

人工智能算法也許可以面部圖像中推斷出性取向

相貌的支援者可能會猜測這與這些人群之間的視敏度差異有某種關系。然而,問一個問題“你喜歡你的眼鏡怎樣?”這表明這可能是一種風格選擇:

人工智能算法也許可以面部圖像中推斷出性取向

同性吸引的女性也報告說戴眼鏡更多,并且喜歡他們在各種年齡段的眼鏡看起來更多:

人工智能算法也許可以面部圖像中推斷出性取向
人工智能算法也許可以面部圖像中推斷出性取向

人們還可以看到異性吸引女性40歲以下的女性戴隐形眼鏡的程度明顯高于同性吸引女性,盡管他們報告說他們的視力缺陷大緻相同,但進一步說明差異是由 審美偏好:[4]

人工智能算法也許可以面部圖像中推斷出性取向
人工智能算法也許可以面部圖像中推斷出性取向

類似的分析表明,年輕的同性吸引男性不像異性吸引男性那樣有毛茸茸的面孔(我們陰謀中的“嚴重的面部毛發”被定義為對山羊胡子,胡須或小胡子回答“是”, 但是“不”留胡茬)。總體而言,在我們的樣本中,異性吸引的男性比同性吸引男性的面部毛發嚴重的可能性高35%,對于31歲以下的男性(在約會網站上人數過多),這一比例上升至75%。

人工智能算法也許可以面部圖像中推斷出性取向

Wang和Kosinski在他們的論文中推測,他們的同志男性複合體中胡須和胡須的模糊可能與産前暴露于雄激素(雄性激素)有關,導緻女性化效果,是以更稀疏的面部毛發。事實上,我們看到一群同性吸引了40多歲的男性,他們的面部毛發與異性一樣吸引男性,這表明了一個不同的故事,其中時尚潮流和文化規範在面部毛發的選擇中起主導作用。在男性中,在發育早期沒有不同的激素接觸。

人工智能算法也許可以面部圖像中推斷出性取向

這張來自維基百科的同志“熊”文化頁面的照片,來自2007年的國際熊約會,也不支援同志男子天生就有稀疏的面部毛發的論點。

該論文的作者還指出,異性男性複合材料似乎比其他三種複合材料具有更深的皮膚。我們的調查證明,異性吸引男性持續自我報告有一張棕褐色的臉(“是你的臉曬黑”是“是”)比同性吸引的男性更頻繁:

人工智能算法也許可以面部圖像中推斷出性取向

王和科辛斯基再次尋求荷爾蒙解釋,寫道:“雖然面部圖像的亮度可能受許多因素驅動,但先前的研究發現,睾丸激素刺激黑素細胞結構和功能導緻皮膚變黑”。但是,對“你在戶外工作嗎?”這一問題的答複提出了一個更簡單的答案:

人工智能算法也許可以面部圖像中推斷出性取向

總體而言,異性吸引男性在戶外工作的可能性增加29%,而31歲以下男性則增加到39%。以前的研究發現,增加陽光照射會導緻皮膚變黑![5]

這些結果都沒有證明性取向沒有生理基礎;事實上,充足的證據表明,取向比選擇或“生活方式”更深刻。在一項針對欺詐性“轉換療法”計劃的批評中,美國外科醫生David Satcher在2001年的一份報告中寫道:“性取向通常取決于青春期,如果不是更早[...],并且沒有有效的科學證據表明性取向可以改變“。是以,如果我們深入挖掘人體生理學和神經科學,我們最終會找到可靠的相關因素,甚至可能是性取向的起源。在我們的調查中,我們還發現了一些外在可見的非文化取向相關的證據:也許最引人注目的是,非常高的女性在女同志認同的受訪者中過多。[6]然而,雖然這很有趣,但它遠遠不是女性性取向的良好預測因素。化妝和眼影做得更好。

Wang和Kosinski測量他們的“AI gaydar”效果的方式相當于選擇一個直的和一個同志或女同志的臉部圖像,既從訓練過程中“保持”的資料,又詢問算法正确猜測的頻率是多少哪一個。50%的表現并不比随機機會好。對于女性來說,猜測兩者中較高者是女同志者的準确率隻有51% - 幾乎不會超過随機機會。這是因為,盡管在女同志人群中,高女性的統計學意義過高,但絕大多數女同志者的身高并不高。

相比之下,論文中的表現名額,男同志者為81%,女同志女性為71%,令人印象深刻。[7]但是,考慮一下,我們可以通過僅基于少數關于呈現的是/否調查問題來獲得與瑣碎模型相當的結果。例如,對于一對女性,其中一個是女同志者,以下不完全超人算法平均準确度為63%:如果沒有女性或兩個女性都佩戴眼影,則擲硬币;否則猜測戴眼影的人是直的,而另一個女同志者。再添加六個關于示範的是/否問題(“你有沒有使用過化妝品?”,“你有長頭發嗎?”,“你有短發嗎?”,“你有沒有使用過彩色唇膏?”,“你呢?”就像你看眼鏡一樣?“和”你在戶外工作嗎?“)因為額外的信号将性能提高到70%。[8]鑒于面部圖像中有多少關于示範的細節,71%的表現似乎不再令人印象深刻。

一些研究,包括最近在性研究雜志上發表的一項研究表明,當判斷基于在良好控制條件下拍攝的照片時,人類評委的“gaydar”并不比硬币翻轉更可靠(頭部姿勢,照明,眼鏡,化妝品等)。如果這些變量不受控制,那麼好于機會,因為一個人的陳述 - 特别是如果那個人出局 - 涉及社交信号。我們表達了我們的定位和許多其他類型的地位,大概是為了吸引我們想要的那種關注并适合像我們這樣的人。[9]

Wang和Kosinski反對這種解釋,理由是他們的算法适用于公開男同志者的Facebook自拍以及約會網站自拍。然而,問題不在于圖像是來自約會網站還是Facebook,而是它們是自我釋出還是在标準化條件下拍攝。大多數人以多年媒體消費校準的方式呈現自己,觀察他人,照鏡子,并衡量社會反應。在使用社交媒體的最早的“gaydar”研究中,參與者可以将同志者的準确率分類為58%;但是當研究人員使用他們的朋友釋出的同志和異性戀男子的Facebook圖檔時(仍遠未完美控制),準确率下降到52%。

如果人類可以拾取圖像品質,表達和修飾的細微偏差,那麼這些偏差也可以通過AI算法來檢測。雖然王和Kosinski承認修飾和風格,但他們認為他們的合成圖像之間的主要差異與面部形狀有關,認為男同志者的臉更“女人味”(下颚更窄,鼻子更長,額頭更大),而女同志面孔則更“男性“(較大的下颚,較短的鼻子,較小的額頭)。由于同志男性的面部毛發較少,直男性的皮膚較深,他們認為這種機制是在發育過程中性别 - 非典型的激素暴露。這與19世紀的同志模式 - “性倒錯” - 相呼應。

更有可能的是,異性戀男性傾向于從略低于自拍狀态,這會産生明顯的下巴,縮短鼻子,縮小額頭,減弱微笑的效果(請參閱下面的自拍照)。這種觀點強調了支配地位 - 或者更為溫和的是,觀衆會更短。另一方面,正如婚禮攝影師在她的部落格中所說,“當你從上面拍攝時,你的眼睛看起來更大,這通常很有吸引力 - 特别是對于女性。”這可能是一種異性戀評估。

當從下面拍攝臉部時,鼻孔是突出的,而較高的射擊角度不再強調并最終完全隐藏它們。再看一下合成圖像,我們可以看到異性戀男性臉部對應于鼻孔的黑點比同志男性更明顯,而女性面部則相反。這與從下面平均拍攝的異性戀男性的模式,婚禮攝影師建議的來自上方的異性戀女性以及直接在前面的男同志和女同志女性一緻。眉毛中也有類似的圖案:從上方拍攝使它們看起來更像V形,但是它們的外形變得更平坦,并且在相機降低時最終形狀為(^)。從下方拍攝也會使眼睛的外角看起來更低。簡而言之,面部标志的平均位置的變化與我們期望從不同的自拍角度看到的一緻。

對于人類觀察者和算法而言,拍攝角度與面部特征的真實實體尺寸之間的模糊性難以與二維圖像完全解開。雖然作者使用的是人臉識别技術,試圖消除頭部姿勢,光照,修飾以及臉部不固有的其他變量的所有影響,但我們可以确認這種效果并不完美;這就是為什麼一個人的多個不同圖像在Google照片中按主題分組照片時的幫助,以及為什麼一個人最初可能出現在多個組中的原因。

紐西蘭維多利亞大學的研究員湯姆懷特已經嘗試使用相同的面部識别引擎Kosinski和Wang使用(VGG Face),并且發現它的輸出根據微笑和頭部姿勢等變量系統地變化。當他根據VGG Face的輸出訓練分類器以區分快樂表達與中性表達時,它在92%的時間得到正确的答案 - 這是重要的,因為異性戀女性複合具有更明顯的微笑。可以更可靠地檢測頭部姿勢的變化;對于576個測試圖像,分類器能夠以100%的準确度挑選出面向右側的分類器。

總之,我們已經展示了自拍中女同志或同志和直面的明顯差異如何與梳理,表達和生活方式有關 - 即文化差異,而不是面部結構。這些差異包括:

  • 化妝
  • 眼影
  • 胡子
  • 眼鏡
  • 自拍角度
  • 陽光照射量

我們已經證明,隻有少數關于這些變量的是/否問題可以在猜測方向上做得非常好,可以說是複雜的面部識别AI。此外,目前生成的面部識别仍然對頭部姿勢和面部表情敏感。是以 - 至少在這一點上 - 很難相信這種觀點認為,這種AI在某種程度上超人“基于我們面部結構的細微但不可改變的細節而”在外面“。

這并沒有否定作者和各種評論家所提出的隐私問題,但它強調這種擔憂與人工智能本身的關系要少于大規模監視,無論使用何種技術,這都是令人不安的(即使在在德國東部的斯塔西,這些隻不過是紙質檔案和錄音帶。與計算機或内燃機一樣,AI是一種通用技術,可用于自動執行大量任務,包括首先不應執行的任務。

我們對新的,強大的人工智能技術與社會科學的融合抱有希望,但并不是因為我們相信複興19世紀從外表推斷人們内心品格的研究計劃。相反,我們認為人工智能是了解人類文化和行為模式的重要工具。它可以揭示日常語言中固有的刻闆印象。它可以揭示令人不安的真相,就像谷歌與Geena Davis研究所合作一樣,我們的面部性别分類器确定男性在好萊塢電影中的觀看和聽到的頻率幾乎是女性的兩倍(但女性主導的電影在票房上超過其他人!)。沒有這些确鑿的證據,即使隻是證明了我們的懷疑,在社會上取得進步并自我承擔責任也更加困難。

論文源碼關注微信公衆号:“圖像算法”或者微信搜尋賬号imalg_cn關注公衆号

繼續閱讀