天天看點

偏見為什麼是資料科學領域的一個大問題

如今,市場對資料科學家的需求是巨大的。但是也有不利之處,因為有偏見的資料,其所面臨的風險也是巨大的。資料科學家凱西·奧尼爾為此建立了資料科學家的一個倫理政策。

人們可能不知道,資料科學有一個潛在的黑暗面,這是許多企業所忽視的東西。在當今社會,龐大的資料量對資料科學家造成巨大需求的時候,資料科學家凱西·奧尼爾不久撰寫一本著作,名為“數字破壞武器:大資料如何增加不平等和威脅民主”。她擔心的是,在急于利用大資料的情況下,可能會因為内置偏差使得結論不準确,并且可能具有相當的破壞性。她與進階技術編輯瓦勒瑞·斯威特一起探讨資料科學領域的偏見,以及為什麼企業需要制定資料科學倫理政策。

奧尼爾:人們認為可以解決任何資料問題,對此我感到惱火。我對這些資料持懷疑态度。

斯威特:那麼,那些對資料科學領域具有偏見的企業需要害怕什麼呢?

凱蒂·奧尼爾:我們有一個信任問題,而如今卻沒有足夠的審查。每個組織都需要資料科學家。但是,我們需要讓資料科學家在這些團隊中增加更多類型的人,以確定選擇是經過深思熟慮的。資料科學家沒有接受過道德倫理思考或思考這些問題的教育訓練。社會學家可能會看到非預期的後果,但資料科學家可能會導緻愚蠢的事情發生。人們的正義和預警資料是基于吉姆克魯法律的,如果組織使用這些曆史資料來訓練目前的模型,他們将是種族主義。假設是,一旦你對資料做了一些事情,它就會自動使得價值和目标消失。社會科學家比資料科學家更為了解其不當之處。

斯威特:如果我們不注意資料科學領域的偏見,有什麼風險?

奧尼爾:在這個過程中有一個風險,我們實際上得到的是自動化的偏見。如果團隊中沒有人提出正确的問題,你可以得到偏向于婦女或顔色或老年人的算法。在不久的将來,建立評估員工的内部算法的企業可能很快将面臨歧視性流程的訴訟。這不是癡人說夢。人們需要監控這些事情,并確定做得更好,并確定他們不是歧視性的。

斯威特:這隻是一個内部問題嗎?

奧尼爾:當涉及到招聘等事情時,這是更明顯的,但你可以建立面向客戶的算法。如果你的業務與貸款有關,歧視可能就是一個很明顯的因素。這都有很多例子。

斯威特:那麼,人們如何應對資料科學領域的偏見?

奧尼爾:一些大學開始向資料科學家講授倫理課程。但在這方面沒有很多監管。生物醫學實驗有很多規則和倫理,研究人員必須征得同意。這種事情不存在于大資料的世界。我們都不斷地進行a/b測試,大多數時候是愚蠢的事情,如“這個廣告圖檔是什麼顔色的?我們不必同意這些事情。這不是真正的測試,這個事情讓人困擾。人們實際上卻認為這些算法是完美的。沒有理由認為他們工作會犯錯。就像一家汽車廠商沒有測量結果,沒有經過安全測試,就将車輛直接上路行駛一樣。是以人們必須測量和驗證。”

繼續閱讀