偏見為什麼是資料科學領域的一個大問題

如今，市場對資料科學家的需求是巨大的。但是也有不利之處，因為有偏見的資料，其所面臨的風險也是巨大的。資料科學家凱西·奧尼爾為此建立了資料科學家的一個倫理政策。

人們可能不知道，資料科學有一個潛在的黑暗面，這是許多企業所忽視的東西。在當今社會，龐大的資料量對資料科學家造成巨大需求的時候，資料科學家凱西·奧尼爾不久撰寫一本著作，名為“數字破壞武器：大資料如何增加不平等和威脅民主”。她擔心的是，在急于利用大資料的情況下，可能會因為内置偏差使得結論不準确，并且可能具有相當的破壞性。她與進階技術編輯瓦勒瑞·斯威特一起探讨資料科學領域的偏見，以及為什麼企業需要制定資料科學倫理政策。

奧尼爾：人們認為可以解決任何資料問題，對此我感到惱火。我對這些資料持懷疑态度。

斯威特：那麼，那些對資料科學領域具有偏見的企業需要害怕什麼呢？

凱蒂·奧尼爾：我們有一個信任問題，而如今卻沒有足夠的審查。每個組織都需要資料科學家。但是，我們需要讓資料科學家在這些團隊中增加更多類型的人，以確定選擇是經過深思熟慮的。資料科學家沒有接受過道德倫理思考或思考這些問題的教育訓練。社會學家可能會看到非預期的後果，但資料科學家可能會導緻愚蠢的事情發生。人們的正義和預警資料是基于吉姆克魯法律的，如果組織使用這些曆史資料來訓練目前的模型，他們将是種族主義。假設是，一旦你對資料做了一些事情，它就會自動使得價值和目标消失。社會科學家比資料科學家更為了解其不當之處。

斯威特：如果我們不注意資料科學領域的偏見，有什麼風險？

奧尼爾：在這個過程中有一個風險，我們實際上得到的是自動化的偏見。如果團隊中沒有人提出正确的問題，你可以得到偏向于婦女或顔色或老年人的算法。在不久的将來，建立評估員工的内部算法的企業可能很快将面臨歧視性流程的訴訟。這不是癡人說夢。人們需要監控這些事情，并確定做得更好，并確定他們不是歧視性的。

斯威特：這隻是一個内部問題嗎？

奧尼爾：當涉及到招聘等事情時，這是更明顯的，但你可以建立面向客戶的算法。如果你的業務與貸款有關，歧視可能就是一個很明顯的因素。這都有很多例子。

斯威特：那麼，人們如何應對資料科學領域的偏見？

奧尼爾：一些大學開始向資料科學家講授倫理課程。但在這方面沒有很多監管。生物醫學實驗有很多規則和倫理，研究人員必須征得同意。這種事情不存在于大資料的世界。我們都不斷地進行a/b測試，大多數時候是愚蠢的事情，如“這個廣告圖檔是什麼顔色的？我們不必同意這些事情。這不是真正的測試，這個事情讓人困擾。人們實際上卻認為這些算法是完美的。沒有理由認為他們工作會犯錯。就像一家汽車廠商沒有測量結果，沒有經過安全測試，就将車輛直接上路行駛一樣。是以人們必須測量和驗證。”

偏見為什麼是資料科學領域的一個大問題

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希