該對大資料立規矩了嗎？

随着基于大資料的自動化決策科技在個人對健康、教育、工作、信用、商品和服務的取得上，扮演着逐漸重要的角色，甚至是“生殺予奪”的權重時，我們就應該對大資料、自動化決策過程的影響高度重視起來。

大資料時代，

甲骨文和谷歌如何操控陪審團

5月9日，甲骨文訴谷歌侵犯專利案的主審法官Alsup對陪審團成員說，“你們需要調整社交賬号中的隐私設定”。

其實，法官是希望陪審團成員能将賬号設為“僅朋友可見”，這樣訴訟雙方的律師團隊就沒法在臉譜、領英、推特等社交平台上找到他們，研究他們，進而用各種辦法影響甚至操控他們。

在美國，甲骨文訴谷歌案備受關注，涉及的賠償金額可能高達93億美元。在此對案情做簡單介紹：甲骨文公司于2010年控告谷歌開發的Android系統侵犯了Java專利，陪審團發現谷歌的确使用了至少37個Java的接口程式（API），但地方法院的法官認為接口程式并不受版權保護。2014年，上訴法院推翻了該判決，随後最高法院拒絕受理谷歌的上訴，使得該案又重新回到地方法院的手上。現在，地方法院需要審理的焦點是，谷歌使用Java接口程式的做法是否屬于“合理使用”（fair use）。如果是，谷歌就可免于支付高額的賠償。

其實早在今年3月份的審前聽證會上，法官Alsup就建議甲骨文和谷歌的律師團隊同時承諾不對陪審團成員開展社交網絡研究。在Alsup看來，“如果通過搜尋發現一名陪審員最喜歡的書是《殺死一隻知更鳥》，律師很容易就能根據這本書的内容或風格，甚至利用這本書作者剛剛去世這個事實，類比地構造出一些論據或者提問的角度，來迎合這名陪審員……同樣的手法可以運用于陪審員對貿易、創新、政治的态度……用如此算計好的方式來讨好陪審員無疑是一種出格的行為。更重要的是，法官不掌握陪審員個人偏好等資訊，是以無法辨識出律師的伎倆。”

谷歌響應法官的提議，決定不用自己的技術研究陪審團，但由于甲骨文拒絕了法官的建議，自然谷歌也不用做出任何承諾。最後，Alsup法官隻能要求兩家公司律師團隊對陪審員做的任何研究，都必須向他本人如實披露。同時，為了盡可能地避免陪審團被影響、操控，才有了文章開頭發生的那一幕。

大資料時代，你可能面臨的歧視

随着移動網際網路的普及，社交生活網絡化的泛濫，我們每個人在享受資訊技術帶來的便利時，每分每秒也在留下自己的數字足迹（digital footprint），包括現在或過去任何一個時點所在的位置、移動軌迹等等，平台、應用等商品和服務提供者有能力搜集并分析利用，以了解我們的活動範圍、生活習慣、各種偏好，并最終描繪出我們每個人的“數字畫像”（digital profiling）。正如法官Alsup所擔心的，網際網路公司把基于大資料的精準定位和營銷，“創造性”地用到庭審訴訟雙方的辯論中，很可能會左右陪審團的判斷，控制庭審的結果。

事實上，描繪出個人的數字畫像進而“投其所好”，還是大資料一種“相對保守”的利用方式。畢竟在微信朋友圈中，是看到豪車還是飲料的廣告，頂多成為我們吹牛或自嘲的談資。但随着基于大資料的自動化決策科技（automated decision-making）在個人對健康、教育、工作、信用、商品和服務的取得上，扮演着逐漸重要的角色，甚至是“生殺予奪”的權重時，我們就應該對大資料、自動化決策過程的影響高度重視起來。

例如，當大資料和算法判斷求職者為男性時，為其推送高薪主管職位消息的機率遠大于同等條件的女性求職者；利用大資料計算參與恐怖主義活動的機率，并采取各種不同程度限制出行或監控的措施；在缺乏直接信用記錄和資料的情況下，基于其他資訊（如電話賬單、教育背景、社交網絡等）預估信用評分，最終導緻特定群體的人無法申請小額貸款；信用卡發夾銀行降低某人信用額度的原因并非基于該持卡人的消費與還款記錄，而是基于該持卡人被歸為“同一類型”之消費者所共同擁有的記錄與特征等等。

2016年1月6日，美國聯邦交易委員會公布報告《大資料：吸納或排他的工具？》(Big Data: A Tool for Inclusion or Exclusion? Understanding the Issues)中還舉了這樣一個例子：

2012年，當桑迪飓風肆虐美國時，短短時間，推特上産生了超過2000萬條相關的消息，其中包含了大量關于飓風和受災人群的資訊。為了做到救災資源的有效配置，美國當局決定對推特上的消息進行實時分析，以此判斷哪些地區、哪些人群最需要幫助。可是事後分析回顧發現，因為電力供應受到嚴重影響，導緻重災區人群無法發出大量的網絡消息，是以恰恰是受災最重地區的推特消息最少。對推特消息的分析形成了不準确的資料視圖，無法正确指向受災最重的地區以及最需要幫助的人群。

被大資料歧視了怎麼辦？

為避免大資料可能帶來的歧視或偏差，美國政府從2014年開始釋出了多份報告，希望引起社會各界對此問題的重視。2014年5月1日，美國白宮發表報告《大資料：抓住機會、儲存價值》（Big Data: Seizing Opportunities, Preserving Values）。報告建議：“聯邦政府主要的公民權利和消費者保護機構，包括司法部、聯邦貿易委員會、消費者金融保護局和公平就業機會委員會，應當主動研究有可能對特定階級帶來歧視性影響的大資料分析的做法和結果，并制定計劃調查和解決違反法律的此類事件。”

上文提到的美國聯邦交易委員會的報告建議，在進行分析之前，首先要確定資料具有代表性；企業必須謹防資料模型中隐藏的偏差，厘清統計關聯性和因果性之間的差別；企業需要詳盡審視相關模型所依賴的因子，把握好預測分析與公平性之間的平衡關系；在流程建設上，允許消費者能通路自身資料并就錯誤或遺漏提出異議。

2016年5月4日，美國白宮釋出報告《大資料：關于算法系統、機會、公民權利的報告》（Big Data: A Report on Algorithmic Systems, Opportunity, and Civil Rights）。報告提出通過算法和系統的設計來實作平等權利（a principle of “equal opportunity by design”），并建議研究機構和行業一起，開展算法審計和對大資料系統的外部測試以保證人們被公平對待。

歐洲在這方面走在了其他國家的前面。将于2018年5月25日正式生效的歐盟《一般資料保護條例》，在第22條明确規定了對于僅僅以自動化方式（包括數字畫像）做出的、對個人能夠産生法律效果的或其他類似的顯著影響的決定，個人有權免受這樣決定的制約。

在我國，大資料和自動化算法高歌猛進，與此同時，我們是不是也應該放慢下腳步，仔細想想如何将其可能的負面影響降到最低？

本文轉自d1net（轉載）

該對大資料立規矩了嗎？

繼續閱讀

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

hdu7108哈希