天天看點

白宮釋出:大資料與醫療、教育

白宮釋出:大資料與醫療、教育

《浙江大學譯美國白宮”大資料“白皮書.pdf》全部譯文共61頁,回複“白宮報告”可獲得全文。僅供網友學習參考,不得用于商業用途。

今年五月,美國白宮釋出了大資料白皮書《大資料:抓住機遇、儲存價值》,在全球引起了廣泛關注。這份調查報告旨在鼓勵使用資料以推動社會進步,特别是在市場與現有的機構并未以其他方式來支援這樣的進步的領域,與此同時,美國也需要相應的架構、結構與研究,來幫助保護他們的核心價值觀念。網際網路産業研究主要從報告中關于醫療、教育與個人隐私保護三個方面進行解讀。報告指出預測醫學的興起将是大資料在健康領域的終極運用;同時探讨線上教育如何確定學生的隐私不受侵犯等問題;在保護個人資訊方面,美國技術軌迹正在轉向采集、使用和儲存對消費者和個人并沒有直接聯系的資料。

大資料與醫療保健服務

資料一直是醫療保健服務中的一部分。在過去的幾年中,議會出台了相關法案來鼓勵醫療保健服務供應商使用電子病曆,這極大地提高了可供臨床醫生、研究者與病人使用的資料量。随着《患者保護與平價醫療法案》(“affordable care act”, aca)的制定,醫療保險的償付機制正開始從互相分隔、具有潛在不協調性的“按服務收費”(“fee-for-service”)模式轉變至基于更佳健康狀況的付費模式。總而言之,這些趨勢正在幫助形成一個“學習型”醫療保健系統,在此系統内,臨床資料将迅速回報給患者并指導治療有效進行。

大資料可以确定飲食、運動、預防護理和其他生活方式因素對健康的影響,使得人們不必向醫生尋求醫療保健意見。大資料分析能夠幫助确定臨床治療、處方藥劑以及公共衛生幹預對于特定或廣泛群體的效果,并對傳統研究方式提供參考。從支付角度來看,大資料能夠保證給患者提供治療的醫生有優秀的臨床記錄,同時,治療的費用根據患者的康複效果而非治療本身的次數确定。

預測醫學的興起是大資料在健康領域的終極運用。這項強大的技術可以同時深入解析一個人的健康狀況與遺傳資訊,使醫生更好地預測特定疾病在特定個體上是否可能發生,并預測患者對于特定治療方式的反應。與此同時,預測醫學提出了許多複雜的問題。傳統意義上,健康資料的隐私政策都力求在臨床資訊被分享與分析的同時保護相關患者的個人身份資訊。而逐漸地,基于特定群體或人群的資料将在臨床症狀出現前或出現後不久被用于确定疾病的類型。

但是,預測醫學挖掘出的資訊所帶來的風險将超出單一個體,一旦出現差錯,不僅遺傳資訊提供者本人,他的孩子以及未來的後代等擁有與他相似遺傳資訊的人都将會受到牽連。是以,将基因組資料與醫療保健資料相連接配接的生物資料庫便成為了個人隐私在醫學研究與治療領域中的無法回避的前沿話話題。

目前的隐私架構在不久前才包括了正在使用的健康資訊,這一架構或許不能很好地解決上述發展帶來的問題并推動相關研究的進行。運用大資料來改善健康狀況需要先進的分析模型來攝取包括生活方式、基因組、醫療與财務資料在内的多種資訊。生活方式與健康狀況之間的緊密關系意味着個人資料與醫療保健資料之間的界限已經開始模糊。而這些類型的資料卻收到不同的、有時甚至是互相沖突的聯邦和各州政府的監管,其中包括《健康保險便利和責任法案》(“health insurance portability andaccountability act”, hipaa)、《金融服務法現代化法案》 (“gramm-leach-bliley act”, glba)、《公平信貸報告法案》(“faircredit reporting act”, fcra)與《聯邦貿易委員會法案》(“federal trade commission act”, ftca)。當資料的來源多種多樣時,同時遵守多個法律帶來的複雜性随之增加,與此同時,醫療機構還會與不受上述法律限制的許多組織互相勾結,形成一整套利益鍊條,各種個人健康資訊被一系列企業共享,甚至于州政府會違背消費者對個人醫療資料隐私保護的意願而出售其相關資料。在此情況下,針對醫療保健領域的大資料部門的設立也就成為了迫切之需,此舉同時有望進一步降低行業成本并激發發展潛力。

盡管醫學技術不斷變化,但健康資料仍然是我們生活中非常私密的部分。在大資料使得較之以往任何時候都更為強大的發現成為可能的同時,重新審視相關資訊被所有醫療保健機構共享後的隐私保密方式也顯得相當重要。醫療保健行業的上司者已經呼籲建構一個更為廣泛的信用架構,使得不同來源、不同隐私保密程度的健康資料得以彙聚。這一架構需要附加《健康保險便利和責任法案》與《反基因歧視法》 (“genetic information non-discriminationact”, ginda)中的隐私保護條款,并同時設計标準化資料結構以提高其跨平台适應性。在研究了健康資訊技術後,總統科技顧問委員會得出以下結論:國家需要建立統一的資料标準與結構使不同類型的資料記錄可以在受到控制的條件下友善通路。

在醫療資料保密架構逐漸跟進技術發展的過程中,需要全美醫療保健與保險的供應商之間細緻協商,而這份努力,将為未來的國民經濟與公民健康的福祉奠定基礎。

對學習的研究:大資料與教育

如今,上到大學,下至幼稚園,衆多科技幫助并提升了學生在課内外的學習過程。擷取學習資料、觀看授課視訊、評價教學活動、進行團隊合作、完成家庭作業、參加課程考試,這一切都可以在網際網路上完成。

這些基于科技進步的工具與平台給予了學生與教師更多的可能性。僅需數代的革新,這些工具就能提供實時的評估來使學習資料能夠按照學生的接受速度來進行示範。不僅如此,教育技術還能擴大受教育人數、增進學生間的互動并使教學内容的持續性回報成為可能。

除了個性化的教育,新的資料類型的運用使得研究者對于學習行為的研究能力有了質的飛躍。從大規模開放線上課堂等基于科技的學習平台上擷取的資料可以被精确跟蹤,借助這些資料,我們能夠進行對遠超傳統教育方式的探索,對學生學習軌迹的移動進行更為準确與廣泛的研究。具體包括:深入了解學生在學習活動中的接收效果,根據不同的學習目标,選擇合适的學習資料,并進一步地運用這些資料幫助那些處于相似狀況的學生。目前,教育部正在研究如何運用這些科技,并已開始整合國家教育技術計劃下線上教學平台所産生的資料,并計劃成立虛拟學習實驗室,為進一步的研究提供方法論上的指導。

教育領域的大資料革命同時也帶來了一些亟待解決的問題:随着科技日益深入課堂教學,我們如何最好地確定學生的隐私不受侵犯。一方面,各州與本地社群曆來都是教育的主要提供者;另一方面,大量的線上學習工具與課程都是由盈利性企業提供。這就導緻了在誰有權獲得線上教育平台産生的資料及這些資料應當如何被使用的問題上備受争議。對于這類教育記錄,《家庭教育權和隐私法案》(“family educationalrights and privacy act”, ferpa)、《保護學生權利修正案》(“protection of pupil rights amendment”, ppra)和《兒童線上隐私保護法》(“children’s onlineprivacy protection act”, coppa)中的相關條文在使用過程中都會遇到相應的挑戰。

在大資料時代保護兒童的隐私

今天的孩子們是從識字前就接觸數字裝置的第一代人。在美國,青少年是移動應用與社交平台上的活躍使用者。當他們使用這些科技時,關于他們的精确資料,其中一些甚至包含敏感資訊,就在網絡上被存儲與處理。這類資料既包含能夠大幅度提升孩子的學習效果并為其開啟全新機遇的可能性,但同時,也可能在他們成人時形成一份入侵型的消費者個人資訊,或通過其他方式對他們之後的生活産生影響。

雖然年輕人一般與成年人一樣乃至更加清醒地意識到資料會被商業機構與政府部門使用,但他們的資料還是會經常地受到父母、老師、大學招生人員、軍隊征兵人員與社會工作者的審查。他們中的弱勢群體,包括寄養兒童與無家可歸的年輕人,他們通常沒有得到成年人的指導因而特别容易遭受資料濫用與身份盜竊。在強有力的監視之下,年輕人苦苦尋找保護他們隐私的方法,即使他們無法限制别人對于分享内容本身的擷取,許多年輕人仍然嘗試着用多種方式将所分享内容的含義變得模糊、晦澀,使得隻有特定的對象才能了解其中的意思。

因為年輕人是那麼的年輕,他們需要适當的自由來探索與嘗試而不至于因一時的疏忽在日後受到揮之不去的侵擾。兒童線上隐私保密法要求網站營運商與移動應用開發者在收集低于13周歲的兒童的個人資訊時必須征得其父母或監護人的同意。而現在,我們對于兒童正在遭受什麼“傷害”以及怎樣的政策架構才能確定他們伴随技術成長是一種促成而不是阻礙都還沒能得出一個确定的結論。

與醫療保健一樣,青少年在與數字教育平台的互動中表現出的部分資料是極其私密的個人資訊,這些資料包括對于特定學習方式的偏好和他本人相對于其他學生的表現。它甚至能夠分辨出有學習障礙或注意力無法長時間集中的學生。根據學生在一天内的上線與線上時間,他個人的生活習慣甚至都可以被獲知。教育機構應當如何使用這類資料來改善學生的學習機會?對于使用這些平台的,特别是處于基礎教育階段的學生,他們如何能夠保證自己的資料是安全的?

為了回答關于這些資料的所有權與恰當使用方式的複雜問題,教育部于2014年2月公布了針對線上教育服務指南。指南明确指出,隻有滿足《家庭教育權和隐私權法案》與《保護學生權利修正案》中規定的具體要求,學校或學區才可以才能夠與第三方機構簽訂涉及學生資料的協定。随着越來越多的線上學習工具和服務可以為孩子們所使用,州與地區政府也正密切地關注着這些問題。學校與學區以未來合法的教育效益為目的共享受到保護的學生資訊,并且在分享的過程中必須對這些資訊保持“直接控制”。即使在這新的指導之下,如何在大資料世界中最好地保護學生隐私仍必須是一個持續的議題。

當局正緻力于解決這些問題,并通過教育部加以實施,來使得所有的學生在享受大資料在教育與學習上帶來的創新效益的同時免于受到其潛在威脅所帶來的傷害。正如教育部長阿恩·鄧肯(arne duncan)所說:“學生資料必須是安全且珍貴的,無論它存儲在何處,它都不是一種商品。”這意味着必須確定學生的個人資訊與線上活動不受到不恰當的使用,尤其當這些資訊是在教育環境下被收集的。

大資料與隐私

以物聯網為工具的大資料打破了許多私人空間。家中的無線網絡信号(wifi)中可以顯示出屋中的人數及其位置,也可通過采集功耗資料來顯示出你在屋中的移動。 當你走出房間時,線上面部識别技術也可以将你從圖像中識别出來。始終開啟的有音頻和視訊接口的可穿戴裝置以及整個物聯網裝置的出現隻會産生越來越多的資訊采集量。在合法使用的傳感器的海洋中,限制資訊采集是一個巨大的挑戰,幾乎是不可能的。

這種無處不在的資訊采集是由大資料技術本身性質所決定的。無論是産生模拟信号還是數字信号,資料都被重複使用着,并且以前所未有方式結合,這便激勵着更多的資料采集。資料的潛在價值推動着“土地戰”,機構的重點也轉向盡可能多的采集和利用資料。公司不斷地發掘他們已有的資料,同時尋找他們需要的資料來提高其市場地位。當今世界,資料存儲的成本已經大幅下降,同時仍具有尚無法預測的未來創新潛力,是以采集盡可能多的資料是至關重要的。

大資料的另一個現實就是,資料一旦被采集,就很難保持提供者的匿名性和隐私性。雖然有研究希望在大資料的采集中模糊個人識别資訊,或重新辨別“無名氏”的資訊。融合資料技術集資要比隐私保護技術友善許多。

總之,這些趨勢要求我們關注四十年中,告知與同意架構是如何為隐私保護提供支援的。在結構性過度采集的技術中,重新鑒定要比識别功能更強大,并将重點放在了資訊的采集和儲存上,個人的隐私就沒有那麼受關注了。總統委員會科學技術的顧問說:“告知與同意架構已經被大資料所帶來的正面效益打敗了,大資料所帶來的是新的、并非顯而易見但十分強大的使用價值。

預測大資料變革的下一篇章

對于現在絕大多數的普通互動來說,告知與同意架構充分保護了隐私。但是總統委員會的科技顧問表示,技術軌迹正在轉向采集、使用和儲存對消費者和個人并沒有直接聯系的資料122。假若該架構被違背,比如由我們的家庭裝置采集的資料,我們則需要重新關注資料的使用,這一政策轉向正在被專家、學者廣泛讨論 123。資料的使用情況是極為重要的,它對社會有利有弊,如“雙刃劍”一般。

負責任地使用政策架構會帶來許多潛在優勢。将責任從個人轉移到采集、儲存和使用資料的實體,由于個人在目前市場中的位置,他們并不能很好地了解和抗争告知和同意架構。關注于使用責任制,也可以使資料的采集者和使用者對資料的管理及其可能産生的危害負責,而不是狹隘地将其責任定義為是否通過正常途徑采集資料。

更多地關注責任并不意味着忽視收集的環境。對資料負責,一方面就是要尊重原始資料的采集。實際上,如同在消費者隐私權法案所闡述的尊重環境原則,這一規則并不令人驚訝。雖然資料的收集不能立即用在就業上,但技術的發展正在向這個方向轉變。先進的資料标記技術可以已采集和使用者授權使用的資訊細節進行編碼,進而使許可使用的資訊可以一直跟随着資料。若是該技術得到良好發展和廣泛使用,即使不能解決大資料中所有的問題,也可以用于應對一些關鍵挑戰。

或許最為重要的是,為了更負責地使用大資料,我們應該将關注的重點放到如何平衡大資料所帶來的效益和對隐私以及其它由于大資料采集資訊的不可避免性而受到危害的價值。我們是否應該制定規則,不能在任何環境下使用沒有得到使用授權的資料,即隻使用得到使用授權的資料?對于醫學研究中為了治愈癌症而使用的資料,和商業營銷中對消費者的廣告定位而使用的資料,我們應該如何區分和界定它們?

正如奧巴馬總統在人權消費者隐私條例草案的釋出會上所說,“盡管我們生活在一個能夠比過去更自由地共享個人資訊的世界,但我們必須堅決否認隐私價值已經過時。”隐私“從一開始就一直是我們的民主制度的心髒,而現在,我們比以往的任何時候更需要它。”這在利用大資料的時代更是如此。

結論與建議

大資料變革正處于其最初階段。我們需要數年才能了解其完整的技術内涵、其對健康、教育、經濟的強化作用,及更為關鍵的是,它對美國核心價值觀的影響,包括隐私權、非歧視、自我決定權。

即使是在當下大資料變革的早期,本評估報告的作者仍認為重要的結論已然出現,即大資料可以從多個領域的層面告知當局者該如何邁出下一步。特别是以下五個方面,它們将引發美國關于在大資料世界如何最大化利益和最小化危害的全民讨論。

保護個人隐私的價值:在美國以及全球協作的隐私保護體系中,通過在市場上對個人資訊的保護來維護個人隐私的價值

穩定/持續負責的教育:要認識到學校(尤其是 k-12)是使用大資料以提升學習機會的重要領域,同時也要對個人資料的使用進行保護,強化數位素養和技術

大資料與歧視:防止大資料使用過程中可能帶來的新的歧視方式

執法和安全保障:在執法過程、公共安全、國家安全中,確定大資料的合理負責使用

資料公共資源化:将資料作為公共資源,用于提升公共服務,投資于能夠推動大資料革命的科學研究

政策建議:

本評估報告還指出了六條值得政府及時關注并制定相應政策的建議,分别為:

1 改進消費者隐私權力法案:

商務部應當采取咨詢手段,來征求利益相關者與公衆對大資料發展及其是如何影響消費者隐私權法案的意見,然後制定立法文本草案供利益相關者審議,并向國會送出

2 通過關于國家資料外洩的立法:

國會應當通過立法,沿襲當局 2011 年 5月的網絡安全立法建議,制定一套國家統一資料外洩标準

3 将隐私保護擴充至非美籍人士:

管理和預算辦公室應與各部門和機構協作,在可行領域将1974 年隐私法應用于非美籍人士,或制定可替代的隐私政策,應用于各種國籍的人士,以對其個人資訊進行合适、有意義的保護

4 確定對在校學生的資料采集隻被用于教育目的:

聯邦政府必須通過法規確定學生的資料恰當共享或使用,尤其針對幾種在同一個教育環境下的資料

5 發展技術以阻止歧視:

聯邦政府首席公民權利和消費者保護機構應當發展技術專長,識别通過大資料分析而對受保護階層産生歧視性影響的做法和結果,并制定調查和解決方案

6 修正電子通信隐私法:

國會應當修正電子通信隐私法,以確定對線上數字内容的保護标準與現實所提供的相一緻,包括去除未讀的或留存一定年限以上的郵件中因逾時而産生的差别

保護個人隐私的價值

大資料技術正在推動巨大的創新,同時也産生了新的隐私問題,其影響遠遠超出了當下備受關注的線上廣告問題。這些影響使我們在未來的隐私保護中急需一個更具廣泛性的國家稽核模式,包括 2012 年釋出的政府的消費者隐私權利法案。相對于傳統的告知與同意模式,即專注于采集資料之前獲得的使用者許可,對其進行重新稽核是尤為重要的。雖然在許多情況下,告知與同意仍作為一種基本模式存在,但如今,我們需要做出判斷,在大資料環境下,更側重于資料的使用和重複使用的研究方式是否會成為使隐私權管理更為高效的基礎。或許,建立一種使個體參與到其個人資料采集後的使用和配置設定問題的機制,将會是更好的授權方法,以使人們能夠從其個人資訊中獲利。隐私保護的方式也必須不斷發展,以适應大資料所帶來的社會效益。

推進消費者隐私權利法案

正如 2012 年 2 月奧巴馬總統所明确的那樣,消費者權利法案和與消費者隐私相關的藍圖代表了“一種動态模型,使得在新的資訊技術條件下,提供強大隐私保障、推動創新”消費者隐私權利法案為基于公平資訊實物準則。一些隐私專家相信,這些原則在一些細微處有足夠的靈活性以解決和支援資料的新興用途,包括大資料。但其他人對此并不太确信,尤其是技術人員,因為不可否認的是,大資料确實挑戰了當下一些支撐隐私架構的關鍵假設,尤其是在采集和使用上。值得考慮的是,在告知和同意模式的背景下,大資料的發展該如何可行地保護隐私,以及存在哪些實際限制。

建議:商務部應當立即征求公衆意見,針對消費者隐私權利法案如何在支援大資料創新的同時,又對其風險作出反應,以及如何負責地使用架構,就像第五章所闡述的那樣,包含在消費者隐私權利法案确立的架構之内。根據評價過程,商務部應當制定立法文本草案供利益相關者審議,并向國會送出。

原文釋出時間為:2014-05-30

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀