天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.1 背景

2.1 背景

資料辨別無疑是最被低估和最不被了解的大資料問題。資料測量、注釋、特性和類資訊本身是沒有任何意義的,隻有當一個整合了這些資訊的辨別符能夠對衆多資料對象加以區分時,它們才是有意義的(見術語表,annotation)。識别方法、待識别對象和類的選擇,從根本上來講,與大資料資源的組織模型相關。如果忽視或不恰當地進行資料辨別,大資料資源就會出現問題。

本章将深入描述資料辨別的可用方法以及辨別資訊的最小屬性(包括唯一性、排他性、完整性、真實性和協調性)。我們會對不充分的識别行為帶來的可怕後果進行讨論,并給出現實案例。可以對已識别出的資料對象進行去辨別操作,在某些情況下,也可進行重辨別(見術語表,deidentification,reidentification)。當遇到保密、隐私和知識産權問題時,擁有去辨別化資料對象的能力将極為重要(見術語表,privacy and confidentiality,intellectual property)。錯誤檢測、誤差修正和資料驗證等過程,要求有對去辨別化的資料對象重新進行辨別的能力。

辨別系統的核心是其良好的資訊系統,它提供了一種資料對象命名方式,這樣可以通過資料對象的名字和檢索方式将每個對象與系統中的其他對象區分開來。如果資料管理者正确地辨別他們的資料,他們不用做任何事,就會獲得一個比許多現有的大資料資源更有價值資料對象的集合。想象這樣一個場景:為了治病,你出現在你出生的醫院接受治療,并且看到了自你出生以來的各種疾病記錄。有可能:

1.醫院的醫療記錄中有你的名字,但不是你。多次努力後,他們發現另一個醫療卡記錄了你的名字。這再一次證明這條記錄是别人的。耗費大量的時間和精力後,你被告知,醫院不能調出你的醫療記錄。他們否認失去你的記錄,隻承認他們無法從資訊系統中檢索記錄。

2.醫院的醫療記錄中有你的名字,但不是你。你和你的醫生都不知道身份資訊的錯誤。醫生在認為别人的醫療記錄是你的醫療記錄的前提下,給你提供了不當的治療。由于這個錯誤,你死了,但醫院資訊系統卻沒有明顯的損失。

3.醫院有你的醫療記錄。随着最近有關測試和程式的完成,你的醫生發現記錄丢失了大量資訊。在過去,沒有人能發現這些失蹤的記錄。你詢問醫生你的記錄是否可能與另一個病人或多個病人的記錄搞混了,醫生隻是聳了聳肩。

4.醫院有你的醫療記錄,但該記錄包含其他患者做的各種檢查。其他一些患者的醫療記錄裡也有你的名字,并顯示名字不同。似乎沒有人明白有關其他病人的這些記錄是如何進入你的圖表中的。

5.你被告知該院已改變了其醫院資訊系統,舊的電子記錄将不再可用。你被要求回答關于你的一長串病史問題。你的回答将被添加到新病曆中,但許多情況你已經忘記了。

6.你被告知你的電子記錄被轉移到一個大型醫院的醫院資訊系統中。發生這種情況是一個複雜的收購兼并的結果。你正在接受治療的醫院尚未部署多醫院系統的資訊結構,對你的醫療記錄沒有通路權限。你放心,你的記錄沒有丢失,醫院可在十年之内獲得通路權限。

7.你到達醫院時發現,曾經醫院引以為傲的大廈已經拆除,被一個大型購物中心所取代。你的電子記錄已經一去不複返了,值得安慰的是你知道jc penney公司現在在搞六折的珠寶促銷活動。

醫院資訊系統是典型的大資料資源。與大多數大資料資源一樣,醫療記錄必須是唯一的、可通路的、完整的、未受摻雜(與其他人的記錄混淆)的、永久性的和保密的資料。而如果沒有适當辨別系統,這一切是不可能達到的。

繼續閱讀