天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.2 辨別符系統的特征

2.2 辨別符系統的特征

對象辨別符是與對象相關聯的字母數字字元串。對于很多大資料資源,人是最受關注的資料管理對象。一個原因是,許多大資料資源被用來存儲和檢索個人有關資訊。另一個原因是資料管理的當務之急是以絕對的确定性建立涉及人類重要資訊的辨別符(例如,銀行交易、輸血記錄等)。我們會看到,在有關不變性的讨論中(見第6章),有充足的理由存儲大資料資源中資料對象包含的全部資訊,以及提供每個資料對象的辨別符(見術語表,immutability,mutability)。是以,資料管理的重要任務之一就是建立一個可靠的辨別系統23。

一個好的辨別符系統具備如下特征:

1.完整性。每個資料對象必須指定一個辨別符。

2.唯一性。每個辨別符都是唯一的序列。

3.排他性。每個辨別符隻配置設定給一個唯一的對象,而不是沒有其他對象。

4.真實性。接受辨別的對象必須驗證為就是計劃被辨別的對象。例如,如果一個年輕人走進一家銀行,并聲稱自己是richie rich,那麼銀行必須確定他是,事實上,他說他是誰不管用。

5.聚合性。大資料資源必須有一個機制來聚合所有與辨別符相關的資料(即捆綁所有屬于唯一辨別對象的資料)。在銀行,這可能意味着收集所有與賬戶相關聯的交易。在醫院,這可能意味着收集所有與病人的辨別符相關聯的資料:就診報告、用藥情況、外科手術和化驗結果。如果辨別符系統執行适當,聚合方法将始終收集所有與某個對象相關聯的資料,并且絕不會收集與不同對象相關聯的任何資料。

6.永久性。辨別符和相關聯的資料必須是永久儲存的。在醫院系統中,當消失30年的患者傳回醫院,該記錄系統必須能夠通路他的辨別符和相關資料。如果患者死亡,患者的辨別符也不能消失。

7.協調性。應當有一種多個大資料資源的同一個資料對象的合并機制。這個過程被稱為調諧,需要實施比較、驗證和合并。醫療記錄的可移植性需要調諧,當病人到醫院就診,可能需要從其他醫院調用她的電子醫療記錄(見術語表,ectronic medical record)。兩家醫院需要确認病人的身份,并合并醫療記錄。

8.不變性。辨別符除了具有永久性之外(即從來沒有被破壞或丢失),還必須永遠不會改變(見第6章)24。倘若兩大資料資源合并,或将遺留資料合并到一個大資料資源,或對兩個不同的大資料資源的個别資料對象合并,每個資料對象會有兩個資料資源配置設定的辨別符。在這種情況下,兩個辨別符必須毫無修改地都被保留下來。合并後的資料對象必須有注釋性資訊,提供每個辨別符的确切起源(即說明該辨別符是來自哪個大資料資源)。

9.安全性。辨別系統很容易受到惡意攻擊。如果辨別符被篡改,大資料資源會出現不可逆的損壞。在關于人的辨別系統中,被盜辨別符可用于多種針對個人的惡意活動。

10.文檔和品質保證。應當有發現和改正病人識别系統的錯誤的系統。必須編寫用于建立辨別系統、配置設定辨別符、保護系統和監視系統的協定。遇到的每個問題和采取的每個糾正措施都必須記錄在案并通過檢驗。檢驗程式應當确定糾正措施是否有效,并保證辨別系統性能的持續監控。所有檢驗程式、采取的行動以及所有系統修改情況都應當有詳細的記錄,這是一個大工程。

11.向心性。判斷資訊系統是屬于一家儲蓄銀行、一家航空公司、監獄系統或一家醫院,辨別符發揮核心作用。你可以将資訊系統看作辨別符與資料連接配接的橋梁。例如,在醫院資訊系統裡,病人的辨別符是連接配接病人每次醫療記錄的密鑰。

12.自主權。辨別系統有它獨立于大資料資源的生命周期。即使大資料的所有資料資源突然消失(即所有的資料中包含的所有資料對象被删除),辨別系統還可以持續運轉下去,記錄和整理現有的和未來的資料對象。

繼續閱讀