為大家整理了2022年資訊安全工程師考試知識點:隐私保護,希望對大家備考資訊安全工程師考試會有幫助。
隐私保護
【考法分析】
本知識點主要是隐私保護相關内容的考查。
【要點分析】
1.從隐私所有者的角度,隐私可以分為以下三類:① 個人隐私;② 通信内容隐私;③ 行為隐私。
2.隐私洩露方式:① 網際網路服務;② 智能終端;③ 黑客攻擊;④ 管理者監聽。
3.從資料挖掘的角度,目前的隐私保護技術主要可以分為三類:
① 基于資料失真的隐私保護技術;
② 基于資料加密的隐私保護技術;
③ 基于資料匿名化的隐私保護技術。
4.資料失真技術通過擾動原始資料來實作隐私保護。基于資料失真的技術通過添加噪音等方法,使敏感資料失真但同時保持某些資料或資料屬性不變,仍然可以保持某些統計方面的性質。
① 随機化:資料随機化即是對原始資料加入随機噪聲,然後釋出擾動後資料的方法。
② 阻塞與凝聚:随機化技術一個無法避免的缺點是:針對不同的應用都需要設計特定的算法對轉換後的資料進行處理,因為所有的應用都需要重建資料的分布。鑒于随機化技術存在的這個缺陷,研究人員提出了凝聚技術:它将原始資料記錄分成組,每一組記憶體儲着由k 條記錄産生的統計資訊,包捂每個屬性的均值、協方差等。這樣,隻要是采用凝聚技術處理的資料,都可以用通用的重構算法進行處理。
③ 差分隐私保護:差分隐私保護可以保證,在資料集中添加或删除一條資料不會影響到查詢輸出結果,是以即使在最壞情況下,攻擊者己知除一條記錄之外的所有敏感資料,仍可以保證這一條記錄的敏感資訊不會被洩露。
5.基于資料加密的隐私保護技術所針對的資料對象往往是分布式的。在分布式環境下,根據應用的不同,資料會有不同的存儲模式,站點也會有不雨的可信度及相應行為。
6.分布式應用普遍采用兩種模式存儲資料:垂直劃分的資料模式和水準劃分的資料模式。垂直劃分資料是指分布式環境中每個站點隻存儲部分屬性的資料,所有站點存錨的資料不重複;水準劃分資料是将資料記錄存儲到分布式環境中的多個站點,所有站點存儲的資料不重複。
7.對分布式環境下的站點(參與者),根據其行為,可分為:① 準誠信攻擊者;② 惡意攻擊者。分布式環境下的四個常見應用:安全多方計算、分布式匿名化、分布式關聯規則和分布式聚類入手,介紹相應的隐私保護技術。目前,解決上述問題的政策是假設有可信任的服務提供者或是假設存在可信任的第三方。大家把各自的輸入秘密地交給這個可信方,由可信方來計算出結果,然後将相應的結果傳回給參與計算的各方。但是在目前多變和充滿惡意的環境中,這是極具風險的,很難找到這樣的可信第二方。
8.安全多方計算( SMC) ,是解決→組互不信任的參與方之間保護隐私的協同計算問題。
現有的許多密碼工具都是安全多方計算的基礎,SMC 的關鍵技術涉及到秘密分享與可驗證秘密分享、門限密碼學、零知識證明等多方面的内容。
① 秘密分享是一種分發、儲存和恢複秘密的方法,是實作安全多方計算的一種重要工具。早期的方案中均假設所有參與方是誠實的,即秘密分享者Pi(l 《i《n) 所提供的秘密分片都是正确的,是以不能夠抵抗惡意攻擊者的欺騙行為。能夠對分發的秘密分片的正确性進行驗證實作了可驗證秘密分享(Verifiable Secret Sharing) 。如果系統中任何成員(包括外部成員)都可以驗證秘密分片Si 的正确性,則稱可公開驗證秘密分享。
② 同态公鑰密碼體制:在SMC 技術所采用的各種密碼算法中,一個重要的密碼體制是具有同态性質的公鑰密碼體制。
③ 零知識證明:零知識證明是密碼學中的一個基本方法,目的是使證明者P 向驗證者V 證明自己擁有某個秘密,同時P 又不會向V 洩露該秘密的任何其他有用的資訊。
④ 混合網協定:混合網(Mixnets/Mix Network) 是實作匿名發送的基本密碼協定。
混合網由服務網的集合構成,原始資訊輸入混合同,通過多次秘密置換後再輸出,隐藏了輸出消息與發送方的關系,實作匿名消息發送。
9.在分布式環境下,資料匿名化的重點問題是:如何在通信時既能保證站點資料隐私不洩露,又可以收集得到足夠的資訊來滿足資料挖掘規則的要求,進而使實作的資料匿名保護的使用率盡量高。
10.關聯規則挖掘就是從大量的資料中挖掘出描述資料項之間互相聯系的有價值的知識。關聯規則挖掘可以發現存在于資料庫中的項自或屬性間的有意義的關系,這些關系是事先未知的且隐藏的,也就是說不能通過資料庫的邏輯操作(如表的聯接)或統計的方法得出。
① 水準分布下關聯規則挖掘的隐私保護算法:資料水準分布的關聯規則挖掘的目的是尋找全局關聯規則。
② 垂直分布下關聯規則挖掘的隐私保護算法:資料垂直分布下的關聯規則挖掘的關鍵在于項集中的項分布在不同站點,需要在這樣的情況下計算項集的支援度。
在資料垂直劃分的分布式環境中,需要解決的問題是:如何利用分布在不同站點的資料計算項集(item set)計數,找出支援度大于阙值的頻繁項集。
11.聚類是對記錄進行分組,把相似的記錄分在閏一個聚簇裡,主要是使得屬于同一聚簇的個體的差異盡可能小,而個體差異在不同聚簇之間盡可能大。
12.資料匿名化一般采用兩種基本操作,一種是抑制(Suppression) ,即不釋出某些資料項:另一種是泛化(Generalization) ,即對資料進行更概括、抽象的描述。
13.資料匿名化所處理的原始資料,如醫療資料、統計資料等,一般為資料表形式;幾種常見的針對匿名化模型的攻擊方式:連結攻擊、同質攻擊、相似性攻擊、背景知識攻擊。
連結攻擊:某些資料集存在其自身的安全性,即孤立情況下不會洩露任何隐私資訊,但是當惡意攻擊者利用其他存在屬性重疊的資料集進行連結操作,便可能識别出特定的個體,進而擷取該個體的隐私資訊。
同質攻擊:當通過連結攻擊仍然無法确認個體,但是卻存在個體對應的多條記錄擁有同一個敏感隐私資訊,進而造成隐私的洩露,稱這一過程為同質攻擊。
相似性攻擊:由于敏感信患往往存在敏感度類似的情況,攻擊者雖然無法确定個體,但如果個體對應的多條記錄擁有相似敏感資訊,便能夠推測出個體的大概隐私情況。
背景知識攻擊:如果攻擊者掌握了某個體的某些具體資訊,通過連結攻擊後即使隻能得到某個體對應的多條資訊記錄,并且記錄間的敏感屬性也完全不同或不相似,但攻擊者卻能夠根據所掌握的背景知識,從多條資訊記錄中找出對應的資訊記錄,進而擷取到該個體的隐私資訊。
14.目前提出的匿名化方法主要通過泛化和抑制操作來實作。
① 泛化:泛化的基本思想是用更一般的值來取代原始屬性值。通常泛化可分為兩種類型:域泛化和值泛化。
② 抑制:抑制又成隐匿,是指用最一般化的值取代原始屬性值。
15.資料匿名化算法:
① 基于通用原則的匿名化算法;
② 面向特定應用的匿名化算法;
③ 基于聚類的匿名化算法。
16.隐私保護技術在保護隐私資料的同時,需要最大可能地保證資料的可用性,即保證資料對實際應用的價值。
17.隐私的度量方法:通常從披露風險和資訊缺損兩個角度對穩私保護的效果進行度量。
① 披露風險:現有的隐私度量都可以統一用"披露風險" (Disc1osure Risk) 來描述。披露風險表示為攻擊者根據所釋出的資料和其他背景知識(Background Knowledge) 可能披露隐私的機率。通常,關于隐私資料的背景知識越多,披露風險越大。
② 資訊缺損:資訊缺損表示經過隐私保護技術處理之後原始資料的資訊丢失量,是針對釋出資料集品質的一種度量方法。
18.隐私保護技術需要遵循最小資訊缺損原則;資訊缺損越小,說明釋出的資料集有效性越高,資料越有價值。
19.隐私保護算法可以從下列方面進行評價和比較:
① 隐私保護度:隐私保護度是站在隐私保護的角度對隐私保護算法進行評估,該算法如何能夠最大限度地防止入侵者非法擷取隐私資料,對隐私進行有效的保護。
② 資料有效性:資料有效性是指隐私保護算法在處理資料的時候,對原始資訊的修改使得挖掘結果,也即最終得出的全局關聯規則,與原始資料之間關系的比對程度。資料缺損的越多,資訊丢失的越多,資料的有效性就會越差。
③ 算法複雜度:算法的複雜度一般指算法的時間複雜性和空間複雜性,即算法的執行時間和進行資料處理時消耗的系統資源,可以說算法複雜度是直接與計算效率相關的一條重要标準。
算法複雜性的高低主要展現在所需要的系統資源上。所需資源越多,該算法的複雜性就越高。