《位置大資料隐私管理》—— 2.3 查詢同質性攻擊

本節書摘來自華章出版社《位置大資料隐私管理》一書中的第2章，第2.3節，作者潘曉、霍峥、孟小峰，更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

簡單來講，查詢同質性攻擊即攻擊者結合匿名集中釋出查詢的語義窺探使用者隐私。在極端情況下，如果一個匿名集合中的所有服務請求都表示了同樣的内容，如同一匿名集中使用者均提出了一個“尋找惡性良性腫瘤醫院”的查詢，則攻擊者無須獲知使用者的具體位置，也無須确定哪個使用者提出了哪個查詢，也可推測攻擊目标的健康狀況[53]。如圖2-14所示，使用者a、b和c組成匿名集。雖然攻擊者無法确定使用者的确切位置以及每一個查詢的提出者，但是由于3個查詢内容均與醫院有關，是以使用者的敏感資訊洩露。

在給出具體的攻擊模型定義前，首先給出幾個基本定義。

敏感關系r：設caset是查詢類别集合，sset是敏感度集合。令敏感關系r={(a, b)| a∈caset, b∈sset且 (a1, b1), (a2, b2)∈r，若a1=a2，則b1=b2}。

從定義2-8可以看出，敏感關系r是一個從查詢類别集合到敏感度集合的多對一的二進制關系。例如，存在敏感關系{（緊急急救呼叫，more secret），（敏感位置路徑導航，top secret），（位置敏感賬單，secret），（購物導引，less secret），（旅遊工具，non-secret），（産品追蹤，non-secret）}，其中，查詢類别集合={緊急急救呼叫，敏感位置路徑導航，位置敏感賬單，購物導引，旅遊工具，産品追蹤}，敏感度集合={top secret, more secret, secret, less secret, non-secret}。

很明顯，根據多對一的二進制敏感關系r的定義，空間中的任意兩個查詢具有以下兩個性質。

性質1：若兩個查詢的查詢類别相同，則查詢敏感度一定相同。

性質2：若兩個查詢敏感度不同，則查詢的類别一定不同。

當為查詢标注類别後，即可通過敏感關系r獲得該查詢的敏感度。需要說明的是，敏感度值可以是類别屬性值，如{top secret, more secret, secret, less secret, non-secret}，也可以是标準化的[0, 1]之間的數值，數值越大說明敏感度越高。類别屬性值和數值之間可以互相轉化。後者轉化為前者較容易，這裡對類别屬性值向數值類型轉化進行定義。

查詢敏感度值數值化：設sset={s1，s2，…，si，…，sn}是由類别屬性值組成的敏感度集合。将sset中的值按照敏感度強弱由大到小排序，即s1>s2>…>si>…>sn。通過公式（2-3）将sset中的類别屬性值轉化為[0, 1]之間的數值：

如sset={top secret, more secret, secret, less secret, non-secret}，則根據上面的公式将sset數值化，數值化後的值見表2-1。友善起見，下文中均采用數值表示查詢敏感度值。

匿名集中使用者的敏感資訊洩露反映為匿名集中的查詢類别（如圖2-14所示）或敏感度相同。圖2-15展示了一個因為查詢敏感度相同造成的隐私洩露的例子。{d, e, f}組成匿名集。在該匿名集中，雖然查詢内容均不同，但從使用者的角度來看，這3類查詢均屬于敏感查詢，使用者不願攻擊者将自己與任何一類查詢建立聯系。根據性質1，查詢類别相同是敏感度相同的特例，是以用敏感度定義感覺查詢語義的敏感同質性攻擊。

與敏感位置同質性攻擊類似，查詢敏感同質性攻擊為每一類查詢設定一個敏感度值。查詢敏感同質性攻擊定義如下。

查詢敏感同質性攻擊：設cs是一個匿名集，對于任意使用者u∈cs，根據使用者u的查詢敏感度需求u.ts可獲得在使用者u看來，cs中包含的敏感查詢個數，記為count_squ。若在cs中存在使用者u，其集合敏感度需求u.p< ，其中|cs|表示cs中包含的使用者個數，稱此攻擊為查詢敏感同質性攻擊。

如圖2-16所示，不考慮使用者集合{h, i, g}中使用者提出的查詢内容，僅看其提出查詢的敏感度。簡單起見，設所有使用者的查詢敏感度需求ts均為0.25，則在該匿名集中所有查詢對3個使用者來講均為敏感查詢。再設所有使用者的集合敏感度需求p均為0.4，3個使用者的 =1。是以{h, i, g}中使用者的集合敏感度需求均未得到滿足，則該使用者集合存在查詢敏感同質性攻擊的問題。

在給出查詢p-敏感模型的定義前，首先定義使用者個性化隐私需求和查詢請求在匿名伺服器中的存在形式。

個性化隐私需求：系統中每一個使用者均可設定個性化的隐私需求，形式化地表示為一個三元組：profile=(k, ts, p)。其中

匿名度需求k，使用者可接受的最小匿名度，即使用者要求在匿名集

中至少包含的使用者個數。

查詢敏感度需求ts，使用者可容忍的查詢敏感度最高值。若某查詢的敏感度大于ts，則此查詢在該使用者看來屬于敏感查詢；反之，該查詢屬于非敏感查詢。

集合敏感度需求p，表示使用者可接受敏感查詢在匿名集合中所占比例的最大值。

例如，某使用者u設定隐私需求profile=(3, 0.5, 0.4)，表示使用者要求在匿名集中至少包含3個不同使用者；匿名集中包含的查詢，若查詢敏感度大于0.5，則使用者u視該查詢為敏感查詢；在u看來，匿名集中包含的敏感查詢在所有查詢中所占的比例不能超過0.4。注意，在使用者設定隐私需求時，若使用者u自身提出的查詢屬于敏感查詢，則匿名度需求k和集合敏感度需求p之間應滿足。

待匿名查詢：匿名伺服器中待匿名查詢被形式化地表示為(id, loc, profile, q, qs)，其中，id表示查詢辨別符；loc=(x, y)即該查詢所在空間位置；profile表示提出該查詢使用者的隐私需求；q表示查詢内容；qs是将查詢内容q所屬類别與敏感關系r連接配接後獲得的敏感度。

設匿名伺服器中存在一條待匿名查詢(a001，(2, 3)，(3, 0.5, 0.4)，“距離我最近的惡性良性腫瘤醫院”，0.75)，表示含義如下：id為a001的使用者在位置(2, 3)處提出了尋找“最近惡性良性腫瘤醫院”的查詢；使用者匿名度需求為3，查詢敏感度需求為0.5，集合敏感度需求為0.4；“查詢惡性良性腫瘤醫院”對應的查詢敏感度qs=0.75。由于該查詢敏感度需求(0.75)大于使用者查詢敏感度需求(0.5)，是以對于使用者a001來講，自己提出的是一個敏感查詢。簡單起見，本書以u.k表示使用者u的匿名度需求，u.ts 表示查詢敏感度需求，u.p表示集合敏感度需求。

為防止敏感同質性攻擊，文獻[87]提出了個性化(k, p)-敏感匿名模型。

個性化(k, p)-敏感匿名模型：設cs是移動使用者組成的集合，若cs滿足以下條件：

位置k-匿名模型，即。

。

則稱cs滿足個性化(k, p)-敏感匿名模型。

圖2-17顯示了使用者u1、u2、u3組成的匿名集（見圖2-17a）以及三者隐私需求（見圖2-17b）。根據定義2-13，由u1、u2、u3組成的匿名集合滿足個性化(k, p)-敏感匿名模型。

《位置大資料隐私管理》—— 2.3 查詢同質性攻擊

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark