天天看點

使用“僞造”資料是消除大資料隐私問題的關鍵

在資料分析和機器學習技術進步的前沿世界,大資料正在成為該過程的關鍵依據。然而,大多數組織沒有足夠的内部專業知識來處理算法開發,是以必須外包其資料分析。這引起了許多關于對外傳播敏感資訊的擔憂。

麻省理工學院的研究人員提出了一個解決這些隐私問題的新穎解決方案。他們的機器學習系統可以建立不包含真實資料的“合成資料”的資料集,并可以安全地分發給外部人員進行開發和教育。

合成資料是原始資料集的結構和統計模拟,但不包含有關組織的任何真實資訊。然而,它在資料分析和壓力測試中的表現相似,進而使其成為資料科學領域開發算法和設計測試的理想基礎。

它是如何工作的

由kalyan veeramachaneni上司的麻省理工學院研究人員提出了一個稱為合成資料庫(sdv)的概念。這描述了從原始資料集建立人工資料的機器學習系統。目标是能夠使用資料來測試算法和分析模型,而不涉及所涉及的組織。他概括說:“在某種程度上,我們正在使用機器學習來實作機器學習”

合成資料庫(sdv)使用稱為“遞歸條件參數聚合”的機器學習算法實作這一點,利用資料的分層結構并捕獲多個字段之間的相關性,以産生資料的多變量模型。該系統學習該模型,并随後生成一個完整的合成資料資料庫。

為了測試合成資料庫(sdv),使用反調試技術對五種不同的公共資料集進行合成資料生成。三十九名自由資料科學家開發了資料預測模型,以确定合成資料和實際資料之間是否存在顯著的差異。其結果是結論性的。15個測試中的11個在實際和合成資料的預測模組化解決方案中沒有顯著差異。

合成資料庫(sdv)的優點是它可以複制資料集中的“噪點”,以及任何丢失的資料,使得合成資料集模型在統計學上是相同的。此外,人造資料可以根據需要容易地縮放,使其成為通用的資料。

人們一直在尋找的解決方案?

從分析中得出的推論是,在沒有安全性影響的情況下,實際資料可以被軟體測試中的合成資料成功地替代,并且合成資料庫(sdv)是合成資料生成的可行解決方案。

作為tableau 2017年白皮書所預測的下一件大事,大資料位于高科技的前沿和中心。是以,能夠安全可靠地使用資料的需要變得越來越重要。麻省理工學院似乎已經通過采用合成資料庫(sdv)避免了這些隐私問題,并確定資料科學家可以設計和測試方法,而不會侵犯真實人士的隐私。

這種原型有潛力成為一種有價值的教育工具,不用擔心學生對敏感資訊的暴露。通過這種創造性的模組化方法,促進學習,這個階段将以有效的方式教授和培育下一代資料科學家。

麻省理工學院的模型似乎已經有了答案,特别是考慮到範式測試的成功,在理論上它是完美的。研究人員聲稱,它将通過否定“隐私瓶頸”來加快創新速度。實際上,這還有待觀察。

本文轉自d1net(原創)