天天看点

数据共享中的隐私保护问题

一、数据共享中的隐私保护问题

现有的数据共享模式较为简单:数据需求方直接从远端数据提供方获取源数据至本地,在本地对数据进行处理、分析。需求方是整个平台的中心,源数据聚合在需求方,计算也都在需求方进行。这种模式存在诸多问题,首当其冲的便是数据泄漏和隐私保护问题。机器遭受攻击时,无法保护数据。若节点的机器遭遇攻击,操作系统、系统监视器等高权限的程序被攻击者控制,则攻击者可以轻易的获取机器中运行的数据,存在很大的隐私泄露隐患。数据需求方必须获取源数据以实现数据共享。现有的数据共享协议很简单,将数据明文共享到一个中心节点上,源数据直接暴露在平台中。数据加密传输可以减少数据在传输过程中泄漏的可能性,但这也无法阻止数据需求方获得源数据。

总的来说,目前数据共享模式只能对数据提供有限的保护,但在不可信计算节点、要求源数据不被需求方知悉的情况下则无能为力。

二、机器学习中的信息安全和隐私问题

机器学习是通过已有数据集对机器学习模型进行训练并预测未知数据结果的一种方法,大体可以分为训练和预测两个阶段。在这两个阶段分别都存在着安全问题和隐私问题。

存在的安全问题有:1.在训练阶段,机器学习模型需要通过训练数据集对模型参数进行更新优化,如果要保证训练好的模型在测试数据集上达到同样的准确率,训练集和测试集必须有同样的分布。攻击者可能对此训练阶段的假设进行攻击,通过修改训练阶段的数据集对机器学习模型进行攻击。投毒攻击就是一种最常见的训练阶段的攻击方法,攻击者对训练集进行有目的增加、删除和修改就能达到攻击的效果。例如,在垃圾邮件过滤的机器学习模型训练过程中,攻击者可以故意将含有某一类词语的负样本修改为正样本,在预测阶段时,垃圾邮件过滤模型将无法过滤含有这一类词语的垃圾邮件。2.在预测阶段,攻击者可能使用对抗样本对机器学习模型进行攻击,使模型做出错误的预测。对抗样本是一种针对深度神经网络的攻击手段,它通过在原始图像数据中加入一些特定的噪声,这种噪声非常细微,人类的肉眼无法直观检查出来,却会使神经网络模型造成误判。例如,针对基于深度学习模型的自动驾驶系统,攻击者可能对一个原本为“STOP”的交通标志掺杂进对抗样本噪声,自动驾驶汽车会将其误判为解禁限速的交通标志,造成严重的交通事故。

存在的隐私问题有:1.训练阶段,一方面,公司在训练机器学习时可能使用分布式训练的方式,在训练过程中需要和用户进行数据的交互,这一过程可能会泄露用户的隐私;另一方面,如果不同公司之间想共享数据集进行数据挖掘,这一过程也可能泄露用户的数据隐私。例如,一个公司拥有通过其提供的服务收集到的用户个人信息,并且将用户信息给另一公司进行数据挖掘,这就侵犯了用户数据隐私权利。 2.在预测阶段,很多云计算厂商提供的MLaaS服务也存在着用户隐私泄露风险。MLaaS 是云计算厂商提供一种机器学习服务,用户只需要将需要预测的数据上传至MLaaS服务器,便可得到需要预测的结果。这一服务解决了用户计算资源不足和服务提供方机器学习模型的知识产权保护问题。在MLaaS服务提供给用户方便的同时,因为用户需要将数据以明文的方式上传至服务器,不能对上传数据进行加密,用户的数据隐私无法得到有效的保护。例如,用户发现身体不适,想通过MLaaS提供的机器学习服务来预测自己是否患有某种疾病,那么他必须将自己的病例以及医疗数据以明文的方式上传至MLaaS服务器,因为不能对数据进行加密,用户无法有效控制自己的隐私信息的安全。

继续阅读