天天看点

吴超:关于健康码,这三个问题值得深思

作者:Beiqing.com
吴超:关于健康码,这三个问题值得深思

简介:吴超,研究员,博士生导师,计算社会科学中心主任,教育部人工智能协同创新中心成员,专注于分布式机器学习

为什么要关注健康码?当健康码首次问世时,中央电视台白岩松在接受杭州健康码负责人采访时谈到了健康码技术及其应用。当我开始关注健康码的机制和问题时,我以为可能有三个问题,我可以证明存在,但现在没有足够的经验数据,健康码还在申请过程中,这只是我的想法。今天就和你谈谈这些想法。

首先,我将对健康代码y-f(x)进行简单的描述。x是个人数据,或者现在主要是个人跟踪数据,f是数据的建模,这种建模现在似乎不是机器学习模型,基本上是一些规则系统,可能类似于模型像树模型一样,确定轨迹,人们在哪里或与谁接触过某个类别, 结果是红色,黄色和绿色代码。这是一个典型的分类问题,将 x 数据转换为 y 分类。这是对健康码问题的简单正式描述。

健康码我认为会有三个问题,一个是互操作性,一个是假阴性,一个是隐私保护。

首先是互操作性。全国有很多地方开始实施健康码,所有企业、地方政府都有类似的方式建立类似的健康码程序。但情况会有所不同,单个企业很难形成完全统一的平台。如果要将这些健康码放在一起,最简单或最现实的方法是相互识别。

现在,在实际过程中,我发现相互承认的想法也是主要的。比如,在上海是绿色代码,到杭州也可以识别。但相互承认会有一个大问题,相互承认只相信对方的分类结果y,而不一定相信对方的分类规则,f的主体即规则和标准是不一样的。例如,浙江生产绿色代码的规则可能与黑龙江生产绿色代码的规则不同。

重要的是,信息技术的基础因地而异。例如,在浙江,人们使用支付宝的次数更多,后台支付宝的收款频率更高,位置跟踪数据的准确性更高。但在其他地方,这一区域的数据采集可能较少,只有手机基站数据,空间分布低。因此,信息的依据不同,规则也不同,都会造成产生红、绿、黄三条码的标准不一样。如果一些地方标准降低,就会成为全国差距和短板。

为什么我们国家的健康码没有问题?因为整个疫情在我国是好的,在大多数人中没有患病的可能,如果100%的人被判断为绿色代码就不会有问题。但如果将健康码的形式应用于美国和欧洲,互操作性问题将更加明显地暴露出来。

各省应对疫情的能力差异很大。我们最近做了一项研究,这也是y-f(x)的问题,这是各省疫情的严重程度,不仅仅用病例数来衡量,我们用流动人口、输入病例标准化病例数,来计算疫情控制的结果。

x是会议,研究,政策工具,公共服务可及性,对政府的信任,社会资本等的模型,我们可以使用这些指标来预测不同省份控制疫情的能力。我们有很多候选者,但计算出这些是最相关的,并且额外的功能精度会更高,但会存在过度拟合的问题。

简单地说,除了黑龙江、江西等少数省份外,我们的预测不太准确,而在其他省份则更准确。然而,该研究发现,在处理每个省的疫情爆发方面,政策工具和最终结果存在重大差异。如果实施卫生法和其他国家统一标准的政策,会因基础的差异而出现问题。

如果我们想在更严重的公共卫生危机中发挥统一的健康码作用,首先应该做数据互通性,或者数据标准和规则可以互通,数据互通性是困难的,但标准应该是统一的。

第二种是假阴性。这是关于y分类错误。我们的f基本上是一个基于规则的算法,因此准确性有限,只能在非常一般的情况下考虑,但很难处理一些细粒度的情况,特别是对于模糊性。规则是由人制定的,通过观察发现的,但是有很多边界条件,异常情况,需要理解意义的情况,在y中很难计算。

我们认为有很多情况下绿色代码不应该是绿色代码,而是被标记为绿色代码。比如,在诊断出患者打开健康码之前是绿色码,这些都是典型的假阴性,除此之外,是否还有更多的假阴性存在?如果健康代码在疫情爆发的早期就出现了,那么假阴性比率会更高吗?

我们建模以测试上述想法,该想法基于传统的SIR模型。SIR是爆发感染的典型模型,假设感染过程是马尔可夫过程。传统的SIR模型感染因子是一个预设值,但我们认为它应该随着爆发的不同阶段而变化,因此我们使用机器学习来拟合该因子。

以意大利为例,现在数据比较完整,从爆发到高峰的过程还不完成,有利于模型预测。红线是每天诊断出的感染患者的实际人数。蓝线是当没有假阴性时,根据可用数据,并假设核酸检测是准确的,以做出预测。

可以发现,实际确诊病例与非假阴性情景预测有很大不同。我们更改了假阴性比率,该比率非常适合0.4%。也就是说,人群中的假阴性数量不需要特别高,1000人有4个人是假阴性,会有更大的差距。如果将假阴性的概率增加到0.8%,差距将扩大,爆发将持续更长时间,右侧的感染总数将大大增加。

这个实验告诉我们,假阴性不需要太多的人,但它们可以对传播产生重大影响。假阴性是由我们检测到的方法引起的。健康码是检测的一种方式,核酸检测也是一种方式。除了核酸检测在国内,健康码将成为假阴性的重要来源,虽然目前疫情好,但问题不明显,如果将健康码的概念应用到其他国家,假阴性的影响会非常明显。

三是隐私保护。最近,在浙江,特别是在杭州,关于健康码的争议很多。杭州正在升级其健康码,成为正常的管理工具。除了健康码之外,现在还有企业代码等有各种新代码。健康码的范围也在扩大。我听说过杭州的想象,健康码爆发后,可以用来看医生、买药等正常应用,会把人们的运动、饮酒、吸烟这些条件都加到健康码里,引起大家的厌恶,这是一种非常直接的侵犯隐私保护。

健康码解决了两个隐私问题。首先,健康码收集的数据非常敏感,我们的个人健康数据和轨迹数据都是非常敏感的数据。在隐私保护中,跟踪数据是受保护的核心数据。数据现在正在以集中的方式进行处理,例如收集大数据局,阿里和电信部门。

如果有其他数据源,例如支付宝的消费记录和个人身份信息,这些数据库如果合并,可以挖掘更多的私人数据。另一个问题是保质期。这两个问题都提出了隐私披露的问题。

很多人说疫情爆发是突发事件,效用是最重要的,隐私是可以牺牲的,甚至在正常情况下,我们经常说,为了方便,牺牲了一些隐私。例如,导航软件,请务必获取位置数据。我们一直认为效用是隐私的对立面。

但我认为这是一个借口,很多时候我们没有把重点放在改进技术上,这样它就可以在不侵犯隐私的情况下工作。比如手机的摄像头,之前手机拍照的便利性和质量是相反的。现在手机镜头已经取得了很大的进步,尤其是算法可以弥补镜头的不足,这次手机摄像头的便利性和质量也不反其道而行之。

隐私和实用程序问题也是如此。例如,收集本次疫情的位置数据,MITT提出了一种算法,本地不停随机数,通过蓝牙等手机交换随机数,其他手机有数据库,保存距离和一定时间与这些设备全部生成随机数,交换的是蓝牙切换,不需要经过中央服务器, 这是P2P的方式。

当发现有人被诊断出来时,手机数据库将自身生成的随机数历史发送到中央服务器,并将每个用户的本地数据与中央服务器数据进行比较。这是为了获取中央服务器的数据进行比较,不需要上传自己的随机数,如果发现这些人的随机数与中央服务器感染的随机数相匹配,就有可能被感染。除了数据传输的最终比较是中心的事实之外,其他的都是P2P,不需要收集位置数据,并且是匿名的,这是一个好主意。

另一个想法是我现在正在做的事情,分布式机器学习建模算法。该算法基于联邦学习的算法,其核心概念是将建模分散到用户的本地工作中。最初的建模是将数据收集到中心,就像健康码需要收集每个人的个人数据给支付宝,然后它给出相应的健康码。我们可以把支付宝或者运营商的算法放在手机上,由自己在本地生成健康码,这是联邦学习的理念,我们将在联邦的基础上学习,进一步优化,实现隐私保护。

我们工作的几个方面中的第一个是进一步的权力下放。Federal Learning有一个中央服务器,该服务器分发初始模型,在中央服务器仍面临隐私泄露风险时,将单个本地模型更新(如机器学习)传递到中央服务器进行聚合。如果更新频率频繁,我们可以反向估计每个节点的数据。

我们考虑是否可以进一步去中心化,现在的做法是拿区块链智能合约来做,用智能合约运行原有的中央服务器模型进行分发和聚合操作,用加密算法生成一些随机数,让一些用户加随机数,一些用户减去随机数,聚合总数不变, 每个用户渐变都受到保护。

二是我们也在做模型聚合算法,每个节点都有判断自己健康状况的判断,或者不是绿码算法,有自己的模型。模型的聚合会产生更好的模型。此时,如果采用传统算法,参数均为加权平均,就会出现一些问题,比如模型同构。如果存在非常大的节点数据量,则会降低整个模型的性能。所以我们现在采用蒸馏法,现在实验已经取得了更好的效果。

下一步是进行数据定价,当模型聚合时,我们将确定每个节点、每个用户、每个个体和每个手机上有多少数据有助于整体建模。核心思想是使用多方合作游戏计算,这种计算复杂度非常高,所以我们现在使用树状模型,使用横切方法形成几个树的结构。总而言之,我们的目标是在健康码等隐私差距的背景下解决这些技术的隐私问题。

我们在浙江大学建立了计算社会科学研究中心,为交通、流行病传播、社会治理等计算机社会科学问题提供模型、算法和数据。另一个方向,也是我们更关注的方向,是社会科学如何提出关于计算科学和数据科学的新科学问题。发现我们原始算法无法解决的问题来推动新的科学研究,例如分布式建模,就是一个例子。

比如我们做机器学习图像的问题,很难遇到数据分散和保护数据节点隐私的问题,但是放到社会科学场景,放到流行病场景、智慧城市场景中,这个问题很快就会凸显出来。在这一点上,我们需要对计算科学提出新的要求,在去中心化数据的情况下,我们是否可以做一个好的模型,以及这个模型是否能够在隐私保护的背景下处理治理问题。

编辑:李必英

投稿、合作、联系我们:[email protected]

继续阅读