差分隐私技术在科技业务平台用户数据保护中的研究

2022-02-08弓晓锋黄琳周慧梁正华

电子测试 2022年22期

弓晓锋，黄琳，周慧，梁正华

（1.贵州省科技信息中心，贵州贵阳，550002；2. 贵州省科技创新中心有限责任公司，贵州贵阳，550002）

1 概述

根据全省“一云一网一平台”统筹部署，各行业部门积极制定了相应的协同推进实施方案，进一步梳理了权责清单以及政务服务网进驻事项，明确了工作任务和实施要点，开展了政务服务“一网通办”业务试点计划。省级科技部门按照“整合内部分散业务系统，统一用户，统一业务入口，统一数据出口”的原则，规范了微服务技术架构、业务流程和数据资源，构建了公共支撑平台、用户中心和数据接口平台，并实现了与省级平台的接入。部门用户中心与省统一实名身份认证系统用户进行了绑定，部门数据接口平台各类科技业务主题数据上架到省数据共享交换平台。如图1所示。

图1 部门平台整合接入省级平台

2 用户认证体系SM3改造

平台后续改造升级过程中，将在部门科技业务平台用户认证体系的构建上引入国产密码杂凑算法SM3。一是采用SM3哈希函数压缩用户登录密码为摘要。系统构建过程中，通常采用哈希函数压缩用户登录密码为摘要，这样既减少了数据量、固定了数据格式，又打乱了数据组合。常用的哈希算法有MD5消息摘要算法和SHA安全散列算法，设计优的哈希函数出现哈希冲突的概率很小。为了增强系统用户密码的安全性，在密码加密过程中会同步加盐，即使明文相同的用户生成的密文也不相同。二是采用JSON Web Token（JWT）对客户端Token进行编码，并采用SM3算法对包含的主体信息进行杂凑以提高安全性，进而用来传递被认证的用户身份信息，实现获取服务资源的目的。JWT是JSON风格轻量级的授权和身份认证规范，可实现对无状态、分布式的Web应用授权，生成的Token可直接用于认证，也可使用一些常见的算法对包含的主体信息进行加密，安全性较高。JWT规范标识了多种签名算法，使用过程中头部会默认指定消息签名算法HS256，消息体中会包含用户名、Token的生成时间和过期时间等非敏感类信息，创建签名时会指定使用哈希函数来进行消息认证的机制HMAC以及头部声明的算法HMACSHA256，进而实现消息完整性认证和信源身份认证。

在我国，MD5和SHA-1两种数字签名算法应用广泛，甚至是在网上银等金融业务上。随着王小云教授团队在2015年先后通过差分攻击算法攻破MD5和SHA-1，各个行业部门开始升级替换现有算法，采用SHA-256。毕竟MD5算法、SHA系列算法均为国外杂凑算法，不符合我国大力提倡的信创合规、自主可控的要求，故而科技业务平台采用国产密码算法SM3来替代国外算法SHA-256。随着国内网络安全和信息化整体水平的不断提升，密码安全和密码技术在维护国家安全、促进经济发展方面发挥着越来越重要的作用，商用密码改造已成为各行各业面临的重要任务。

SM3国产密码算法是我国具有自主知识产权的密码凑杂算法，该算法由王小云等人设计，2010年中国国家密码管理局发布。SM3哈希算法作为国产商用密码算法，适用于数字签名和验证，采用MD（Merkle-Damgard）结构，消息分组长度为512位，摘要值长度为256位。SM3是在SHA-256基础上改进实现的一种算法，其压缩函数与SHA-256压缩函数类似但设计更加复杂，可碰撞性更强，安全系数更高。SM3算法无法提供完整性保护，不能单独使用，需通过HMAC配合密钥一起使用进行消息认证。作为杂凑系列算法的SM3，同样面临差分攻击的风险。

3 用户隐私

上面提到，随着部门科技业务平台与外部省级平台的接入，系统间的数据请求将不可避免引起用户数据泄露问题。一是外部政务服务事项办理场景，需要向部门平台请求单个用户的相关数据，这类数据往往涉及电子证照，比如：某位用户是否是科技特派员；某家企业是否是高新技术企业等。二是外部数据共享交换场景，需要向部门平台请求一类用户的相关数据，这类数据往往以数据查询接口的方式提供，比如：共享某一研究方向的省外专家，而这些专家往往是科研项目评审的网评专家；共享年度内在某些细分领域立项的科研项目等。

科技业务平台用户中心可不处理具体的业务逻辑，仅需处理与用户相关的数据，通过重组业务模块来模糊业务应用间的边界，进而协调业务应用和实现，使用户通过统一展现层再切入到具体的业务。为了简化平台对用户的权限控制，可基于业务场景来优化权限模型和流程管理，因不同组织为所属用户规定并约束了业务的流转与审批流程，以及各节点不同的处置要求，应从业务需求和数据需求的角度出发，区分公众用户和管理用户，公众用户又可细分为以科技人员、科技专家为代表的“自然人用户”和以科研机构、高校、企业为代表的“组织用户”两类，组织用户不仅限于企业法人，同时还包括机关法人、事业单位法人和社会组织法人等。根据特定科技业务办理需要，自然人用户和组织用户之间需要建立关系，自然人可申请加入多个组织，不同组织赋予同一自然人不同的角色身份并进行授权管理，特定组织用户可分级授权和逐级审批种类科技业务。业务档案中，关联了科研人员的科研项目、科研产出、资质和荣誉、论文、成长指数等信息，关联了科研机构的科研项目、科技奖励、项目产出、成果转化、科研基础、经济效益、科技活动投入与产出、创新指数等信息。

4 差分隐私

为有效应对用户隐私数据泄露问题，通常有几种方式：一是数据脱敏，通过失真等降低数据敏感性。数据脱敏只是简单地删除敏感字段，其使用性较差，而且仍然存在隐私泄露隐患。二是匿名化，通过“去标识化”实现隐私保护。但是，匿名化技术不断被发现存在漏洞和缺陷，可靠性较差。三是差分隐私，通过加噪声来抵抗差分攻击。对比数据脱敏和匿名化，差分隐私具有严格的数学模型，安全性级别较高，可量化可证明，是较热门的隐私保护技术。

针对平台用户隐私泄露、数据可用性等问题，迫切需要研发高质量的隐私保护服务[1]。尽可能做到限制相对隐私数据的泄露，就是“差分”的由来，也即任何查询结果一定程度上不应该能够被用来推断某个个体的数据是否被包含在数据集中。此时，引出“相邻数据集”的概念。所谓相邻数据集，指两个数据集只相差一条记录，这条记录可以是某个用户的数据，而差分隐私则定义为相邻数据集在一定程度上不可区分。

差分隐私（Differential Privacy，简称 DP）是 Dwork在2006年针对数据库的隐私泄露问题提出的一种新的隐私定义[2]。DP技术提供了一种严格、可证明的隐私保护手段，且其保护强度不依赖于攻击者所掌握的背景知识，其是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。其原理是用算法加扰个人用户数据，使技术回溯过程无法实现，随后在无法获得原始数据的情况下对数据批量计算，输出计算结果，在获得机器学习所需的数据资源的同时，实现用户隐私数据的保护。其严格的数学定义如下：若带有定义域的随机算法M，对所有的S ⊆ Range( M)和满足的x, y ∈Nx都有：

则随机算法M是(ε , δ)-差分隐私，如果δ=0，则随机算法M是ε-差分隐私。上述定义中，概率空间由算法M给出，参数ε, δ均称为隐私保护预算，参数ε不受人为控制，参数δ可受人为控制。随着参数ε的减少，数据的隐私保护就越强，但是与此同时它的效用就越低。可以看出，数据集X在随机算法M的扰动下输出的结果属于S集合的概率，小于等于e的ε次方然后乘以数据集Y在随机算法M的扰动下输出的结果属于S集合的概率。这个结果因为变化太小导致了改变之前的数据集和改变之后的数据集对攻击者来说是无法察觉的，则说明满足差分隐私。

对于数据集和算法的组合，有以下几种情形：

（3）记A1( D1) , A2(D2) , A3( D3), . ..,Am( Dm)为一系列相互独立的差分隐私，且算法Ai( D)分别满足εi-差分隐私，这些算法组合起来满足-差分隐私，整体小于等于最大ε-差分隐私。

差分隐私技术中的常用机制是将噪声插入到查询结果中，使得数据失真或者扰乱数据。差分隐私噪声机制有拉普拉斯机制、指数机制、高斯机制等，最常用的为拉普拉斯机制。下面简单描述拉普拉斯噪声机制的敏感度、概率密度函数和差分隐私。

（1）敏感度。给定一个函数集，X和Y为邻近数据集，一个函数的l1敏感度被定义为：，查询函数的敏感度表明改变一条数据对查询操作带来的影响程序。

5 运用和展望

差分隐私保护最初的应用场景是交互式数据查询，后面逐步延伸至非交互式数据发布。上架到数据共享交换平台对外发布的数据集，比如共享的科技专家库专家信息，为了防止攻击者准确获取专家敏感数据导致泄露专家隐私，在每个真实数据值后面加上一个服从拉普拉斯分布的随机噪声。将每一条记录看作一个不相交的数据集，根据差分隐私的并行组合性质，每一条记录都符合ε差分隐私时，整体数据集也满足ε差分隐私[3]。如果一条记录有多个属性，根据差分隐私的序列组合性质，将ε隐私保护预算分为多个部分分别加到各个属性。相比于传统技术，在实现同样复杂度和效果的情况下，差分隐私的效率会比较高，但由于对于背景知识的假设过于强调，需要在查询结果中加入大量的随机化，如果数据维度较大将导致噪音过大时并覆盖原始数据，大大降低共享数据的可用性，此时，需要对高维数据进行降维。数据降维可采用主成分分析、线性判别分析技术或基于加权贝叶斯网络降维等方法，对降维后的数据添加噪音再发布[4]。除了提到的中心化差分隐私保护，在用户数据采集过程中，可以采用本地差分隐私保护。本地差分隐私是为了消除可信数据中心，而是直接在用户的数据集上做差分隐私，然后再传输到数据中心进行聚合计算，这样数据中心也无法猜测出原始数据，从而保护数据隐私。