融合科研创新的密码学开放实验设计

2021-06-23田有亮

科技视界 2021年14期

周洲田有亮杨楠郭春牛坤

（1.贵州大学计算机科学与技术学院，贵州贵阳 550025；2.黔南民族师范学院，贵州都匀 558000）

0 引言

物联网、人工智能、移动设备等的快速发展带来了数据爆炸式增长，大数据蕴含的巨大价值得到了各行各业的青睐。然而，我们社交、购物、办公产生的数据却在不经意间被搜集、被挖掘和分析，用户个人数据因此变得“透明化”，一旦发生信息泄露，用户个人信息将被暴露得一览无余，隐私（如消费行为、位置记录和网络访问轨迹等）遭到严重侵犯[1,2]。因此，如何在充分利用大数据的同时不泄露用户的隐私，是大数据技术发展的关键问题。早在2014 年2 月27 日，中央网络安全和信息化领导小组宣告成立，并提出“没有网络安全就没有国家安全”，可见，数据安全早已上升到国家战略层面。如果隐私需求得不到保障，用户将不愿意共享数据进行分析，因此，保障大数据安全已是一个迫在眉睫的问题，而保障数据安全最基本的方式就是利用密码技术，对敏感数据进行隐私保护。

现代密码学课程作为贵州大学信息安全专业本科、硕士研究生培养的核心专业课程，内容涵盖流密码、对称密码、公钥密码、密钥管理、消息认证、数字签名、安全协议设计、密码分析等内容，贯穿当前数据安全与隐私保护主流研究体系内容。特别是在信息安全问题频发，网络空间安全上升为国家战略、强调自主可控的网络时代，数据安全与隐私问题逐渐成为信息化发展的关键问题，区块链、数据安全共享与交换、数据可信获取与确权、人工智能安全等诸多重要而又棘手的前沿理论与技术研究更是离不开密码学基础。本开放实验旨在紧跟该专业“服务国家和大数据发展战略”的定位、立足国家网络安全顶层设计与国情、瞄准前沿方向，构建以巩固密码学理论知识、解决数据安全实际问题为目标的开放实验设计体系，为突破大数据安全与隐私保护领域的重难点问题奠定坚实基础。

1 实验设计背景及意义

一方面，大数据时代的安全保护也对密码技术提出了新的要求：一是密码技术如何适应大数据的特性，使处理大数据具有良好的扩展性和效率；二是在保护数据安全的基础上仍然能对数据进行分析和挖掘。尽管学者们就上述问题提出了相关研究方案，但在准确率、安全代价及效率等方面没有达到最优，因此结合密文检索、人工智能[3]等新型技术进行密码实践研究和探索成为必要。

另一方面，实践教学是高校培养应用型人才的重要组成部分，传统的实验教学大多属验证性实验[4,5]，以实验指导书为参考，照搬式的实验方式不仅无法让学生体会理论、实验、应用三者融合的方法，而且缺乏灵动性，无法激发学生的学习热情，领会密码学在解决信息安全问题的作用，不利于学生思考和创新，提升科研能力[6]。

现代密码学开放实验课程拟补充教学实验的不足，聚焦数据安全热点，分析信息安全领域重点难点，从思想站位、理论应用、关键问题思考、方案设计、技术攻关等多角度出发，培养学生“融会贯通、学以致用”。

2 实验设计

本设计针对加密云存储的密文检索问题和机器学习数据安全问题，重点考虑支持代理权更新的密文检索技术和基于密码技术的联邦学习方法的探索和实践，通过数学困难问题、安全多方计算等密码学理论，解决云安全存储的访问控制和机器学习的用户隐私保护难题。

2.1 支持代理权更新的密文检索技术研究

2.1.1 实验目的和要求

（1）掌握公钥密码体制、双线性映射原理和相关性质。

（2）掌握密文检索的安全模型和安全分析方法。

（3）理解安全协议构造关键点和步骤，明确系统建模思路。

（4）掌握密码算法包的使用，熟练应用相关编程语言。

2.1.2 实验原理

在云端存储密文的同时，也存储与之对应的搜索关键字形成的加密索引；用户要查询文档，需获得相应权限，并利用该权限和待搜索关键字生成查询令牌发送到云端；云端强大的计算能力足以快速查询匹配，将满足条件的密文集合反馈给查询用户。基于问题导向，构造系统模型。该系统由代理服务器P、云服务器S、数据拥有者、数据查询者组成，文件基于倒排索引进行存储。数据拥有者抽取文件关键字产生索引，随加密文档上传给代理服务器P。代理服务器P 由服务购买者或第三方提供，完成索引陷门的重加密和索引搜索标识，与服务器S 进行关联，产生索引列表，并接受合法用户的查询请求；云服务器主要完成对密文的存放和接受代理服务器P 的查询请求；任意具备访问权限的用户可生成查询令牌向代理P 申请文件查询。其中，服务器S 和代理服务器P 是诚实而好奇的，它们会忠实执行协议，但会分析已获得数据进行挖掘分析，每个用户既是数据拥有者，也可是数据查询。

2.1.3 实验内容

本题目的任务是根据安全目标构造访问策略和安全模型，基于密码算法设计一种满足需求的可搜索加密方案并实现。一个支持代理权更新的可搜索加密系统由4 个阶段构成，分别为初始化设置、数据加密、查询陷门生成和检索及代理权限转移。其中，初始化阶段包括系统参数设置、用户密钥生成和访问授权；数据加密阶段由代理P 和服务器S 三者交互，完成索引生成、文档加密密钥生成和文档加密及安全存储；在查询陷门生成和检索阶段，查询用户生成搜索令牌向代理P 请求查询，P 根据权限验证结果确定是否进行密文返回；在代理权限转移阶段，当代理P 预将数据的代理权限转移给Pi+1，则由P，Pi+1，S 执行权限转移协议。

基于该任务，完成如下工作：

（1）综述可搜索加密技术的研究的现状，并进行分类总结。

（2）针对数据拥有者、数据访问者和云数据库服务器，讨论密文检索的安全访问策略和模型，以此为基础，基于双线性映射和对称密码设计一种可行的密文检索方案。

（3）从数据机密性、前后向安全性、搜索模式安全性等角度分析构建敌手模型，分析方案安全性。

（4）基于提出的理论模型和方案，设计和开发可搜索加密系统，并进行系统测试和性能分析。

2.2 基于密码技术的联邦学习框架设计与实现

2.2.1 实验目的和要求

（1）掌握安全多方计算思想，熟练应用机器学习算法。

（2）掌握秘密分享思想及常用的密码分享方案。

（3）理解联邦学习提出背景和安全模型，了解联邦学习常用方法。

（4）掌握密码算法与机器学习算法融合的机理和实现方法。

2.2.2 实验原理

针对传统机器学习因数据收集困难、数据隐私需求的不断提高而引发的受限发展问题，谷歌率先提出了联邦学习框架，使双方或多方的数据使用实体在合作当中数据不出本地也能共同使用，解决数据孤岛问题和隐私安全问题。在该模型中，各参与方保留本地数据训练模型，将各自模型参数利用新型密码技术传输给一聚合服务器，服务器完成参数聚合后返回新的参数至各参与方，如此迭代至收敛。在联邦机制下，各参与方身份和地位彼此相同，保证数据不出本地、利用加密机制实现参数交换，建立虚拟共有模型，且虚拟模型同传统模型下将数据聚合训练出的最优模型一致。

一是将秘密分享与同态密码体制结果，构造一种门限数据聚合方案，在支持用户退出的同时能完成参数的安全聚合。二是利用随机生成器，结合签密思想，构造一种支持用户验证聚合数据的联邦学习框架，以解决数据被伪造等问题。通过真实数据集完成安全的联邦学习训练和测试，并与当前同类型方案从安全性、计算量、通信量等方面进行比较。三是基于博弈论构造激励机制，激励理性用户贡献优质数据参与训练。

2.2.3 实验内容

当前联邦学习仍面临着推断攻击、数据泄露、病毒攻击等安全问题。通过分析多应用场景的联邦学习应用模式，设计系统模型和安全模型，综合考虑数据隐私保护、门限聚合、可验证等属性，针对具体的机器学习算法提出联邦学习框架，并完成模拟实验。可从如下几个方面选其一进行研究。

（1）基于安全多方计算和同态加密的联邦学习模型研究

针对应用场景数据特点，选定一类机器学习算法，利用安全多方计算完成共同用户群体的确认；利用同态加密实现加密参数的聚合，实现多方共同参与训练并安全有效地上传模型参数。

（2）支持可验证、满足前后向安全的联邦学习模型研究

根据相关隐私保护条例，当参与用户退出后，其提供的参数将不能继续被使用，这就引发了联邦学习前后向安全问题。因而研究支持用户退出的、满足在线用户验证聚合参数的正确性的联邦学习框架成为必然。

（3）基于博弈论的联邦学习激励机制研究

如何最大化地激励参与方利用高质量的数据参与训练，并且诚实地执行协议是联邦学习顺利进行的必要条件。基于信誉值的高低选取模型参与者，引入区块链进行信誉计算和管理，并利用激励机制和博弈理论完成模型优化。

3 实验过程管控与考核

该开放实验涉及知识面校广，不仅要求学生具备完备的密码知识体系，而且对于算法分析与设计、机器学习及软件开发具有较高的要求，适用于学生拔高练习和培养科研创新能力。因此，该类开放实验将以小组为单位、分工协作完成。拟定研发周期为3 个月，包含前期调研、科学问题提炼、研究内容规划、技术方案构思、安全分析与性能分析、应用实践等环节，围绕以下几点进行实验教学和指导，以推进学习进度：

（1）一是从网络空间安全的重难点问题，概览整体章节知识体系，让研究生沿着 “问题—应用建模与方案—理论知识点”的主线度清晰把控密码学知识。

（2）带领学生分析任务需求，从关键问题抛出科学问题，引导学生分工，就某个核心问题进行自主探究式学习，帮助小组从整体理解相关算法、协议的原理和构造思路，通过问题导向促进活学活用，培养其科研能力。

（3）以讨研式教学贯穿整个设计过程，构建以学生为主体、教师为客体的探讨式学习，一方面按知识结构划分模块、指定研究生调研并讲解，另一方面由教师补充延伸。

本开放设计摆脱唯文档的表面考核形式，通过任务驱动建立考评机制，重点考查研究生对知识点的全局把控情况、融会贯通与实践应用程度，以及剖析问题和解决问题的能力，融合多元化考核方式，制定“研讨活跃度+理论创新+应用性+答辩展示效果” 的考核机制。其中，研讨活跃度重点考查学生的学习积极性、主观能力性，理论创新考查学生攻克问题和举一反三的能力，应用性考查学生将理论成果进行实践转化的能力，最后学生将通过答辩展示汇报工作，以锻炼表述能力和文档写作能力。