基于用户画像的档案信息资源共享平台安全策略研究

2022-02-11黄小淋安林昊

北京档案 2022年1期

黄小淋安林昊

摘要：本文论述了构建用户画像的流程及如何根据用户画像设置风险预警，建议档案馆基于用户画像，构建以保护用户隐私为基础的服务理念、以数据为导向的反馈优化机制、以技术为支撑的创新策略迭代机制，从而组合成共享平台安全策略，实现档案用户对档案信息资源的安全、有效利用。

关键词：用户画像档案信息共享平台安全策略

2021年，中共中央办公厅、国务院办公厅印发的《“十四五”全国档案事业发展规划》对档案安全体系建设做出了明确要求，强调提升档案数字资源安全管理能力，要从档案信息安全和软硬件环境安全保障、风险管理和应急处置等多个方面，筑牢档案服务利用的安全防线。随着各类档案馆信息资源共享平台等共享资源基础设施的建设，平台安全策略的有效配置将是保障档案资源处于安全利用环境下的一道防线。本文提出利用用户画像技术，在搜集、分析用户利用档案的类别、频次等行为信息的基础上，整合多维度用户行为特征，抽象出构成复杂的、标签化的用户模型，[1]从而有效识别普通档案用户利用特征，并对不正常的利用行为进行预警。

基于用户画像的安全策略构建思路是按照时间、业务等维度，关联主体行为状态，将用户属性转换为计算机可识别的、可理解的、可处理的数据格式，对用户行为实施精准、实时的统计与审计，设计分析逻辑并推断出非正常状态，从而实现预警功能。因此，用户画像的生成需要经过以下三个步骤：档案用户行为分析与数据采集、构建档案用户标签、档案用户画像可视化呈现。

（一）档案用户行为分析与数据采集

档案用户行为是用户在自身产生档案信息资源需求基础上做出的使用档案信息资源服务平台获得信息资源的意愿，以及由此引起的各种使用活动的总和。通常来说，不同类别档案用户产生的用户行为不同，因此我们需区别分析。如查档用户行为主要是查询、浏览、下载、打印等，服务利用接待人员行为主要是查询、浏览、授权、下载、打印等，档案部门领导行为则是在上述行为基础上加入审批、管理等行为。基于以上行为分析，用户数据采集类别一般可总结为两类：用户静态数据与用户动态数据。用户静态数据统计来源于数据库中用户的注册信息，动态数据则来源于用户查询、利用档案时多节点产生的行为数据。系统会实时对用户静态数据及动态数据进行采集、统计，而后基于用户的基本属性和行为数据将用户画像标签化，以建立用户标签体系。

平台对用户注册信息及网页日志数据进行采集后，通常需对数据进行预处理，通过标准化配置对数据源进行类型划分，从而将日志格式进行统一转化、分类，并根据划分后的数据类型进行过滤、归并、补全等操作，形成结构化数据，以完成数据筛选及特征抽取工作。这里的常用方法包括统计分析、文本挖掘（ TFIDF、LDA）、分类聚类计算（神经网络、K-means）等。档案用户画像数据结构图如图1所示。

（二）构建档案用户标签

这一步骤是指在收集用户数据的基础上，基于用户行为逻辑，建立用户属性维度，通过对属性内容的组合进行建模，刻画用户异常行为模型，从而生成用户标签，实现档案用户异常行为的识别。

1.档案用户画像模型。档案用户在应用档案信息服务平台过程中，将产生用户基本信息数据和行为数据。由于平台用户人员类别不同，这里所产生的行为数据通常具有较大差别。因此，平台需对不同用户角色的行为数据进行区别分析。基于此，本文提出从用户基础属性维度、角色属性维度及行为属性维度，构建档案用户模型。

对于基础属性维度项数据，我们可通过用户注册信息表进行抽取，抽取元素通常包含用户姓名、单位、预授权限、查档需求（目的）等数据内容。对于角色属性维度项数据，我们主要根据用户在注册时所填写的人员所属类别得到，比如部门领导、服务利用接待人员、查档用户等。对于行为属性维度项数据，我们可通过对用户日志中产生的动态半结构化数据和非结构化数据进行挖掘而获得，[2]比如档案敏感词查询、点击、浏览阅读时间等数据。

2.生成档案用户标签。档案用户标签包含用户正常行为、用户非正常行为两种标签。档案用户标签生成流程如图2所示，重点在模型层。在模型层，平台采用孤立森林（iForest）等机器学习算法，挖掘异常数据，对用户行为过程进行概率分析，进行训练数据的学习模型训练，生成训练模型。而后，平台通过对测试模型中用户行为特征的匹配、筛选、识别用户异常行为，判定是否符合测试模型行为，进而生成档案用户标签。

（三）档案用户画像可视化呈现

进行档案用户画像可视化呈现，是为了更生动地展示和分析用户行为。这一步骤是在提取用户标签数据后，利用数据可视化技术，通过直方图、雷达图等统计图形及多维度多层级标签，直观地以动态图谱形式展示出用户画像和模型验证的对应结果。在用户画像管理模块，管理人员可根据近期预警情况和用户反馈情况，优化数据搜集类别及分析结果的排序、展现方式，实现图谱展示内容的自定义调整和完善。用户画像管理模块可包含用户访问记录展示、用户行为统计分析界面、行为特征库提取界面、异常行为报警界面等。[3]

（一）档案用户风险行为

由于不同类型的档案用户在平台上的档案利用行为有所区别，因此平台对用户风险行为的判断应与角色属性识别相结合。例如，部门领导通常做审批工作居多，具體查档工作相比较于服务利用接待人员较少，若某段时间，部门领导查档频次多、频率极高，则可能产生风险行为；服务利用接待人员若在工作时间外进行查档的在线时间超过设定时间范围，则可能产生风险行为；所有档案用户查询敏感词数量及频次较高，例如30分钟内查询敏感词次数超过5次等，或是反馈评价内容情感表现负面程度较深、使用敏感词汇较多，则可能产生风险行为。

在风险行为分析过程中，平台应加入聚类分析方法，对比待分析用户的行为是否偏离具有相同角色的用户整体的行为，以减少异常检测中虚警过高的问题，从而在相同用户角色的角度进一步分析异常行为，提高异常判断的置信度。另外，平台可结合百度AI开放平台情感倾向分析接口（BaiduNLP）进行用户评价的情感分析，判断用户情绪风险；还可利用华为云内容检测语料库对敏感词库进行扩充，[4]并标记敏感词权重，以权重降序记录权重较高敏感词出现的频率。

（二）根据风险行为设置风险预警

平台应根据异常行为次数与用户角色属性中业务节点维度的属性阈值偏离程度、异常行为权重排序等异常行为事件与异常事件规则的匹配度来判定是否属于异常行为，并进行风险预警。

平台根据异常的程度，记录异常情况的影响性排序，对于容易产生重大不良影响的行为，判定为高风险行为，给予实时警告，并限制用户暂时访问平台，待平台管理人员审核，做出解除限制或继续限制的操作，再恢复或永久限制用户权限。对于用户的一般敏感情形，平台可判定为低风险行为，记录用户行为信息，并提示平台管理人员审核、判定用户行为后，进行手动处理。平台技术人员应定期对风险预警数据进行模型分析，并将该模型作为机器学习的数据源。

（一）构建以保护用户隐私为基础的服务理念

平台数据及运行的安全，是保障档案数据资源能够被有效利用和精准为用户服务的基础。基于用户画像构建安全策略需要档案馆通过平台深度掌握用户动向，构建档案利用态势展示平台，用于动态展示利用数据、监控用户访问和利用行为，但在用户画像数据抽取、分析等一系列过程中，很容易造成用户隐私数据的泄露。因此，档案馆一是应当加强对用户数据的维护，避免数据的流失、损坏、泄露，配套建立相关的用户数据隐私保护法规体系，识别技术应用的算法风险，规范算法应用行为，[5]在用户画像建模过程中融入隐私保护相关技术，如通过进行用户数据脱敏、建立隐藏式标签等方式实现用户敏感数据隐藏[6]；二是应当注重提高档案工作人员的职业道德素养。在构建及利用档案用户画像过程中，平台管理及相关专业技术人员通常是用户数据的“知晓者”“处理者”和“监管者”，因此增强档案工作人员的安全保密意识，使其养成良好的工作行为习惯尤为必要。对于此，档案馆可定期组织或参与行业内有关档案职业道德和职业素养的培训，并进行相关考核，依法惩处窃取隐私的行为，全力保障档案用户数据的内部使用安全，[7]营造健康、可靠的档案资源共享环境。

（二）以数据为导向建立反馈优化机制

不同阶段的用户行为数据常常出现不同特征。例如，在建党百年之际，用户查询、利用党史相关档案资料的数量会激增，一些非正常利用者可能会借此数据量激增时机，获取敏感档案资料，档案馆应当定期借助反馈机制全面监测、分析用户行为变化趋势，对不同阶段的用户行为数据进行分析对比，及时调整数据搜集维度，优化用户画像本体模型，不断完善用户画像标签类别和内容。

档案馆在构建“获取数据、察觉问题、提交反馈、优化模型”的用户画像优化反馈机制时，可以突破各类平台安全防御壁垒，避免用户“钻空子”的查询行为，同时也能为安全策略优化升级提供有效向导。

（三）以技术为支撑创新策略迭代机制

策略的生成通常不是一次性的过程，而需通过长期的积累和不断地更新迭代。[8]从用户画像数据分析来看，数据包含初始数据和增量数据两种类型，初始数据通常可能会出现无效、不规律、不具备规模数量的情况，而策略在实现过程中需要对大量数据进行聚类，采用迭代方式对不断更新的增量数据进行自动学习，从而发现各类信息峰谷值，并将这些信息作为策略生成的主要依据。因此，在迭代学习过程中，策略会被不断更新，当策略被管理人员检测为高命中率的策略时，该策略可成为生效或成为优化策略的一类。

用户画像策略的构建不仅需要运用有效、合适的算法进行聚类等计算，更要依靠大数据等技术的支持，来实现关联数据等的分析。传统上基于用户画像的分析技术主要包括以Python技术为主的数据挖掘技术、以神经网络模型等算法为主的数据分析技术等。随着人工智能的发展，“AI机器学习”等算法不断被应用于个性化推荐等领域，因此，通过应用AI技术不断学习、优化用户画像模型，学习和推断用户行为，可作为档案信息资源共享平台安全策略研究内容的新方向。

近年来，档案信息资源共享平台发展迅速，但目前国内所拥有的技术、设备还依然有很大的改进空间。此外，随着大数据时代的发展，网络、人员失泄密事件时有发生，人员教育主动性及其安全意识还未达到标准要求，档案资源开放、共享还存在着一定的安全风险。为此，参与档案信息资源平台建设的各方人员务必在已有条件的基础上树立安全、责任意识，不断总结经验，谋求合理、可行的安全策略，[9]为档案信息资源的共享保驾护航。

注释及参考文献：

[1]赵晨阳，苗立俐，李萌.用户画像技术在用电安全服务中的应用[J].大众用电，2019， 34（3）：16-17.

[2]许鹏程，毕强，张晗，等.数据驱动下数字图书馆用户画像模型构建[J].图书情报工作， 2019（3）：30-37.

[3]雷璟.用户行为特征提取及安全预警建模技术[J].中国电子科学研究院学报，2019， 14（4）：368-372.

[4]金燕，孙佳佳.基于用戶画像的UGC质量预判模型[J].情报理论与实践，2019，42（10）：77-83.

[5]于英香，李雨欣.“AI+档案”应用的算法风险与治理路径探析[J].北京档案，2021（10）：5-9.

[6]苏君华，邵亚伟，姜璐.用户画像运用于档案馆精准服务：现状，业务流程及策略[J].档案学研究， 2020（6）：94-98.

[7]周林兴，徐承来，周丽.用户画像视域下档案用户隐私问题研究[J].档案学研究， 2020， 173（2）：60-66.

[8]欧阳帆，张月天.一种基于用户行为画像的安全审计系统[J].信息通信，2018（11）：107-108.

[9]胡树煜，孙士宏，金丹.大数据时代档案信息资源共享平台安全策略研究[J].兰台世界， 2016（2）：5-7.

作者单位：解放军档案馆