网络空间开源威胁情报分析的人机优化策略研究*

2022-08-22陈剑锋

信息安全与通信保密 2022年7期

陈剑锋

（1.中国电子科技集团公司第三十研究所，四川成都 610041；2.中国电子科技网络信息安全有限公司，四川成都 610041）

0 引言

随着网络和信息技术的飞速发展，开源情报（Open Source Intelligence，OSINT）在战略调查分析中的价值越来越显著，情报发挥作用的方式也在不断发展丰富。开源情报借助人工智能将分散的数据痕迹聚合成高价值的知识片段，从而提供对信息所反映态势的深刻洞察和见解。网络空间开源情报（Cyberspace OSINT）是开源情报的一个子集，主要关注反映攻击者战术、技术、程序、行为、事件和其他所有对网络空间防御者有价值的要素信息。适当、高效、及时的网络空间安全威胁情报有助于识别正在发生的事件、为什么发生以及如何处理风险等相关问题[1-2]。

大数据时代，网络空间开源威胁情报的获取面临“数据爆炸”但“知识稀缺”的困境。威胁情报来源可能分散在社交网络、博客、推特、新闻网站、论坛和许多其他场所，并且来源的数量和更新频率还在持续增加。这种空前的数据量给威胁情报分析人员完成“观察—导向—分析—输出”的工作流程带来了前所未有的困难[3]。当数据量和数据关联关系构成的复杂性超出他们的理解和控制范围时，就会引发认知危机，主要体现在以下4 个方面。

一是威胁情报的可信度值得怀疑。任何安全研究人员、用户、黑客或政府雇员都可以在互联网上发布任何内容，他们的学术背景、判断、信仰或意图不同，这些内容的质量无法得到保证。当情报分析师缺乏有效的方式来区分伪造数据和真实信息，特别是通过网络爬虫或数据库下载的方式在短时间内获取大量此类数据时更是如此。

二是无法保证情报的完整性和一致性。威胁情报生成可能有多种渠道或来源，包括人类专家、设备或自动响应程序等，它们可能没有明确的组织、目标或管理目的。因此，分析师所能获得的关于某个主题的信息总是以一种断断续续的、碎片化的和矛盾的方式出现，很难从这些混乱的数据中得出有意义的答案。

三是分析过程的随机性和不确定性。情报分析是分析人员通过系统、细致的思维活动对情报信息进行分析和处理，洞察对手的真实意图、预测发展趋势的过程。分析过程除需要大量的情报信息外，还需要专业的分析技能、专业的分析工具和严谨的推理逻辑，这些都与分析人员的个人经历密切相关。不同分析人员在面对相同的材料时，甚至有可能得出完全相反的结论。

四是预测的准确性难以令人满意。情报收集不当、数据支持不够、分析判断失误、思维僵化等都可能导致最终研究判断结果出现偏差和错误。尤其是在开源威胁情报研究中，分析人员总是只能掌握部分信息，即使是理性严谨的分析，也容易因认知鸿沟、信息非对称、观点偏见等导致错误的发生。

上述4 个难题无法通过简单提升算力、改进算法和扩充存储力解决，更快的计算效率、更强的识别水平和更宽裕的存储空间能够缓解资源不足的局面，但“人在环路”依然是开源情报分析的重要前提和关键特征[4]。加强人机合作，基于人的灵感、直觉、敏感性和宏观把握能力，以及计算机的高速计算、存储、通信能力，能够真正在开源威胁情报分析领域提高准确性、洞察力和效率，从网络空间观测结果的蛛丝马迹中提取关于攻击者、攻击行为和攻击意图的重要信息。一旦人机之间能够形成顺畅的知识交换和共享途径，建立自主智能的分析迭代循环，这一混合智能系统必能在对抗网络空间攻击者时获得巨大优势。

1 网络空间开源威胁情报分析需求

网络空间是开源情报的重要来源，网络安全是开源情报实践的典型领域。根据Gartner 公司的定义，开源网络威胁情报是一种基于证据的判断和预告，是一种包含漏洞、威胁、特征、名单、属性、解决建议等多种内容的动态更新的知识载体，个体和组织从公开渠道的安全组织、机构中获得的预警通告、漏洞通告、威胁通告等都属于典型的开源安全威胁情报。开源情报具有风险描述、价值载体和人机工程3 个维度的特征和作用。

1.1 作为风险描述的开源情报

将安全威胁信息开源情报化，是在新的威胁形式和风险场景下，网络空间防御思路从过去的基于漏洞为中心的方法，进化成基于威胁为中心的方法，发挥集体智慧共同守护安全的必然选择。威胁情报可以为态势感知、早期预警和应急响应服务，使防御者不仅能了解到“已经发生了什么”“正在发生什么”，还能够以高置信率推断出“还将发生什么”，因而和零信任、弹性防御、风险管理、网络安全网格等思想一并催生了新一代的安全体系架构。

1.2 作为价值载体的开源情报

情报的本质是减少信息冲突的不确定性，在网络空间对抗领域，情报的含义引申为对攻击一方或防御一方有利的任何信息。这些情报可以是机读的结构化数据，也可以是供决策层使用的报告；可以是已经发生的安全攻击的情况，也可以是对未来威胁态势的预测。开源威胁情报的内容通常对防守方组织实施防御行为具有积极的指导意义，是网络空间防御者工具箱中的有力武器。

开源威胁情报代表了一类具有明确指向性的“外部知识”。网络空间广泛的连通性使得攻击者能够从地球上任何一个角落光速发起恶意行动。攻击者在入侵后、造成破坏之前留给防御者反应的时间窗口极为短暂，防御者必须在这个窗口内完成识别、决策、响应动作才能避免损失。在这种情况下，外部安全信息的获取和共享将能够辅助防御者进行更高层级的分析、展现和决策，为其增加前瞻性、主动性与弹性的优势，并使相关责任者更清晰地认识到信息与事件如何影响使命以及任务。

1.3 作为人机工程的开源情报

开源情报传统意义上是以人的经验和智慧为先导的新知识、新动向和新观点的启发性研究。随着媒介技术手段的不断进步，人类进入了信息爆炸的时代，传统开源情报范式倡导的“剪刀+浆糊+放大镜”的劳动力密集模式已不再适应时代要求，互联网和社交平台上充斥着海量的开源信息和数据，互联网的快速普及以及科技日新月异的发展为开源情报范式的复兴和升级带来了新的机遇。

开源情报的新生态是由人类智能和机器智能交互融合实现的，人类智能体现为分布在全球的情报开发者与使用者根据需要生产与消费产品，机器智能体现为通过提供多样化的算法、软件和工具，支持人们在情报领域更好地进行开发、协作和使用，并且这种能力可以通过自主学习不断增强。通过个体知识的汇聚、面向任务角度的宏观与微观调控，人类智能和机器智能可以相互协作、补充，向群体混合智能发展。更复杂的算法、更精巧的工具、更全面的数据和更密切的人机协同，都将大大提升网络空间领域情报挖掘的数量、质量和效率。

2 网络空间开源威胁情报应用模型

为了提升开源情报分析的可扩展性、容量、灵活性和协作水平，探索人机之间的理想分工和协作方式，需要更加精确、有效地刻画威胁情报分析中的人机关系。

杀伤链原指打击军事目标时，由相互依存的环节组成的有序链条。网络空间杀伤链由洛克希德·马丁公司借鉴查找—修复—跟踪—瞄准—参与—评估（Find,Fix,Track,Target,Engage and Assess，F2T2EA）作战思想，结合对大量网络攻击，特别是APT 类攻击案例的分析成果而提出，表述了一个恶意团体如何入侵受害公司以打破边界、窃取数据和破坏服务的整个过程[5]。杀伤链的准备阶段、入侵阶段和回报阶段包括侦察、武器化、装载、利用、安装、指控与破坏6 个步骤。与此同时，安全从业者建立了防御链阻止攻击者开展进一步入侵。防御链由监测、保护、检测、响应、恢复和验证6个相互依存的步骤构成。通过将威胁情报分析中的多方工作流程扩展为“杀伤链”“防御链”两个环路和相应的连接关系，构成如图1 所示的动态模型。

网络空间安全的本质是对抗，对抗的本质是攻防两端的较量。在模型中，较量的焦点是攻击者和防御者之间基于威胁情报的技术和信息平衡。图中“杀伤链”“防御链”的共同作用目标是企业数据资产、资源或服务所在的互联网或内网。防御者先于攻击者获取的威胁情报，能够帮助防御者了解有关攻击的战法、技术和工具，预先部署相应的措施，可以更好地保护其资产免受入侵。在攻击者发起入侵后，由于防御者已经做好了预先准备，攻击过程中所有的痕迹、路径、工具和策略都将被记录并转换为威胁情报格式，从而能够共享给安全社区、专业公司或其他企业，这种“一点发现，全局设防”的能力使得未来攻击者难以通过已使用过的手段达成新的攻击效果。

3 网络空间开源威胁情报分析人机优化策略

随着网络空间开源情报来源、类型的不断拓展，在情报处理中人机之间的关系由于数据量的增长和内容的丰富而变得愈加复杂。为了优化网络空间人机分工，促进威胁情报更好地生成、共享和使用，提出人机协作视图，依据是否需要思考类技能，以及是否需要借助直觉性思维的标准，将人机合作的类型划分为“机器优先”“人类辅助机器”“机器辅助人类”“人类优先”4 个不同的象限，分别指派不同的工作优化策略，并对每一象限的人机工作优化策略进行阐述和分析[6]。

如图2 所示，4 个象限中人-机在协同工作中的参与度、贡献度具有显著区别。“机器优先”象限中，机器可以自动从互联网上的公开和隐秘渠道收集信息，并定期进行相应更新；“人类辅助机器”象限中，人们将利用他们的知识和直觉，在信息融合过程中分析机器难以处理的异构数据；“机器辅助人类”象限中，机器可以快速浏览并处理大量数据，对即将到来的威胁和近似的近期或长期安全情况给出分类建议，作为人类预测任务的重要参考信息；“人类优先”象限中，为了获得准确的判断和决策用以指导行动，人类将在情报产品的综合分析中充分发挥其主观能动性。

3.1 “机器优先”象限

莫拉维克悖论指出，实现人类难以解决的问题只需要非常少的计算能力，而实现人类无意识的技能和感知却需要极大的运算能力。这个悖论反映了图灵机在其独特能力方面的局限性。说明计算机的记忆力和计算能力是人类无法企及的，人类的直觉和洞察力也是计算机无法比拟的。

针对技术文章、暗网论坛、社交媒体、网站信息等不同的开源信息平台，通过动态爬虫、检测更新等方式获取威胁情报的基本信息是一种高度计算机化的行为活动。爬虫主要采用远程探测和下载技术，尽可能多地收集目标源上的相关信息；信息预处理主要使用文本处理方法去除数据流中不相关的信息；信息转换模块采用结构化转换、异常值处理和属性分析等技术；信息分析主要使用命名实体识别结合机器学习分类方法，如通过支持向量机（Support Vector Machine，SVM）、逻辑回归、随机森林和朴素贝叶斯等方法进行主题分类和目标表征，基于计算机视觉算法来识别动态视频和图像中的对象。此外，还可以根据技术类型、威胁风险、实体对象、组织单位或攻击者手法建立主题数据库，过滤掉与威胁指标无关的非安全和非结构化信息。在统一数据的语法和语义之后，可以利用机器威胁情报生成等应用获取目标实体关系，根据实际需要，转换为OpenIOC[7]、STIX[8]等标准化开源威胁情报格式。

3.2 “人类辅助机器”象限

威胁情报领域的信息融合是对获取的多源原始信息进行整合、提炼，并经过预处理，形成与主题内容或应用场景相关的高可用信息的过程。这个过程前半部分的规则性、事务性和流程性工作可交由机器完成；但较为核心的后半部分涉及信息的语义差别、上下文的干预以及场景应用方向等影响性条件，当前机器还无法有效处理这些因素，需要人作为辅助要素参与进来，进而提高分析过程和结论导出的相关性和准确性。

人机结合的开源威胁情报的融合和一致性分析通常使用本体构建技术、循环神经网络（Recurrent Neural Network，RNN）和长短期记忆神经网络（Long Short-Term Memory，LSTM）进行训练，以此快速识别威胁情报数据中所包含的内容，同时机器根据分析者的搜索历史和个人喜好对内容进行针对性的分类、汇总和判断。威胁情报本身的多重关联概念与基于图的数据结构相吻合。因此，在智能融合过程中引入知识图谱技术，依托专家的知识构建基于本体的全局知识结构，能够基于数据中属性的层次关系预测实体之间的潜在关系，从海量警报事件中找出所关注的网络攻击，推断网络空间攻击的隐藏威胁，为更好地识别安全操作提供方法和策略，进而提高在特定场景下进行威胁分析任务的能力。另外，人类也可以辅助机器对开源威胁情报的质量和可信度进行评估，主要包括定性、定量和关联性指标评估等方面。

3.3 “机器辅助人类”象限

在完成了情报整合和数据重组之后，威胁情报分析将进入深度挖掘与研判阶段。综合利用杀伤链模型、钻石模型或异构信息网络能量模型，结合现有开源威胁情报和不同应用场景的实时流量数据，人类威胁情报分析员可以凭借颠覆性的人工智能，融合中央处理器（Central Processing Unit，CPU）与图形处理器（Graphics Processing Unit，GPU）的混合算力和近乎无限的云存储能力，快速获取、集成、利用和可视化相关信息范围内的高质量数据，对威胁进行深度关联、碰撞和分析操作，提升高级持续性威胁（Advanced Persistent Threat，APT）类隐匿程度高、潜伏时间长、可观察痕迹少的攻击行为的发现能力。

在现阶段威胁情报深度研判的人机分工中，机器的作用在于根据网络流量、主机行为、用户操作等历史数据或训练数据建立正常模型即“基线模型”，投入运行后，当模型的基准指标出现偏离时发出警告。然而，由于攻击方式不断变化和更新，系统的异常特征“负样本”难以穷举覆盖，不能完全依赖机器对网络安全警告或事件通知进行的关于“攻击表征”的计算判决，此阶段异常的最终确认和闭环报告应该交由网络安全专业分析员完成。

3.4 “人类优先”象限

人类相对于机器的优势主要在于对趋势的判断、把握和预测。熟练掌握人工智能和开源情报技能的安全分析师，能够基于对领域知识和历史背景的了解来审视攻击步骤、还原攻击行为、洞察攻击意图，进而对攻击者下一步将要执行的活动和操作进行预测。虽然与机器相比，海量情报和数据流的组织、关联和理解超出了人类大脑的计算和存储容量极限，但分析师通常具有敏锐的直觉、对细节的好奇心、对攻击的预感和对隐藏在幕后的攻击者的驱动因素、意图及动机的把握。

尽管在不久的将来，人工智能有望通过消化分析大量典型的APT组织和常见的攻击方法，从而具备在开源情报中进行特定类型的预测分析。通过建立多个风险特征与可能事件之间的对应关系的能力，从而在识别攻击主体、反演攻击方法、恢复攻击路径等方面取得实际进展。但是，对所有的网络安全事件和态势进行综合研判，做出处置和响应的最终决定，在短期内仍然是人类的重要责任和使命。

4 结语

网络空间威胁情报是数据科学与人机协同联合应用的典型领域，能够有效解决网络空间防御实践中的攻防力量不对等、优势非对称、信息不透明等难题。人类专家能够利用数据、计算和人工智能工具，基于形式化建模和推理能力来监测和预测破坏性事件，根据已知威胁属性变量对相似的未知属性变量进行判断，从而提升网络安全能力覆盖的深度和广度。在未来的发展中，人机联合威胁情报分析还将面临巨大的机遇和挑战，必须通过持续的研究和创新，在机器不断提升的洞察力和人类越来越稀缺的注意力和精力之间取得平衡，在不断提高的计算能力、算法和高质量数据的基础上实现更好的威胁情报处理性能，从而为网络空间攻防实践提供“知识化”解决方案。