算网感知能力与关键技术研究

2023-12-15蔡旭辉董晓荔赵宇顾明杨海冯圆媛周逸飞

中国信息化 2023年11期

文｜蔡旭辉董晓荔赵宇顾明杨海冯圆媛周逸飞

一、算网感知概述

在当前数据经济时代，算力已成为一种新型生产力，为各行各业实现数字化转型提供动力。在应对当前社会大量信息处理的挑战下，算力网络将全网内各方的算力通过网络进行汇聚从而更方便地进行管理和调度，进而为各类用户提供服务。算力网络的发展趋势是将多方算力和网络进行融合，逐步形成算网一体化的过程。

算网感知是算网一体的前提，通过打通网络领域、计算领域、应用领域的信息边界，为进一步协同、调度、融合提供基础。算网感知包括算力感知、网络感知、应用感知及多维资源协同感知，感知的数据包括算网性能数据、告警数据、日志等，资源数据包括算网各域物力资源、逻辑资源信息以及编排中心已有业务实例的资源信息。

当前各领域内都有相对成熟的数据感知体系，并且长时间独立发展，自成一派，暂未打通融合。算力网络中缺少统一、全局性的算网状态实时采集、感知、呈现能力；亟须构建算网感知能力，逐步融合、统一现有的算网感知体系，形成算网一体化的数据感知体系。

二、算网感知能力要求

面向未来的多样化算力需求、任务式服务模式、算网智能调度，要实现跨专业领域的多样化算力协同，需要将算力、网络、动环等相关感知数据纳入统一的算网数据感知体系，构建统一的算网感知模型，实现算网关联分析、算力算效分析等业务分析评估能力，支撑算网业务智能编排调度。

（一）数据感知能力

围绕算力网络“算力泛在、算网共生、智能编排、一体共生”的总体目标，对算网感知能力提出全覆盖感知、面向需求即时感知、跨专业协同感知的能力要求面向未来，算网感知除向下感知资源，也需向上感知业务与事件，参与运行支撑算力即取即用。

全覆盖感知：是算力网络实现一体编排、智能调度的基础。对于算力而言，实现自有中心云、边缘云、端算力、社会算力、国家枢纽算力的全量感知。对于网络而言，实现端到端网络的全面感知，包括入云、云间网络端到端的协同感知等。

即时感知：要求以更实时、更细粒度、更自动化的方式实现对算网资源状态的动态感知，为算网业务提供数据支撑。对于算网资源信息需由传统的定时采集演进为变量实时感知；对于算网资源运营相关数据（如分配/回收、使用/占用数据）实现实时感知同步；对于算网运行态势数据（如利用率）实现低时间粒度的采集与分析。

协同感知：面向算网一体共生的目标，单域运维难以满足要求，需要实现跨域的协同感知。对于算力而言，在横向上实现多种算力的协同感知；在纵向上需实现物理层、虚拟层、容器层的协同感知；为满足算力算效评估的要求，需对算力、动环、能耗信息等跨专业领域数据进行协同感知。对于网络而言，横向上需要实现跨专业、端到端网络的关联，协同跨专业网络资源，并通过网络去感知算力；纵向上需要实现业务与资源的关联和协同。最终实现算网融合感知。

（二）模型构建能力

面向算力网络服务方式从资源式向任务式转变，算网感知系统需具备将算、网资源信息向算力和网络运力信息映射的能力；具备基础算力、运力模型构建与封装能力，支撑算网业务的编排调度。

算网感知系统需要对接多种数据源，完成多源异构数据的汇聚、存储、处理等数据流转环节。首先需要对各种异构资源建立统一的数据模型、维护各类资源的模型列表、模型属性等内容；通过预置的数据模型，实现对不同来源资源数据的归一化处理。然后再通过资源、状态、能效等多维度数据统一分析当前算力资源、网络资源和存储资源当前状态情况，并输出各域资源可服务率。

（三）分析评估能力

在算网感知系统中，数据的分析评估能力也是其核心能力之一，通过采集各算力资源、性能数据以及数据中心的PUE指标和能耗等进行分析评估，其结果用来支撑编排与调度策略制定与执行。

感知系统通过对各专业工作台进行采集，获取各类算力模型数据，以性能利用率指标为例，可通过以下方面进行分析：

对设备性能的监测。通过监控利用率指标的情况，能够及时发现设备中存在的如CPU过载等问题，方便运维人员进行故障排查。

对设备容量与资源的分配。利用率可反映当前设备对于不同任务或应用程序的资源使用情况，有助于运维人员进行设备容量与资源的规划，确保设备能够满足预期要求。

对能耗的分析。当利用率处于一个较高效且合理的水平时，设备能够高效处理任务，这表明该类设备能够在相同的时间内完成更多的工作量，从而减少任务执行时间，在保证性能的同时降低能耗，从而实现节能减排的效果。

目前网络的度量已经比较成熟，算力的度量还缺乏统一标准。在算力网络的场景中，需要提供算力和网络的综合服务。这时需要对算力也有一个方便的度量机制，这个机制一方面需要支持对用户算力需求的描述，另一方面也需要支持对提供算力资源的能力描述。

三、算网感知关键技术研究

（一）数据感知的技术实现

算力网络包含的资源类别和数量规模庞大，算网业务种类丰富，传统的数据采集方式已无法满足这种高度复杂性的需求。从算网感知的需求来看，在不同的业务场景中对各类感知数据的时效性要求不尽相同，因此在感知层面对于感知数据的同步要求也不同。

表1 算网感知数据的需求

为了满足多样化的数据感知需求，从数据量、时效性、数据准确性、接口方式等方面综合考虑，在算网应用中可根据实际情况采用以下4种数据感知技术，其适用场景基本可以涵盖算网感知数据的业务特性范围。

1.主动同步

主动同步适合于小批量数据即时获取场景，采用主动请求方式，响应快、精度高，一般用于查询资源状态数据、配置数据、服务清单等。

在主动同步中被感知系统构建RESTful API接口程序，并能在合理时间范围内通过Response Body以JSON格式返回查询数据结果；算网感知系统构建可以调度RESTful API的服务程序，可向被感知系统API及时发起数据服务请求。

2.主动异步

主动异步适合于批量历史数据延时获取场景，采用主动请求方式，响应较慢、数据精度较高，一般用于补采历史一段时间内的性能、告警等数据。如图1所示。

图1 延时响应大批量数据获取示意图

被感知系统构建RESTful API接口程序，并能在合理时间范围内通过Response Body以JSON格式返回鉴权、数据下载地址等信息；被感知系统构建SFTP/FTP文件传输服务，并能在合理时间范围内通过生成文件并上传文件服务器；算网感知系统构建可以调度RESTful API的服务，可向被感知系统API及时发起数据请求；系统构建可下载文件的服务程序，可通过SFTP/FTP协议下载数据文件。

3.被动实时

被动实时适合于大量数据流实时获取场景，采用被动通知方式，响应快、精度高，一般用于实时接收并需要进行流处理海量的性能、告警等数据。如图2所示。

图2 实时大量数据获取示意图

被感知系统构建适配KAFKA的消息生产程序，并能在合理时间范围内生产并上送信息数据；被感知系统构建KAFKA消息队列服务，能接收并存储一段时间范围内的实时消息数据；算网感知系统构建可以消费KAFKA消息的服务程序，可及时消费消息队列上的大量消息数据。

4.被动准实时

被动准实时适合于大批量周期性数据准实时获取场景，采用被动通知方式，响应快，精度较高，一般用于周期性地获取性能、资源、告警、工单数据等。如图3所示。

图3 准实时大批量数据获取示意图

图4 算网感知模型分类

被感知系统构建数据订阅通知程序，并能在合理时间范围内通过Http请求Body以JSON格式发送鉴权、数据下载地址等信息；被感知系统构建SFTP/FTP文件传输服务，并能在合理时间范围内通过生成文件并上传文件服务器；算网感知系统构建RESTful API服务，接收被感知系统API及时发起数据订阅通知；构建可下载文件的服务程序，可通过SFTP/FTP协议下载数据文件。

（二）算网感知模型的构建

虽然算网领域已经有相对成熟的感知数据体系，但是对于不同的网管、云管系统支持的感知对象以及对象属性存在较大差异，而且算网之间暂未打通融合，因此，构建统一的算网感知模型，是将算力和网络的数据纳入统一的算网数据感知体系的前提。

聚焦典型算网业务场景梳理感知对象、对象属性、对象关系，围绕感知对象延伸现有的算网资源模型，从资源感知扩展到算力节点感知、支撑算网业务开通；增加服务和业务感知维度，实时捕捉服务、业务的状态，为算网业务的动态调整能力提供数据支撑；区分静态特性、动态特性，明确各类数据的感知时效性要求，构建面向业务的敏捷、轻量化模型。

例如针对东数西存业务，在算网业务开通阶段，需要感知可用的算力资源、网络资源，并根据策略选择合适的资源进行分配调度及配置；在业务运行阶段，需要对业务相关的资源状态、关键指标进行实时监控，支撑算网业务质量保障。

（三）算效评估技术研究

2022年全国信标委发布了《计算中心有效算力评测体系白皮书》，提出了有效算力的概念、有效算力指标CUE的定义和计量方法。传统意义上，计算中心用计算芯片的规格算力进行性能衡量，常用的计量单位是每秒执行的浮点数运算次数。这种衡量方式较为简洁，从宏观与统计的角度实现算力整体的呈现，但缺乏对整型数据、存储等集群系统处理的能力。有效算力是对规格算力的补充，能够更为直观地反映计算系统在特定作业上的、用户可获得的计算能力，是计算计量方法的有力补充。

有效算力指标（C U E：C o m p u t i n g U s a g e Effectiveness），是覆盖计算中心全生命周期评估的指标体系，包含了对应的方法论、工具和测试数据集。可用于评价计算中心建设的绿色性、先进性、实用性。有效算力指标可用如下公式进行计量：

其中Psi为测试集在基准软硬件系统上的实际性能；Pi为测试集在目标软硬件系统上的实际性能。ωi为测试集中不同实际应用软件的权重。α为调整系数，建议该常数值为100。

CUE公式的设立，可以有效避免多个真实业务性能测试所带来的单位不统一、描述过于复杂等局面。通过几何加权平均的方式获得一个单一数值，有助于进行定量、对比性分析。

四、算网感知的发展趋势

随着算力网络的不断发展以及算网业务场景的持续丰富，对算网感知的要求会越来越高，未来算网感知的发展趋势包括以下几个方面：

1.随着算力技术的不断发展和应用，需要持续完善针对新型算力（如GPU等）与网络协议（如RoCE）的状态感知方案，统一量化异构算力节点可用性、连接可用性、网络负载状态等指标。

2.人工智能算法也可以应用于算网感知中，实现面向算力网络的数据智能感知，算网资源及数据的采集和统计向算网智能态势感知演进。

3.感知数据隐私保护：通过引入安全传输机制、数据加密算法实现对感知数据的保护。

4.算网感知在实际应用中仍存在挑战，例如指标算法的可扩展性，传递的及时性等。未来研究还包括对算法的优化、信息传递优化和智能化等。

总之，算网感知是实现算网业务智能编排调度和一体化运维的重要基础，随着算力网络技术的不断发展、算网业务的不断创新，算网感知技术将会越来越成熟，为企业和用户提供高质量、高可靠、有保障的算网业务服务。

五、结束语

算力网络建设是我国迎接5G时代的重要战略部署，算力和网络融合是未来信息革命的必经之路，对各行各业的转型具有重要意义。而在算力网络中缺少对算网状态实时采集感能力，本文提出的算网感知三项核心能力及对应能力需求的技术实现旨在推动算网感知关键技术在算网业务中的应用，为更好的构建算网数据感知体系奠定基础，助力算力网络建设。