算力时代下的算力服务需求与特征思考

2022-05-31赵倩颖邢文娟周国强李志强

信息通信技术 2022年2期

赵倩颖邢文娟雷波周国强李志强

1 中国电信股份有限公司研究院北京 102209

2 中国电信股份有限公司广东分公司广东 510081

引言

在2020年5月召开的全国两会上，“新型基础设施建设”首次被写入2020年政府工作报告。“加强新型基础设施建设，发展新一代信息网络”成为国家重要战略部署。2020年12月23日，发改委、工信部等部委在《关于加快构建全国一体化大数据中心协同创新体系的指导意见》中提出“推动算力资源服务化”，要求构建一体化算力服务体系，优化算力资源需求结构，提升基础设施利用效能。“新型基础设施建设”与“算力一体化服务体系”成为数字化中国的重要战略目标。

算力基础设施的形态多样、分布广泛、归属复杂，且算力的度量存在一定难度；同时孤岛算力功能单一、位置固定、计算能力有限，单点式的算力供给已无法满足业务多样化的需求，限制了新兴产业的发展。算力作为社会发展新动能，使其像水、电等基础能源一样按需、按量、灵活地供给将成为算力未来的发展趋势。因此亟需构建一体化的算力服务体系，将分布式的、多级的算力通过网络进行整合，并结合人工智能、安全、绿色等技术，赋能算力产业的多样化发展。本文根据算力业务及算力资源的特点，介绍了算力业务对算力服务的需求，从而总结出算力服务的特征，为今后算力产业的发展提供新的思考方向。

1 业务对算力服务的多样化需求

业务对算力的需求是多样化的，目前主要体现为低时延、高移动性、大算力以及潮汐性需求。

1.1 低时延需求

时延是影响算力服务性能的重要评价指标之一，是决定用户体验的关键性因素，因此低时延便成为了新兴业务最主要的诉求之一，也促使了边缘计算的诞生。典型的低时延场景如虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)等，用户参与度较高，时延需求主要来自人与人或者人与设备之间的流畅交互。VR、AR场景中要求设备能对人给出的信号做出及时的反应，因此，人机交互体验的优化对时延提出了10ms的高要求[1]。在IoT的场景下，人与设备或设备与设备在协调工作时需要通过网络进行通信。在工业互联网的场景下，工厂实现高效率的自动化生产需要完成实时的操作控制，如果生产的某些步骤因未及时接收到指令而出现滞后便会影响产品质量甚至导致系统崩溃，因此工业互联网对于时延也提出了较高的要求，达到1～10 ms[1]。

业务的低时延需求通常通过将计算节点下沉至业务边缘侧实现，在泛在计算场景下也可通过选择距离业务合理位置的资源节点实现。当单节点边缘资源无法满足资源需求时，还需要通过协同技术，由多个边缘节点共同为业务提供服务。

1.2 大算力需求

在如武器研发、基因测序、气候模拟等高精尖科学研究场景，其计算任务密集，精确度要求极高。如果在单台计算机上进行处理可能需要花费以年为单位的时间。该类场景对国家安全、经济和社会发展具有举足轻重的意义，为此各国不断研发超级计算中心，从而超级计算中心排名也成为了一个国家科研实力的体现，是国家科技发展水平和综合国力的重要标志。以科学研究为主的大算力场景，对网络和计算都有着新的需求。大规模科学数据传输的带宽需求已达到100Gbps，未来将达到Tb/s以上，同时还提出超高可靠、确定性时延、端到端按需QoS等需求；此外，个别科学装置已经提出每秒百亿亿次浮点计算(EFlops)的需求，依靠原有的单一建设专用算力池的方式，成本偏高且资源利用效率偏低。为满足业务的大算力需求，可以利用高性能计算技术，通过构建超级计算中心和云计算中心实现对大算力业务的资源供给。在未来可以通过网络将数据源周围闲散算力(云计算、边缘计算等)调度起来以弥补大型科学装置的算力缺口。

1.3 高移动性需求

与手机业务相同，业务从请求发起到结束期间往往不会固定在同一个位置，因此算力服务需要满足用户的高移动性需求。典型的场景如旅游直播、自动驾驶等，此类场景往往具有较高的移动性。例如，在旅游直播场景下，主播需要从A市到B市，沿途分享A市和到B市之间的风景。此时，直播服务需要能够提供美颜功能，并保障主播与观众之间的实时互动(如弹幕交流、语音和视频连接、直播商务等)。在此场景中，随着锚点位置的不断变化，在变化过程中使用相同的计算资源会增加服务和计算之间的物理距离，导致时延增加。因此，需要即时根据用户的位置调整算力服务的位置[2]。在自动驾驶场景下，移动性是其最突出的特点，车辆在驾驶过程中要在复杂的交通环境中及时感知环境变化并做出响应，这要求车辆与车辆、行人、道路设施之间进行低时延通信，而随着车辆位置的快速变化，某一个算力服务的节点会很快由低时延节点变成高时延节点，为了满足其低时延的需求，需要不断切换算力服务节点位置，从而达到自动驾驶所需要的毫秒级时延[1]。面对业务的高移动性需求，首先需要整网算力资源的全局视图，并配合人工智能技术实现业务的智能编排调度，从而实现在高移动性场景下的业务无缝切换。

1.4 潮汐需求

业务的潮汐需求往往最容易被人忽略，但该场景相对于其他需求都更具普遍性。以办公楼宇的视频监控为例，白天办公区的人流量大，需要处理分析的数据也会更加复杂；而在夜间，楼宇内空无一人，视频画面几乎处于静止状态，不需要对其进行过多处理。因此在该种场景下，同一个业务随着时间的变化，计算需求量发生了明显的波动。因此，算力服务需要随着业务需求量的变化，对所供给的计算资源进行调整，已实现资源的最大化利用。为满足业务的潮汐需求，算力服务需要结合人工智能技术，通过流量预测等业务感知手段实现对资源使用量的预判，从而实现资源的最佳使用。

通常情况下，每种业务对算力服务的需求并不是单一的，也不是固定的。以车联网为例，它具有明显的高移动性和低时延特性，并且对于复杂环境的计算需求量也较高。因此，算力资源需要结合网络以及新兴的技术，实现业务的多维算力服务需求。

2 算力服务特征

根据业务对算力服务的需求，算力服务需满足绿色、共享、智能、可信等特征才能更好地支撑算力的典型应用场景。算力需求与算力服务特征之间的对应关系如图1所示，每种场景需要协同多种算力特性来实现其需求。

2.1 绿色算力服务

算力资源是耗电量大户，根据最新国家数据显示，2020年国内数据中心年耗电量为2 045亿千瓦时，占全社会用电量的2.7%，相当于三峡大坝两年的发电量[3]，为服务器供电和冷却所需的电能占到数据中心总运营成本的40%。由于业务明显的潮汐特性，计算资源在高峰时期往往处于超负荷运转，出现供不应求的现象，而在低谷时期却常常处于空闲状态，宝贵的算力、电力资源被白白消耗。因此，实现绿色算力服务是“双碳”战略下不容忽视的问题。

实现“双碳战略”下的绿色算力服务需要解决包括以下两个维度的问题，一是针对算力基础设施风火水电的节能减排，二是针对业务层面的任务合理安排调度。首先，想要实现物理设施节能减排可以从算力基础设施的建设前和建设后两方面入手。正如前文所述，数据中心是耗电量大户，因此在算力中心建设前需要优先考虑算力中心的地理位置，例如亚马逊、谷歌倾向于将数据中心建在爱尔兰，除了被爱尔兰的税收政策吸引外，更重要的原因是这里气候寒冷，可以大大减少数据中心因为降温所产生的电费，而微软甚至将数据中心建在海里，依靠海水的温度来为数据中心降温。据信通院数据显示[4]，如图2所示，目前我国大部分算力分布在京津冀、川渝陕、长三角、粤港澳等东部高成本地区，而地广人稀，气候温度等适合数据中心部署的西部地区，算力规模偏小，这种现状也是由于大量的业务处于东部导致的。在数字经济飞速发展的前提下，我国提出“东数西算”战略，正是从算力设施建设位置的角度出发，提前布局算力资源[5]。而在算力基础设施建设后，更重要的则是使用先进绿色技术产品，在硬件技术创新、清洁能源应用以及绿色IDC技术三方面持续提升能源高效清洁利用水平，优化绿色管理能力。其次，针对业务层面的合理安排调度，主要面向业务的潮汐效应，在业务层面的解决方式是寻找在时间上相互匹配的业务。由于业务可以分为用户驱动型和结果驱动型两种，用户驱动型可以理解为，此类服务的使用时间与用户的作息时间强相关，例如游戏、视频等，通常会在周末或傍晚出现使用高峰；而结果驱动型则只关心最后的产出数据和总时间，具体在什么时候进行计算不是其核心诉求，例如AI训练、科学计算等。因此，针对于同一算力资源池，可以将两类业务结合，优先处理用户驱动型业务，并在计算资源闲时处理结果驱动型业务，充分发挥算力资源的能力，以提高资源使用效率。而在技术层面则要使用弹性扩缩容等技术，在计算资源闲时，关闭部分服务资源以节约能耗。

2.2 共享算力服务

共享算力服务，是指依托网络连接将分布的算力和业务进行互联共享，可以解决由于算力及业务分布不均造成的算力资源缺乏问题及单点高质量算力供给不足问题。由于新型业务的飞速发展，单点算力资源已很难满足业务大算力、低时延、高移动性需求。

共享算力是共享经济在计算机领域的创新突破。共享算力分为共享单点算力和共享多个算力资源池，前者是在一个资源池内的按需使用，主要针对大算力业务需求，后者实现对多资源池的按需使用，主要针对低时延和高移动性需求。共享算力最为人所熟知的一种形态便是云计算，云计算的高灵活性、可扩展性使得业务可以按需使用云池中的计算资源。云计算主要解决的是计算资源使用方和计算资源拥有方之间的资源分布不均的问题，满足了业务的大算力需求。在“东数西算”战略的牵引下，东部业务西部处理会成为一个普遍的场景，但当东部数据传送到西部时，其物理时延显著加大，因此需要建设覆盖全国的高质量网络基础设施，提升算力服务质量。而面对低时延和高移动性需求，共享算力则需要实现多算力节点资源的按需使用，需解决以下两个方面的问题：首先需要建设泛在的边缘计算节点，这是由于超低时延必须要有较近的物理位置来保障，位置较高的云计算节点在时延保障上难以有更大的提升；其次，需要建设高效的编排管控调度系统，由于低时延业务往往同时也具备大算力业务的特征，单点算力无法满足其高质量需求，还需要多边缘节点之间的协同。而高移动性的场景由于用户位置的不断变化，天然需要在多节点之间进行切换，良好的协同管理机制是业务低时延大带宽需求的保障[6]。

2.3 智能算力服务

智能算力服务分为面向智能的计算和面向计算的智能两个方面。面向智能的计算是指提供算力服务的资源支撑底座能够原生支持智能化的业务，为各行各业提供实时计算、实时AI服务等计算业务，最为人所熟知的就是智能芯片，提供由GPU、ASIC、FPGA或其他加速器支撑的高密集、高并行计算能力的智能算力[4]；面向计算的智能是指整个算力服务的过程，通过人工智能技术提升服务质量，增强用户体验，包含计算业务自动化运营、智能管理、智能工作流业务编排、智能资源编排等能力，实现算力需求的预判和算力资源的动态实时调整，主动、高效、安全、绿色地满足其服务需求[7]。针对业务的移动性和潮汐性，智能服务的需求显得尤为突出。

智能算力服务贯穿整个算力服务始终，首先在算力基础设施建设阶段，针对当前算力业务的智能原生的特点，需要建立大量基于GPU、FPGA 等芯片的智能计算中心、智能服务集群以提供足够的智能算力，主要应用于高性能计算、海量数据挖掘、海量数据分布式存储与调度、模型训练、推理识别等业务场景，以满足用户多种多样的AI业务需求。另一方面，智能算力服务也应包括计算智能、网络智能等。在人工智能蓬勃发展的大背景下，一方面智能业务对智能算力(如AI芯片)的需求急剧增加，另一方面，人工智能技术在提升整个业务流程智能化方面起到关键作用。如在算网资源信息收集阶段，需要利用AI智能预测算力资源的变化情况；在分析用户需求阶段，以目前的云计算服务为例，在用户购买资源时需要用户进行自主选择认为符合要求的计算资源，在业务部署后不能按照业务计算量的变化主动进行资源的释放与增加。这样可能需要用户对计算具有很高的理解，同时也会导致由于业务对资源持续占用造成大量的浪费，因此需要重点研究针对用户需求的智能化预测。

2.4 可信算力服务

可信安全作为服务的一项基本能力是算力服务天然需要具备的特性。在任何场景下，安全可信都是开展算力服务的前提。可信算力服务要求对大到国家军事政治等机密安全，小到对商业机密、个人隐私和财产安全都要有充分的保障。

可信算力服务主要对计算资源的安全可信、网络信息安全，以及交易可信提供保障。首先，针对计算资源的安全可信上，可信算力服务可以通过对算力提供方的资质核验以及可信度的评估确保提供服务的算力安全可靠；其次，针对网络信息安全要保证数据信息的硬件、软件及数据受到保护，不因偶然的或者恶意的原因而遭到破坏、更改和泄露，系统连续可靠正常地运行，信息服务不中断。这涉及计算机科学、网络技术、通信技术、密码技术、信息安全技术、系统工程、应用数学、数论、信息论等多种学科的综合。最后，针对可信交易问题，要确保交易的准确和可溯源，这就要涉及到区块链等相关技术。