面向确定性网络的按需智能路由技术

2021-12-10伍仲丽曹园园黄文睿戴彬莫益军

电信科学 2021年11期

伍仲丽，曹园园，黄文睿，戴彬，莫益军

面向确定性网络的按需智能路由技术

伍仲丽1，曹园园1，黄文睿1，戴彬1，莫益军2

（1.华中科技大学电子信息与通信学院，湖北武汉 430074；2.华中科技大学计算机科学与技术学院，湖北武汉 430074）

确定性网络需要保证不同应用在时延、丢包率、抖动、吞吐量和可靠性等方面的确定性传输需求。针对应用的差异化、确定性的网络传输需求，提出了一种面向确定性网络的按需智能路由学习框架OdR，在OdR框架下提出一种基于深度强化学习的按需智能路由算法OdR-TD3，OdR-TD3算法可以根据应用流量的确定性QoS需求生成路由策略，以满足确定性网络应用的需求。通过网络仿真实验评估，在确定性应用的QoS需求达成率上，OdR-TD3算法相较DV算法和SPF算法，具有显著的优势。

确定性网络；深度强化学习；按需智能路由；服务质量

1 引言

随着新型网络应用的不断涌现，如VR/AR、全息通信、触觉互联网、工业互联网、智能电网、自动驾驶、远程医疗等，新型应用对网络传输提出了新的需求和挑战。不同应用在带宽速率、时延、抖动、能耗、服务安全等方面有着差异化的需求[1]，而且对于时延、抖动、丢包等关键服务质量（quality of service，QoS）指标提出了确定性（有上下界）的要求。网络传输需求的差异化和确定性的QoS需求给基础网络运维带来了极大的挑战[2]。

在确定性网络研究方面，时间敏感网络（time-sensitive network，TSN）和确定性网络（deterministic network，DetNet）工作组开展了颇有成效的工作[3]，致力于为应用流量提供最优的路径，以满足应用对时延、抖动、丢包等的确定性QoS需求。但网络环境的复杂性和不确定性，给传统的数学建模求解带来了极大的困难[4]。近年来，有学者将人工智能技术应用于网络路由优化，借助机器学习能够摆脱精确的数学模型，可以处理更加复杂的网络环境，基于强化学习的路由决策能够实时响应环境和用户的需求变化，已成为网络路由优化的热点研究方向[5]。

网络应用对于时延、抖动、丢包等关键性能指标提出了确定性QoS保障的需求。例如对于VR/AR应用，数据率要求为40 Mbit/s（2D）/63 Mbit/s（3D），时延要求低于30 ms（2D）/ 20 ms（3D），分组丢失率要求小于2.40×10−5。对于工业互联网应高水平，同时网络边缘的其他路由节点则常处于闲置状态，导致网络整体性用，数据率要求1～10 Gbit/s，时延要求低于5 ms。对于远程医疗应用，数据率要求为100 Mbit/s，时延要求低于100 ms。在网络结构和应用流量不断变化的复杂环境中，如何满足不同应用的确定性QoS需求成为网络路由优化的难点。

传统路由算法有距离矢量（distance vector，DV）算法[6]、最短路径优先（shortest path first，SPF）算法[7]和启发式算法等，其中，DV算法收敛速度较慢，并且在收敛过程中可能会遇到路由选择环路，产生无穷计数问题。SPF算法大多以跳数为度量，是一种尽力而为的路由方案，选择固定的路径，这些选定路径上的节点负载始终维持在较高水平，导致负载不均衡，降低了网络整体性能。启发式算法的收敛速度慢、训练时间长、计算复杂度高，因此不适合越来越复杂的网络架构。这些路由算法没有充分利用丰富的网络资源，只能提供非常有限的QoS保证，并且传统路由算法没有时序和记忆功能，往往不会从以往的路径拥塞、严重延迟甚至丢包的经历中吸取教训。与传统路由算法相比，机器学习技术具有一定的优越性，经过训练，机器学习算法面对给定的输入、输出接近最优的路由策略，其次，机器学习不依托精确的底层网络数学模型，另外，机器学习在分析和处理大量数据方面具有强大能力，能发现复杂环境的数据模式并做出准确的决策。最后，机器学习还可以从过去无效的路由决策和拥塞、丢包等事件中学习教训，避免类似情况再次出现[8]。深度强化学习（deep reinforcement learning，DRL）结合深度学习和强化学习的优点，在训练阶段主动了解不断变化的网络状态，并在复杂的环境中针对不同的服务请求智能地选择合适的路径。但现有的智能路由优化方法，大多以网络整体效用最大化作为优化目标，未考虑到应用对确定性QoS指标的差异化需求[9]。本文的研究针对网络应用的确定性QoS需求，基于深度强化学习算法的设计按需智能路由策略，满足应用的差异化、确定性的QoS需求。

2 模型与算法设计

2.1 OdR模型

基于软件定义网络（software defined network，SDN）的架构[10]，本文提出了一种面向确定性网络的按需智能路由学习框架OdR（on-demand intelligent routing framework），如图1所示。OdR模型包括3个逻辑平面：智能路由平面、网络测量平面和数据转发平面。

● 智能路由平面是OdR模型的控制中枢，多种具有不同确定性QoS需求的应用流量信息作为输入，输出为各类确定性QoS需求所对应的链路权重，通过Dijkstra算法将链路权重转换为路由策略，生成的路由策略发布到数据转发平面。

● 网络测量平面负责收集网络状态（如流量需求、资源可用性、等待时间等）和应用流量的QoS指标，用于评估路由策略的性能。

● 数据转发平面根据应用所携带的确定性QoS需求来分类和调度网络中的流量，并且支持在线更新路由策略。

2.2 OdR-TD3算法

图1 OdR模型

OdR-TD3算法过程见算法1。

算法1 OdR-TD3算法

输入种应用类型的流量需求

输出种应用类型的路由策略

（2）执行回合语句3～12

（4）执行次语句5～12

（10）每步执行语句（11）～（12）

（13）保存训练好的OdR-TD3网络模型

3 实验分析

3.1 实验环境配置

表1 3类应用流量的QoS指标需求

3.2 实验结果分析

对OdR-TD3算法和两种经典的路由算法DV算法和SPF算法进行了性能对比。在模型训练结束后保存3种算法的模型，然后使用200组流量矩阵作为测试集分别对保存的模型进行测试，GÉANT测试阶段平均奖励值见表2，OdR-TD3算法的平均奖励值最高。

表2 GÉANT测试阶段平均奖励值

GÉANT测试阶段各类应用流量的QoS指标见表3。从实验测试数据上可以看出，在QoS的各项指标上，OdR-TD3算法均大幅领先于DV算法和SPF算法，其中平均时延较DV算法和SPF算法分别降低了50%和30%以上，平均抖动则相较DV算法和SPF算法分别降低了35%和15%以上，而平均丢包率相较DV算法和SPF算法分别下降了80%和60%以上。对比各类应用的确定性QoS指标要求，基于OdR-TD3算法的应用流量均能满足确定性QoS指标的要求，且确定性QoS指标达成率远优于DV算法和SPF算法。

表3 GÉANT测试阶段各类应用流量的QoS指标

4 结束语

本文主要研究了如何在确定性网络中保障各类应用的确定性QoS需求，将DRL方法引入确定性网络路由中，以实现按需的自适应智能路由决策。基于真实的数据集，在特定的网络结构下对OdR-TD3算法进行评估，与DV和SPF路由算法相比，OdR-TD3算法表现出优异的性能，可以更好地保障确定性的QoS需求。在网络仿真环节，本文假设了3类确定性QoS需求的应用及其指标需求，下一步研究中可以面向实际的确定性应用对需求指标进行完善，还可以验证算法在不同网络拓扑下的泛化性能。

[1] KARAKUS M, DURRESI A. Quality of service (QoS) in software defined networking (SDN): a survey[J]. Journal of Network and Computer Applications, 2017(80): 200-218.

[2] 黄韬, 汪硕, 黄玉栋, 等. 确定性网络研究综述[J]. 通信学报, 2019, 40(6):160-176.

HUANG T, WANG S, HUANG Y D, et al. Survey of the deterministic network[J]. Journal on Communications, 2019, 40(6): 160-176.

[3] LI Z M, PENGC, YUG, et al. DetNet: abackbone network for object detection[J]. 2018. arXiv: 1804.06215.

[4] 李季明, 张宁. 具有随机性的确定性网络模型[J]. 复杂系统与复杂性科学, 2007, 4(2): 56-61.

LI J M, ZHANG N. Deterministic network model with randomness[J]. Complex Systems and Complexity Science, 2007, 4(2): 56-61.

[5] LUONG N C, HOANG D T, GONG S M, et al. Applications of deep reinforcement learning in communications and networking: a survey[J]. IEEE Communications Surveys & Tutorials, 2019, 21(4): 3133-3174.

[6] ROBINSON Y H, JULIE E G, SARAVANAN K, et al. FD-AOMDV: fault-tolerant disjoint ad-hoc on-demand multipath distance vector routing algorithm in mobile ad-hoc networks[J]. Journal of Ambient Intelligence and Humanized Computing, 2019, 10(11): 4455-4472.

[7] WANG Z, CROWCROFT J. Analysis of shortest-path routing algorithms in a dynamic network environment[J]. ACM SIGCOMM Computer Communication Review, 1992, 22(2): 63-71.

[8] DAI B, CAO Y Y, WU Z L, et al. Routing optimization meets machine intelligence: a perspective for the future network[J]. Neurocomputing, 2021, 459: 44-58.

[9] XIE J F, YU F R, HUANG T, et al. A survey of machine learning techniques applied to software defined networking (SDN): research issues and challenges[J]. IEEE Communications Surveys & Tutorials, 2019, 21(1): 393-430.

[10] MCKEOWNN, ANDERSONT, BALAKRISHNANH, et al. OpenFlow[J]. ACM SIGCOMM Computer Communication Review, 2008, 38(2): 69-74.

[11] SCOTT F, HERKE H, DAVID M. Addressing function approximation error in actor-critic methods[C]// Proceedings of the 35th International Conference on Machine Learning. [S.l.: s.n.], 2018:1587-1596 .

[12] UHLIG S, QUOITIN B, LEPROPRE J, et al. Providing public intradomain traffic matrices to the research community[J]. ACM SIGCOMM Computer Communication Review, 2006, 36(1): 83-86.

On-demand intelligent routing technology for deterministic network

WU Zhongli1, CAO Yuanyuan1, HUANG Wenrui1, DAI Bin1, MO Yijun2

1. School of Electronic Information and Communications, Huazhong University of Science and Technology, Wuhan 430074, China 2. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China

Deterministic network needs to ensure the deterministic transmission requirements of different applications in terms of delay, packet loss rate, jitter, throughput, and reliability. In response to the differentiated and deterministic network transmission requirements of applications, an on-demand intelligent routing framework OdR for deterministic network was proposed. Under the OdR framework, an on-demand intelligent routing algorithm named OdR-TD3 based on deep reinforcement learning was proposed, which generates routing strategies based on the deterministic QoS requirements of application traffic, to satisfy the applications’ requirements of deterministic network. The experimental evaluation results show the OdR-TD3 algorithm has a significant advantage over the DV algorithm and the SPF algorithm in terms of the achievement rate of deterministic QoS requirements.

deterministic network, deep reinforcement learning, on-demand intelligent routing, quality of service

TP393

10.11959/j.issn.1000−0801.2021245