基于深度强化学习的流媒体边缘云会话调度策略

2021-06-08李闻斌黄晟庞璐宁

中国新通信 2021年3期

李闻斌黄晟庞璐宁

【摘要】近些年来，以视频流媒体为首的新兴技术已经逐步占据网络总流量的重要部分。其中，视频流媒体中的网络视频服务互联网产业的推动作用下，已经逐步成为当代视频流媒体不可或缺的服务内容。在这样的发展态势下，传统流媒体服务系统已经难以适用于当前互联网发展规模当中。为及时解决这一问题，本文主要对基于深度强化学习的流媒体边缘云会话调度问题进行研究分析，以期可以拓宽我国流媒体领域发展、满足用户高质量服务需求。

【关键词】深度强化学习流媒体边缘云会话调度策略

前言：

传统以CDN与P2P技术为主流的流媒体系统，在应用性能方面多存在较多亟待解决的问题，难以为流媒体系统的应用可靠性与价值性提供良好保障。近年来，随着我国新兴网络技术的成熟化发展，流媒体服务模式逐渐与云形态相接轨。结合应用发展情况来看，技术人员通过将流媒体云放置在网络边缘，不仅可以达到减轻核心网络流量负载的目的，同时也可以达到提高用户请求响应速度的目的。最重要的是，流媒体边缘云系统在资源方面属于按需分配进行合理应用。与传统流媒体服务系统相较而言，流媒体边缘云在资源调度方面更具弹性特征。但是从客观角度上来看，当前所应用的流媒体边缘云在资源调度以及求解方面，仍旧按照传统模式进行规划解决，存在自适应程度不高的问题。为缓解这一现象问题，研究人员可以利用强化学习以试错的机制与环境之间进行交互的方法，以期消除以往自适应程度不高的问题。

一、流媒体边缘云架构体系分析

1.1 总体架构形式

流媒体云系统的构建主要是由多个放置在网络边缘的流媒体边缘云组成，在流媒体边缘云网络位置上对用户发出的视频请求进行针对性处理。与以往系统架构形式不同，流媒体边缘云在响应用户请求速度方面大幅度增强，同时主干网络负载方面幅度减少，利于满足用户高质量服务需求。

最重要的是，流媒体子云内部的各服务节点借助云计算方式实现对系统构建过程的动态分析。根据实际应用反馈情况来看，流媒体云系统在一定程度上可以有效消除传统流媒体服务系统存在的弊端问题。并且在内部资源的应用方面可按照科学合理的应用配置原则进行调度应用，可以减少以往资源浪费问题。

1.2 功能特点

流媒体边缘云系统按照云计算方式进行组合构建可直接向附近互联网用户提供相应的服务内容，如视频服務。在提供相应服务的过程中，流媒体边缘云系统集成计算能力与存储能力于一体，利用虚拟化功能的方式将各类视频资源进行统筹规划与合理配置，组成多个边缘服务器。图1为流媒体边缘云系统结构图。

从流媒体边缘云系统结构图不难看出，流媒体边缘云系统即可直接向附近互联网用户提供相对应的视频服务，也能根据用户实际情况制定与执行调度策略。

近些年来，为进一步加强流媒体边缘云系统的应用效果，研究人员主张利用Open Flow技术构建全新的流媒体边缘云系统框架形式，如图2所示。基于Open Flow技术的流媒体边缘云系统框架在处理用户访问请求以及响应速度方面可以达到好的应用效果。

1.3 功能模块

结合图2所示的流媒体边缘云系统结构图来看，流媒体边缘云系统在运行功能方面需要借助Open Flow设备与媒体服务器进行实现。其中，网络层的Open Flow设备在结构组成方面，主要以交换机与控制器设施为主。具体应用过程中，控制器与应用层的媒体服务器各自发挥自身的功能作用，利用相对应的调度策略生成流表项，将流表项中的内容及时反馈给交换机设备当中。同时，研究人员需要立足于互联网用户实际需求，对应用层中的媒体服务器的应用性能问题进行重点关注。为确保媒体服务器应用性能良好，研究人员可以放置Open Flow交换机实现对流表项的合理接收。并在网络上实现数据包转发过程，确保了互联网用户与应用层的媒体服务器间的信息指令接收效果。

除此之外，流媒体服务器应该与互联网用户之间进行互动交流。目的在于及时掌握互联网用户的实际需求情况，并根据需求反馈数据对当前用户视频服务工作存在的不足问题进行及时定位与深化处理。有一点需要注意的是，为确保业务管理服务器功能应用效果得以满足预期要求，研究人员可主动利用会话调度算法生成相关策略，完成对用户视频请求的针对性处理。综合来看，流媒体边缘云会话调度主要通过高效合理分配系统内部资源，实现对用户请求的针对性处理，主要通过请求接入、会话迁移等方式予以实现。

二、强化学习概念内容、基本原理及应用优势分析

2.1 概念内容

强化学习属于机器学习方法的领域范畴，主要可以理解为智能体从外界环境到行为决策的映射学习过程。在应用强化学习的过程中，系统可以与外界环境之间进行交互作用，通过不断进行试错，以最大累积回报之方式确定科学合理的策略方法。在这一点上，强化学习与动态规划存在相类似的理念思想。举例而言，强化学习方法主要利用价值函数对相关解决策略进行生成处理。并根据生成处理方案，选择最优的解决策略。除此之外，强化学习在方法策略方面，主动集成人工智能技术以及神经网络技术等学科领域优势，进一步加强了系统运行功能。

2.2 基本原理

强化学习在基本原理方面主要表现于以下几点：

当系统在执行某个行为动作之后受到外界因素的影响而出现改变问题时，系统可以及时从外界环境中获取相关信息，并根据相关信息反馈情况制定相对应的奖惩措施;当系统执行某一动作之后，外界环境因素对执行动作产生正面影响，则可以认为智能体今后的行为动作在概念方面将会得到不断增加;当系统执行某一动作之后，外界环境因素对执行动作产生负面影响，则与上述内容相反。

2.3 应用优势

结合以往的应用经验来看，强化学习系统通常具备以下几点优势：

一是自适应性程度较高。强化学习系统可以主动与外部环境之间进行互动联系，并从外界环境中获取信息。二是反应性程度较高。强化学习系统主要根据既定的经验以及动作情况，对现有动作策略进行合理选择;三是很少依赖外部指导信号。系统可以根据外部环境对系统实际作用影响情况，采取针对性措施进行决策判断。

三、基于深度强化学习的流媒体边缘云会话调度策略分析

3.1 会话调度模型

流媒体边缘云会话调度策略再结合深度强化学习内容时，需要坚持按照会话调度模型构建要求进行统筹规划与合理部署。结合实践应用情况来看，研究人员所设定的强化学习目标需要围绕大量学习训练反馈情况进行合理确立。其中，在决策器设施的确立方面，研究人员可以根据MEC系统的运行情况以及用户视频实际需求，选择合适的服务器进行协助处理。这样一来，系统可以及时获取新用户的请求信息。并根据用户请求信息情况，确定合适的调度策略。在会话调度模型的构建方面，可以参照图3。

3.2 会话调度的强化学习模型及会话调度算法

合理应用强化学习算法始终是构建强化学习模型的重要步骤。在具体应用过程中，研究人员应该根据流媒体边缘云会话调度系统的应用需求，将会话调度问题转为强化学习问题。并在此基础上，从MEC系统中得到的状态信息视為环境状态反馈内容，将用户视频请求接入到服务器当中。在强化学习会话调度算法的应用方面，建议研究人员可以从确定行为动作策略、存储价值函数等方面进行统筹规划与合理计算。在具体计算过程中，建议研究人员可利用行为选择策略与深度神经网络进行合理完成。必要时为确保系统环境运行安全，研究人员也可以利用行为搜索策略进行针对性处理。

结术语：总而言之，随着我国互联网用户规模及数量的不断增加，用户对于视频流媒体服务的需求也不断增加。在这样的发展态势下，如何满足用户请求接入与用户高质量服务要求，俨然成为我国流媒体服务系统亟待解决的问题。结合以往的经验来看，传统基于CDN与P2P技术的流媒体系统在应用方面存在较多弊端问题，难以有效应用于当前视频流媒体服务工作当中。为及时解决这一问题，建议研究人员可以主动结合深度强化学习策略方法，并利用流媒体边缘云会话调度策略，促使流媒体服务不断朝向云形态转变，对我国流媒体服务系统的进一步发展提供良好的技术支持。

参考文献

[1]徐西建. 基于深度强化学习的流媒体边缘云会话调度策略[D].中国科学技术大学，2018.

[2]徐西建，王子磊，奚宏生. 基于深度强化学习的流媒体边缘云会话调度策略[J]. 计算机工程，2019，45（05）：237-242+248.

[3]姜同全. 流媒体边缘云的联合优化资源调度策略研究[D].中国科学技术大学，2016.

[4]江坤. 跨域流媒体边缘云联合优化策略研究[D].中国科学技术大学，2017.

[5]姜同全，王子磊，奚宏生. 基于动态阈值分配的流媒体边缘云会话迁移策略[J]. 计算机工程，2017，43（01）：55-60.

中国新通信

2021年3期

基于深度强化学习的流媒体边缘云会话调度策略

杂志排行

中国新通信的其它文章