基于多智能体的生鲜农产品多级库存成本控制模型

2023-09-25李姣姣何利力郑军红

计算机时代 2023年9期

李姣姣何利力郑军红

摘要：针对生鲜农产品多级库存成本控制问题，运用多智能强化学习思想，从供应链视角抽象出批发商与零售商智能体，引入三参数Weibull函数描述生鲜农产品的损腐特征，使用深度双Q网络算法构建基于多智能体的生鲜农产品多级库存成本控制模型。该模型基于智能体间相互合作，优化订货并控制多级库存成本。实验结果表明，基于多智能体的库存成本控制模型能够在一定程度上减轻供应链多级库存中的牛鞭效应，有效降低各级库存成本，减少生鲜损腐。

关键词：生鲜农产品；多智能体；强化学习；多级库存成本控制；供应链

中图分类号：TP181；F253 文献标识码：A 文章编号：1006-8228（2023）09-81-06

Multi-level inventory cost control model of fresh agricultural

products based on multi-agent

Li Jiaojiao， He Lili， Zheng Junhong

（College of Computer Science and Technology， Zhejiang Sci-Tech University， Hangzhou， Zhejiang 310018， China）

Abstract： Aiming at the problem of multi-level inventory cost control of fresh agricultural products， the idea of multi-agent reinforcement learning is used to abstract the agents of wholesaler and retailer from the perspective of supply chain. The three-parameter Weibull function is introduced to describe the spoilage characteristics of fresh agricultural products， and the Double Deep Q Network algorithm is applied to construct a multi-agent-based multi-level inventory cost control model of fresh agricultural products. The model is based on mutual cooperation among agents to optimize ordering and control multi-level inventory cost. The experimental results show that the proposed model can mitigate the bullwhip effect of multi-level inventory in the supply chain to a certain extent， effectively reduce inventory costs at all levels， and minimize spoilage losses.

Key words： fresh agricultural products; multi-agent; reinforcement learning; multi-level inventory cost control; supply chain

0 引言

供应链包括从原材料采购开始到中间商制造半成品和最终产品，最后由销售企业将产品和服务送达末端消费者的活动所构成的全部网络系统，具有动态性、层次性和交叉性等特点。牛鞭效应在供应链中普遍存在，其典型表现为当供应链的各节点企业仅根据其相邻的下级企业需求信息进行生产或供应决策时，需求信息的真实性会沿着供应链从下游到上游逐级放大，当信息传递到最上游供应商时，其获得的需求信息和实际消费市场中顾客需求信息有较大偏差，需求变异系数远大于分销商和零售商。由于这种需求放大效应的影响，上游供应商往往比下游供应商维持更高的库存水平[1]。

生鲜农产品包括果蔬、肉类、水产品等初级产品，具有保质期短、易损腐、储存困难等特性，我国果蔬、肉类、水产品腐损率分别高达15%、8%、10%，商家難以合理安排订货/出货，造成库存管理难度大、库存成本高和客户满意度低等问题。供应链环境下制定生鲜农产品多级库存控制策略更加复杂和困难，因此有必要对其进行研究[2]。

传统的库存管理模型能够降低库存成本，但在实际运用中存在较大局限性。ABC库存管理法和CVA（Critical Value Analysis）库存管理法[3]无法给出科学定量的库存控制方案，经济订货批量模型的前提条件较为苛刻，供应商管理库存模型、协同式库存管理模型和联合库存管理模型[4]管理成本高、操作难度大。

强化学习方法可用于研究序贯决策和最优控制问题，近年来，有学者研究强化学习多级库存的控制问题。汤大为等[5]针对两级库存系统使用Q-learning研究订货策略。Jiang和Sheng[6]提出一种基于案例的强化学习算法，用于多智能体供应链系统的动态库存控制。Yu等[7]基于多智能体深度强化学习方法求解考虑固定时间窗和横向转运的两级备件库存控制问题。目前针对生鲜农产品的多级库存研究较少。

本文针对生鲜农产品多层次、多节点的供应链结构，运用多智能强化学习思想，从供应链视角抽象出批发商、零售商智能体，并引入三参数Weibull函数描述生鲜农产品的损腐特征，使用DDQN（Double Deep Q Network，DDQN）算法构建基于多智能体的生鲜农产品多级库存成本控制模型。通过供应链上各个层次各个节点的相互合作，优化订货并控制库存成本。

1 算法理论与方法

1.1 多智能体强化学习

马尔可夫性质是指下一状态仅取决于当前状态，而不考虑历史状态。满足马尔可夫性质的强化学习任务称为马尔可夫决策过程（Markov Decision Process，MDP）[8]。MDP状态转移函数为

[p（s'|s，a）=P（St+1=s'|St=s， At=a）] ⑴

强化学习的理论基础是MDP。如图1所示，在强化学习过程中，智能体和环境一直交互。智能体感知当前所处环境的状态，经过计算给出动作。环境根据智能体的动作，生成相应的即时奖励以及下一状态。智能体目的是最大化多轮交互过程中获得的累计獎励的期望[9]。

多智能体强化学习（Multi-agent Reinforcement Learning，MARL）是由强化学习和多智能体系统结合而成的新领域。多智能体的情形相比单智能体更加复杂，因为每个智能体在和环境交互的同时也在和其他智能体进行直接或者间接的交互。因此，多智能体强化学习比单智能体更困难。

1.2 深度双Q网络

Watkins和Dayan[10]提出的Q-learning方法，是一种基于价值迭代的强化学习算法。Q-learning算法通过构建Q值表存储状态-行动对的值，并根据Q值选择最优动作。Q-learning中通过求解贝尔曼最优方程确定最优价值函数和最优策略。贝尔曼最优方程为

[Q*s，a=Es'～p（.|s，a）[Rs，a+γmaxa'Q*s'，a'|s，a]] ⑵

Q-learning算法的动作值函数更新迭代式为：

[Q（s，a）←Q（s，a）+α（r+γmaxa'Q（s'，a'）-Q（s，a））] ⑶

Q-learning存在非均匀高估问题，另外Q-learning在处理大数据问题时存在维度灾难问题。因此，Q-learning在现实中表现不佳。

Mnih等将神经网络和Q-learning相结合提出深度Q网络（Deep Q Networks，DQN）。其中目标网络缓解了Q-learning自举造成的高估，经验回放打破了序列的相关性。DQN预测网络的优化目标：

[y=r+γQ（s'，argmaxa'Q（s'，a';θ'）;θ'）] ⑷

在DQN基础上，Van Hasselt等[11]将行为选择和行为评估分离，提出DDQN，进一步降低Q-learning最大化导致的高估。DDQN中使用目标网络做最优动作选择，再用预测网络进行动作评估。DDQN预测网络优化目标：

[y=r+γQs'，argmaxa'Qs'，a';θ;θ'] ⑸

1.3 三参数Weibull函数描述易损腐物品

三参数Weibull分布是概率论中一种连续型分布，是寿命检验和可靠性分析的理论基础。三参数Weibull分布应用十分广泛，如拟合度的模拟、电子元器件的失效情况和物品的变质等诸多方面[12]。本文引入三参数Weibull分布描述生鲜农产品的损腐特性。

三参数Weibull分布函数和它的密度函数分别为：

[Ft=1-e-αt-γβ] ⑹

[ft=αβt-γβ-1e-αt-γβ] ⑺

其中，α、β、γ分别是三参数Weibull函数的尺度因子、形状因子和位置因子，t为时间。

2 研究内容

2.1 业务模型

如图2所示完整的供应链模型由供应商、制造商、批发商、零售商和顾客组成，本文研究的问题是针对制造商、批发商、零售商、顾客的多级库存系统。

图3给出本文研究的供应链结构示意图，该模型是一个多层次、多节点的供应链结构。第二层批发商负责向第三层中有向线段连接的零售商供货，零售商直接承接顾客需求，同层次节点间没有业务往来，业务关系仅发生在上下层之间。

零售商每天向批发商提交订货订单，为满足顾客需求，零售商每天更新一次库存。批发商每天向制造商提交订货订单，向零售商提供货物。当产生多个零售商订单而批发商的货物不足以满足所有订单时，则先满足先到达的订单。其中，制造商的商品数量无限。商品生命周期用l表示，商品被批发商接收后，就进入生命周期，生存期也开始增加。

销售产品使用先进先出策略，即先卖生存期大的产品以满足下游节点需求。若商品生存期大于生命周期[l]，就产生过期成本；若商品生存期在损腐期内就产生损腐成本；若商品无法满足下游节点需求，缺货数量的订单就会被取消，并产生缺货成本。

具体业务流程如下：

⑴ 零售商和批发商将上一日订购的商品入库，并更新库存。

⑵ 零售商接收顾客需求，批发商接收零售商需求，如果能满足需求则计算是否产生过期量和损腐量；如果不能满足需求则产生缺货量。

⑶ 计算各个节点今日剩余库存量和库存成本，并更新库存。

⑷ 每个节点根据多智能体库存成本控制模型制定的订货策略，向上游节点发送次日订货量

生鲜农产品是易损腐类产品，损腐率使用非线性函数μ（t），损腐率公式如下：

[μt=ft1-Ft=αβt-γβ-1] ⑻

当损腐率参数满足γ > 0且1<β < 2时，物品刚进入库存系统时损腐率为零，经过一段时间后物品才会损腐，这类模型就是具有时滞性质的或者保质期的易损腐产品库存模型。损腐率变化情况如图4所示。

2.2 多智能体DDQN算法模型

表1 符号定义表

[数学符号含义 [si] 生存期为i的产品数量 [p] 单位售价 [k] 单位进价 [c1] 单位过期费 [c2] 单位缺货费 [c3] 一次订货固定订货费 [c4] 单位持有费 [c5] 单位损腐费 [n1] 过期数量 [n2] 缺货数量 [d] 顾客需求数量 [xi] 生存期为i的损腐数量 [q'] 上级节点提供的产品数量 ]

本文将零售商和批发商的概念集成到多智能体系统当中，使每个节点代表虚拟世界中的一个智能体，并将其多参数多目标集写入多智能体系统的算法程序中，运用DDQN方法解决生鲜农产品多级库存的成本控制问题，下面分别给出各个智能体相关要素的定义。其中符号定义如表1所示。

2.2.1 状态空间

在MDP问题中，状态是智能体感知到的环境描述及其动态变化。如果产品当前处于生命周期内，但产品数量不足，则认为是缺货。产品生存期在损腐时期内就以一定比例进行损腐。如果产品有库存但不在生命周期内，则视为过期。满足库存充足和生命周期要求的产品，视为可供销售。[l]为产品生命周期，状态变量为l维向量。状态空间可表示为：

[s=s0，…，si，…，sl-1] ⑼

2.2.2 动作空间

动作是智能体发出的行为和动作，以及智能体与环境之间的动作交互。节点i所管辖范围内的最底层顾客j需求[Dj～N（μj，σ2j）]，需求数据分布在[（μj-3σj，]

[μj+3σj）]的概率是99.73%，本文实验满足[μj-3σj>0]，因此设[q]为订货数量，[q∈[0，j=1mμj+3σj]]取整数。节点动作空间可表示为：

[a=q] ⑽

2.2.3 奖励函数

奖励是由环境给的一种标量的反馈信号，这种信号可显示智能体在某一步采取某个策略的表现如何。强化学习的目的就是最大化智能体可以获得的奖励，智能体在环境中存在的目的就是最大化它的期望的累积奖励。节点的库存成本由过期、损腐、缺货、订货和持有成本组成。节点满足完需求后剩余库存量为：

[n3=i=0l-1si-n1-d-i=γl-1xi] ⑾

节点库存成本可表示为：

[c=c1n1+c2n2+c3+kq'+c4n3+c5i=γl-1xi] ⑿

零售商奖励等于自己的库存成本。批发商奖励等于自己及管辖的所有零售商库存成本之和。

3 实验与评测

3.1 实验设计

本文以生鲜农产品多级库存成本最小化为目标，建立包括一个制造商、一个批发商和三个零售商的多级供应链库存成本控制模型。

根据上述业务与算法模型分析，首先设置智能体的神经网络，每个智能体有两个结构相同参数不同的神经网络：预测网络和目标网络。预测网络在训练中的每一步都会更新，而目标网络每隔一个周期才更新一次。设经验池容量为1000000，每回合随机采样，折扣率设为0.95。使用ε-greedy探索策略来选择动作，初始时以ε=0.9随机选择动作，此时探索力度最大。在训练的过程中，ε逐渐衰减直至最终ε=0。

在这个过程中多智能体库存成本控制模型训练逐渐从“强探索弱利用”过渡到“弱探索强利用”。结合固定订货量库存成本控制模型，对比多智能体库存成本控制模型能否有效降低生鲜农产品库存成本。

实验以白菜为例，跟据2022年国家统计局数据得白菜供应链零售商和批发商参数值如表2所示。以1000天为一个周期，每个节点每天只进行一次发送订单和入库操作，库存成本为1000c。零售商损腐率：μ（t）= 0.3（t-1）0.5，批发商损腐率：μ（t）=0.14（t-2）0.4。

表2 实验参数

[参数零售商批发商进价/（元/500g） 0.65 0.45 售价/（元/500g） 1.4 0.65 过期费/（元/500g） 0.65 0.45 缺货费/（元/500g） 1.4 0.65 持有费/（元/500g） 0.2 0.05 损腐费/（元/500g） 0.65 0.45 固定订货费/（元/次） 1 30 ]

固定订货量库存成本控制模型的批发商采用定期定量订货法，零售商的订货服从正态分布，其订货的分布函数与需求的分布函数一致；多智能体库存成本控制模型采用DDQN方法。两种模型参数如损腐率、安全库存、订货周期、订货提前期和产品生命周期等均一致。本文假设顾客需求都服从正态分布，以1000天为一个周期，每天只进行一次发送订单和入库操作。将成本汇总得出结论。

3.2 结果分析

图5和图6分别为实验中三个零售商需求函数服从正态分布N（100，102）和N（1000，1002）时，固定订货量库存成本控制模型和多智能体库存成本控制模型在相同条件下的库存成本变化曲线。

如图5所示，在训练初始阶段，由于动作网络均处于动作探索阶段，因此多智能体库存成本控制模型库存的各个节点库存成本较高，且存在较大波动。随着智能体开始从经验池中提取历史数据进行学习，成本逐渐呈现明显下降趋势。到250周期时，多智能体库存成本控制模型中三个零售商收敛于7万元左右；批发商收敛于16.65万元附近；批发商和所有零售商的成本之和收敛于37.68万元附近。在图6中，训练到950周期时，多智能体库存成本控制模型的批发商和所有零售商的成本之和收敛于345.08万元附近，库存成本低于固定订货量库存成本控制模型。

如表3所示，当所有零售商需求都服从正态分布N（100，102）时，多智能体库存成本控制模型的三个零售商和批发商的库存成本相对于固定订货量100库存成本控制模型分别降低9.30%、9.01%、9.72%和11.51%，多智能体库存成本控制模型的批发商和所有零售商的库存成本之和比固定订货量100库存成本控制模型降低10.31%。当所有零售商需求都服从正态分布N（1000，1002）时，多智能体库存成本控制模型的三个零售商和批发商的库存成本相对于固定订货量1000库存成本控制模型分别降低9.67%、10.19%、10.09%和10.20%，多智能体库存成本控制模型的批发商和所有零售商的庫存成本之和比固定订货量1000库存成本控制模型降低10.07%。同时，多智能体库存成本控制模型的损腐量比固定订货量库存成本控制模型的损腐量更少。可以看出，多智能体库存成本控制模型优于固定订货量库存成本控制模型。

4 结束语

本文运用多智能体强化学习思想，从供应链角度抽象出供应商、零售商智能体，使用深度强化学习中的DDQN算法对生鲜农产品多级库存管理进行模拟建模，体现供应链中各个节点的动态结构关系，通过智能体间的相互合作，优化订货并控制多级库存成本。实验表明基于多智能体的生鲜农产品多级库存成本控制模型能够有效地提高供应链库存管理水平、降低库存费用和提高供应链上各商家的经济效益，解决库存量居高不下、损腐量高和库存成本高等问题，实现多级库存的智能控制。

参考文献（References）：

[1] 梁学栋，刘大成，李智，等.供应链管理[M].北京：经济管理出版社，2020：145-149.

[2] 冯继豪.基于Flexsim的生鲜农产品多级库存控制策略仿真优化[D].河南：河南农业大学，2017.

[3] 乐美龙.供应链管理[M].上海：上海交通大学出版社，2021：19-20.

[4] 刘鹏飞，谢如鹤.基于供应链的现代库存管理方法之比较研究[J].商业研究，2006（2）：170-174.

[5] 汤大为，王红卫.强化学习算法在供应链环境下的库存控制中的应用[J].管理学报，2005（3）：358-361.

[6] Jiang C， Sheng Z. Case-based reinforcement learning fordynamic inventory control in a multi-agent supply-chain system[J]. Expert Systems with Applications，2009，36（3）：6520-6526.

[7] Yu C， Zhou Y， Zhang Z. Multi-Agent ReinforcementLearning for Dynamic Spare Parts Inventory Control[A].2020 Global Reliability and Prognostics and Health Management （PHM-Shanghai）[C].Piscataway， NJ： IEEE，2020：1-6.

[8] 王树森，黎彧君，张志华.深度强化学习[M].北京：人民邮电出版社，2022：31-32.

[9] Sutton R S， Barto A G. Reinforcement learning： Anintroduction[M]. MIT press，2018：1-7.

[10] Watkins C J C H， Dayan P. Q-learning[J]. Machinelearning，1992，8：279-292.

[11] Van Hasselt H， Guez A， Silver D. Deep reinforcement learning with double q-learning[A].Proceedings of the AAAI conference on artificial intelligence[C].Palo Alto， California USA：AAAI，2016，2094-2100.

[12] 王道平，于俊娣.變质率呈Weibull分布的易变质物品的库存模型研究[A].第十二届中国管理科学学术年会论文集[C]，2010：442-446.