APP下载

基于数学函数算法的皮革制品运输优化研究

2024-01-14王艳青

西部皮革 2023年24期
关键词:运输车辆状态

王艳青

(榆林职业技术学院,陕西 榆林 719000)

0 引言

皮革制品作为一种常见的商品,其运输物流环节的优化对于提高供应链效率和降低成本具有重要意义。本文基于数学函数算法针对目前皮革制品配送中的一些列复杂性问题进行优化,旨在通过最短时间内制定配送车辆的最优路径,为皮革制品运输配送效率提升提供参考。

1 研究目的

现阶段,皮革市场正处于从传统模式向现代模式转型的关键时期,尽管经营模式正在转型,但物流模式仍然存在相对散乱现象。皮革制品受制于材料的特殊性,通常具有一定的脆弱性和易受损性,需要在运输过程中采取特殊的保护措施,以防止损坏和质量下降。同时,皮革制品的运输过程会涉及到复杂的物流环节,往往配送任务多且状况不一,运输方式的选择成为了制约皮革制品配送准确率的关键所在。现阶段,提升皮革制品行业的运输管理能力能够带来显著优势,如增强皮革制品市场物资流通速度可节省物流费用,既保障了企业电商业务的平稳发展,又实现了皮革制品市场物流配送路径的优化[1]。

2 皮革制品运输过程路径函数模型构建

2.1 运输问题描述

在中大型皮革企业制品物流运输过程之中,以优化皮革制品运输过程为根本目的,模型设计的初衷是帮助皮革企业找到最佳的运输路径、运输方式和运输节点,以提高运输效率、降低成本[2],并确保皮革制品配送的安全性和准确率。假设:目前皮革企业中有a个运输配送中心A,b个运输配送任务点(即皮革制品二级销售店),在运输配送中的车辆根据皮革企业物流管理中心指令完成各自任务,并在规定的时间和路径内通常不会产生额外成本。若配送车辆提前或过晚到配送任务点,则可能会产生额外的运输配送费用,无疑会加剧皮革企业的运营成本。基于此,通过增加1个虚拟化配送管理站O,试图来降低运输配送过程中的成本和失误率,该路径起始于一个出发点,随后经过一系列中间点,最终到达运输配送任务点所在位置,以完成配送任务,配送完毕后再由A回到O点,即完成皮革制品的配送任务。

2.2 函数模型构建

本研究的目标是通过最小化总成本来优化皮革制品配送过程中的配送效率,设定O为皮革制品虚拟化配送管理站;运输配送任务点则描述为B={1,2,…,b};皮革企业运输配送中的总配送车辆描述为V={1,2,…,v};考虑到皮革制品物流车辆的配送路径规划问题,定义了集合N=A∪B,表示配送任务中的所有点;Q表示皮革制品车辆的最大装载量;Sb'表示皮革制品运输配送任务点b'的货物需求量,pb'表示取货量;Sb''b'k表示皮革制品配送车辆k从任务点b'到b''之间的取货总质量;pb''b'k表示皮革制品配送车辆从任务点b'到b''之间的送货总质量;db''b'表示任务点b'到b''之间的距离;[tb''e,tb'',i]表示b''配送所需时间;ϖ1和代表皮革制品配送车辆提前到达任务点的b''惩罚系数,ϖ2代表延迟系数;e1表示皮革制品配送车辆的固定成本,e2表示单位车辆成本。则构建配送函数模型可表示为:

式(1)中,minZ表示皮革制品运输配送的最小总成本;xb''b'k表示车辆k从运输配送任务点b'到b''的服务次数,V作为总配送车辆。通常情况下,每个任务点仅进行1次皮革制品配送服务,其表达式可表示为式(2)‘运输配送任务点需要的皮革制品送货量与取货量可表示为式(3)、式(4);

在皮革制品配送车辆的满载极限之内,运输任务点的取货与收货的量值表示为式(5)、式(6),皮革制品配送车辆的载货极限值描述为式(7):

判断皮革制品运输配送的行驶状态,即每一台配送车辆配送流程为:虚拟化配送管理站驶出——完成皮革制品运输任务——再次回到管理站内——配送结束。其表达式可描述为式(8),在运输配送过程中的两个决策变量公式模型可描述为式(9)、式(10):

3 皮革制品运输路径函数模型优化设计

3.1 优化思路

在上述皮革制品运输配送函数模型基础之上,采用增强学习算法对运输配送过程进行路径优化。当运输配送系统中存在一个智能体(即经梯度反向传播优化后的模型参数和模型本身结构)[3],可根据配送管理站提供的状态进行改进,即在皮革制品配送环节中根据运输系统实时状态数据做出相应的路径动作反映。通过增强学习方式,给出智能体奖惩变化[4],从而更好地为智能体在配送过程中提供路径策略,即通过学习策略的变化以达成回报最大化或实现特定目标的皮革制品运输配送问题最优解。

3.2 奖励函数设计

奖励函数作为智能体训练中的关键部分,可根据运输配送过程中的某项成本因素进行评估。奖励函数的目的是为了获得长期最大化的累计“奖惩”,即通过最小化成本奖励函数实现更为经济高效的运输路径和方式。为避免在路径优化过程中陷入局部最优解,选择基于增强学习算法设计一种奖励函数作为动态调整的因素,可使运输配送模型达到最佳状态。

奖惩因素通常是基于任务点的序列之上,即皮革制品运输车辆配送中的行驶成本最小化与距离最短作为皮革制品配送路径的目标,奖惩标准式表示为:

考虑到皮革制品运输配送中的随机配送概论问题,假设在系统时间内超出任务点的时间窗,则给予1个惩罚,把超过时间窗的部分标记为“惩罚”,并引入到奖励函数之中,根据差异程度给予相应的奖惩,则奖励函数公式可表示为:

在式(12)中,α1与α2均为负的常数;ηt则表述为时刻的状态;奖励函数通过更新增强学习策略网络、价值网络对指标的低值给予奖励,由于增强学习算法与其他优化算法有所区别,通常是根据“估计数值”方式变化来改变模型参数,因而智能体按照奖励信号的具体情况对皮革制品运输配送过程进行调整和组合,以满足运输配送过程中的不同目标和约束。

3.3 状态转移函数

状态转移函数是描述皮革制品运输配送系统中的智能体在不同状态之间转移的函数,它定义了配送系统在给定输入条件下如何从1种状态转移到另1种状态,通过增强学习算法模拟环境使皮革制品运输配送中的路径状态进行及时更新。在本研究中,分别引入2种状态Xt和Gt,分别代表在t时刻中皮革制品运输管理站的局部状态与全局状态;b'可看作是皮革制品配送任务中的先导任务序列顶点,通常增强学习算法的状态转移动作是在每一次皮革制品配送任务序列Bt的末端来增添1个配送任务,因而可以将Bt当作是皮革制品配送任务的历史轨迹;在Xt和Gt状态下影响下,皮革制品运输系统中的智能体可通过模型获得配送任务的条件概率分布信息并采用合适的配送策略,将其添加到当前皮革制品配送任务序列的末尾端,其更新状态可表示为:

式(13)中,w(b',b'')描述了b'到b''之间皮革制品运输配送车辆的路径所需时间,并利用欧式距离计算了运输车辆的距离与车速之间的关系,即式(14)。根据此关系,将皮革制品配送车辆的状态容量进行及时更新,可表示为式(15),则配送任务点需求的更新过程表示为式(16):

本研究通过使用增强学习,可以将皮革制品运输配送系统中的智能体从环境中获取的状态转化为一种新的表示,即St→Si+1。智能体通过状态影响或与环境进行交互的增强学习过程中,可从环境的奖励与惩罚因素中学习到新的运输配送策略,使状态的价值达到最佳,最终通过不断迭代状态转移来进一步优化模型参数,最终使皮革制品运输配送达到最佳路径。

3.4 对照实验对比

为了论证采用增强学习算法函数模型下的配送路径优化效果良好,针对陕西某皮革加工厂制品物流配送管理中心作为实验对象,分别选取蚁群算法、增强学习算法作为对比方法。该配送管理中心主要负责15个配送任务点,配送运输车辆共4台(每辆车载量极限6t,最大配送路径为60m),经过测试实验二者配送路径距离如图1(a)、(b)所示。

图1 不同方法下的配送路径Fig.1 Delivery paths under different methods

从图1(a)中可看出蚁群算法下的配送路径存在路径重复、距离长等问题,图1(b)可看出基于增强学习算法下的皮革制品运输配送路径行驶距离最短且不存在重复、交叉路径,其原因在于增强学习算法中的智能体可通过奖励函数、状态转移函数来对皮革制品运输配送车辆状态进行及时调整,即在优化目标和约束条件保证路径距离最短,并根据奖励函数的评估来选择最佳路径。

4 结语

本文通过设计适当的奖励函数,进一步明确了优化目标和约束条件,需要注意的是,在皮革制品实际运输配送过程中,状态转移函数可能会受到不同因素的影响而发生变化。例如交通状况的变化(拥堵或障碍等)、皮革制品货物需求的变化(增加或减少)等。因此,皮革企业运输管理中心需要及时更新配送状态,并基于皮革制品实际运输配送过程中的经验和数据,考虑运输节点、运输方式、货物特性等因素,描述不同状态之间的转移规则,以反映配送过程中的实际情况,进而为实现可持续和更高效的皮革制品运输配送率提供有力支撑。

猜你喜欢

运输车辆状态
状态联想
车辆
生命的另一种状态
冬天路滑 远离车辆
受阻——快递运输“快”不起来
比甩挂更高效,交换箱渐成运输“新宠”
坚持是成功前的状态
提高车辆响应的转向辅助控制系统
关于道路运输节能减排的思考
综合运输