大规模定制下生产组织智慧决策模型研究

2021-05-25贾万达石宝东

软件导刊 2021年5期

贾万达，彭艳，石宝东

（1.燕山大学机械工程学院；2.国家冷轧板带装备及工艺工程技术研究中心，河北秦皇岛 066004）

0 引言

制造业受成本、技术创新能力等因素制约，面临的压力与日俱增。企业数字化、智能化发展是转型升级的重要方向和路径。大规模定制模式因效率高、成本低、支持高度定制化、生产流程灵活等特点，成为产业热点［1］。

当前生产调度系统无法适应复杂的动态调度需求，因此亟需建立一套可根据订单缓急程度随时改变生产计划的智慧决策模型。柔性调度问题是解决生产管理和组合优化问题的核心问题［2］，也是建立智慧决策模型的关键。该决策模型主要工作原理是通过优化柔性调度问题中的生产调度，对工件进行智能排产，从而使管理者能掌控实际生产情况并实现实时调度，进而提高工作效率。

1 大规模定制车间生产调度优化算法

针对大规模定制生产调度理论优化问题，目前主要分为经典传统算法与人工智能调度算法。

1.1 经典传统算法

经典传统算法的核心是对调度理论算法进行优化，通过分析目标函数约束条件计算得出最优生产调度方案。常用于优化调度理论的方法有线性规划法、分支定界法、拉格朗日松弛法和插入法等。传统算法的优势在于计算方法简单，无需构建复杂的调度模型，其局限是只适用于求解小规模调度问题，无法解决不确定性大、极小解多等复杂的实际生产调度问题。

1.2 人工智能调度算法

基于人工智能调度算法的生产调度理论自20 世纪80年代逐渐发展成熟，为解决生产调度中具有复杂耦合约束的大规模组合优化问题提供了理论支持。其中以人工神经网络与智能遗传算法为特点的全局式统计搜索技术，因其计算机制独特引起了国内外研究者广泛关注。

1.2.1 全局式统计搜索技术

该技术经典算法是模拟退火算法与禁忌搜索算法。

模拟退火算法于20 世纪80 年代初［3］，其思想源于金属材料退火过程，具体实现过程主要由4 部分构成：①建立1 个由解空间、目标函数和初始解组成的数学模型；②按照具体规定的机制产生1 个新解，并在满足Metropolis准则的基础上判断是否接受新解，对有不可行解而限定解空间仅包含可行解时，需判断解的先行性；③检查冷却进度表，使温度参数充分大且衰减充分慢；④最后创建1 个伪程序，对满足要求的模型进行求解。依据该算法，Kim等［4］解决了带有独立调整时间的调度问题，从而提出了使所有工件延迟最小的调度策略；Van 等［5］基于模拟退火算法，描述了一种求解车间最小生产周期问题的近似算法，解决了Job shop 调度问题。

禁忌搜索算法是全局统计并逐步寻优的经典算法［6］，通过对局部邻域的不断搜索，扩大搜索区域。该算法常与模拟退火算法结合，提高搜索精度和计算效率。在生产调度问题中，Nowicki 等［7］构造了一种快速禁忌搜索算法，解决了Job shop 调度问题；Tucci 等［8］通过构造基于领域专家知识的禁忌搜索算法，解决了纺织生产过程的调度问题；Bilge 等［9］通过构建多约束的禁忌搜索算法，解决了不同工件交货期不同、到达时间不同等多目标生产调度问题。

同理，在信息化，全球化发展的今天，只要制度体制改革到位，就能极大地缩短中国科学技术与世界先进水平的差距，极大地缩小产业发展与世界先进水平的差距。中国科学技术发展和产业发展的历史已经证明了这一点，中国科学技术和产业的进一步发展更能证明这一点。进行原始创新型人力资本的制度建设，是关键的一步。

1.2.2 遗传算法

遗传算法因具有较好的鲁棒性和并行性，易与其它算法结合，常用于解决实际生产的调度问题。王春等［10］利用遗传算法求解柔性作业调度问题，取得了很好的效果；刘胜等［11］将该算法与禁忌搜索算法结合，解决了具有柔性路径的车间调度问题。

1.2.3 人工神经网络

人工神经网络是一种在对人脑组织结构和运行机制认识理解的基础上，模拟其结构和智能行为的信息处理系统。目前应用最广泛的人工神经网络模型是基于传播反向误差算法的多层反馈人工神经网络，即反向神经网络（Back Propagation Network），常用于寻找参数最优值。

人工神经网络在实际生产调度中主要有两方面应用：①利用其模拟学习及智能计算的能力获取调度知识，构建智能调度模型。Min 等［12］为实现自适应调度，采用该算法选择不同的调度模型；Park 等［13］为解决生产调度中并行机器的调度问题，将该算法与启发式算法相结合，创造出新的并行机器调度规则；②将生产调度问题看成数学规划问题，利用该算法的统筹优化处理能力提高计算效率。Foo等［14］提出Hopfield 人工神经网络方法，用于解决生产车间的调度问题，并将生产车间调度问题视为线性规划问题，构建了基于线性规划与二值调整算法的整数规划人工神经网络，成功解决了Hopfield 不能稳态输出调度方案的问题。

1.2.4 人工蚁群算法

人工蚁群算法是一种以信息素为传递信号的仿生类算法，常用于解决复杂的组合优化问题。刘志虎［15］提出解决柔性车间调度的改进蚁群算法，提高了车间动态环境自适应性，实现了动态环境下车间柔性调度。

全局式统计搜索技术虽能实现智能调度，但过程复杂、计算量大，而遗传算法通常用于解决小规模调度问题，因此本文将人工蚁群算法应用于建立基于多Agent 技术的大规模定制调度强化学习模型，将人工神经网络算法与人工蚁群算法相结合提出智能算法协商策略，实现生产流程智能调度与排产。

2 基于多Agent技术的大规模定制动态调度方法

大规模定制生产系统是一种典型的柔性制造生产系统，在实际生产中不但需满足客户对产品的各种定制需求，还要处理设备损毁、订单插入等突发事件。多Agent 技术是一种具有灵敏性与实时性等优点的柔性处理系统，基于该系统建立的分布式处理体系能根据车间环境变化动态调整调度方案，增强生产工序自适应性。

2.1 基于多Agent 技术的大规模定制调度问题

基于多Agent 技术的大规模定制调度主要实现调度车间（物理空间）与调度系统（虚拟空间）的协调工作。在某调度时刻T，调度系统首先需读取来自调度车间的实时数据，之后将数据状态传递给多Agent 系统进行分析，最后多Agent 系统将调度方案再反馈给调度车间，实现实时调度。整个调度决策过程如图1 所示。

Fig.1 Real time scheduling mechanism of mass customization based on Agent图1 基于Agent 的大规模定制实时调度机制

2.2 基于多Agent 技术的动态调度强化学习模型

基于多Agent 技术的动态调度强化学习模型基于人工蚁群算法构建，该模型在实际车间中主要通过控制Agent、任务Agent、算法Agent 和调度Agent 信息互换实现。其中控制Agent 是该学习模型核心，负责整个生产工序控制、管理和协调；任务Agent 负责接受并保证生产任务正常进行；算法Agent 根据实际生产任务选择智能调度算法，优化调度任务；最后调度Agent 将所有信息进行汇总，通过对未完成任务的分析，建立相应动态模型，从而选出最佳实施方案，实现实时调度。动态调度强化学习模型如图2 所示。

Fig.2 Dynamic scheduling reinforcement learning model based on multi-agent technology图2 基于多Agent 技术的动态调度强化学习模型

选择行为准则是调度Agent 的核心，即当生产任务处于再加工状态时，调度Agent 参照当前任务资源分配情况为其选择最优加工行为。本文采用轮盘赌算法计算各行为优化概率，资源分配多的被选中的可能性更大，反之被选中的可能性越小，可避免计算时算法出现局部循环。各行为优化概率为：

其中，f(am,bm)表示工件处于加工状态m时选择行为的概率；n 表示总行为个数；tm为选择行为的奖励值，奖励值越大，行为选择的最优化概率越大。tm计算公式为：

2.3 基于人工神经网络算法与人工蚁群算法的协商策略

基于人工神经网络算法与人工蚁群算法的协商策略可针对生产车间环境的变化自适应调整，比如当车间出现机器故障、订单插入、订单改变等突发情况时，该协商策略可依据当前订单奖励值大小分配相应行为，从而实现车间优化调度。协商策略结构及工作流程如图3 所示。

Fig.3 The structure and workflow of negotiation strategy图3 协商策略结构与工作流程

接受生产任务后，多Agent 系统将生产信息分配给任务Agent 和控制Agent，两部分Agent 读取和分析信息后将结果反馈给系统，系统根据反馈的信息建立加工任务的机器集。之后根据加工任务的奖励值为生产任务选择最优加工行为，并启动算法Agent 模块完成调度任务；模块根据调度结果完成时间判断其是否符合生产要求，将符合时间要求的任务进行局部更新，当所有任务均符合生产要求后再进行全局更新；最后输出最优调度结果，并将该结果与历史结果相对比，更新最优结果，取代差的结果。

综上所述，基于多Agent 技术的动态调度强化学习模型具有应对生产任务突发状况的能力，可实现车间动态调度过程，还可将本次取得最优解的学习经验保存下来，指导后续决策。

2.4 实验仿真

以某加工车间的动态调度问题为仿真实例，用于验证基于多Agent 技术的动态调度强化学习模型有效性与准确性。该问题包含2 台生产机器、8 个待加工工件，各有2 道工序。加工信息如表1 所示。

Table 1 Workpiece processing information表1 工件加工信息

经过计算，算法在45 代左右基本收敛，最大完工时间为575min。M1、M2 机器甘特图如图4 所示。

Fig.4 Gantt chart of M1 and M2 machines with maximum completion time of 779 minutes图4 最大完工时间为779min 的M1、M2 机器甘特图

3 结语

本文研究了大规模定制下生产组织智慧决策模型，建立智慧决策模型的目的是对生产过程中生产调度进行柔性化智能处理，从而达到智能排产。针对大规模生产调度优化建模问题，为适应其生产过程多复杂性、多约束性的特点，在研究人工神经网络及人工蚁群算法等一系列智能调度算法的基础上，提出基于多Agent 技术的动态调度强化学习模型。最后通过实验仿真，验证了该模型在处理复杂生产调度问题时具有较高的准确率。下一步将继续完善多Agent 生产调度系统理论框架和算法，以更好适应未来大规模产品生产模式。