APP下载

三支决策在工业大数据中的应用

2021-07-22杨雪梅

关键词:加热炉决策预测

于 洪,杨雪梅

(重庆邮电大学 计算智能重庆市重点实验室,重庆 400065)

三支决策(three-way decisions, 3WD)是加拿大Regina大学姚一豫教授在2009年提出的一种“三分而治”和 “化繁为简”的处理复杂问题的理论[1]。其主要思想是将整体分为3个独立的部分,对不同部分采用不同的处理方法,为复杂问题求解提供一种有效的策略与方法。三支决策经历了孵化期(1980—2006年)、羽化期(2007—2016年)、成长期(2017年至今)3个阶段[2]。三支决策理论的提出源于20世纪90年代Yao提出的决策粗糙集理论[3]。

当前,我国正处于工业化和信息化的深度融合时期,发展基于工业大数据的人工智能新技术是实现从制造大国向制造强国迈进的战略举措。随着云平台及工业物联网的快速发展,工业环境中的数据种类和数据规模迅速增长。此时,有必要将新的理论工具及方法引入到工业大数据分析当中,以满足日益个性化、多样化、复杂化的工业生产决策需求[4]。IBM推出的认知计算代表了智能决策的前沿方向[5]。建立在认知计算基础上的决策方法可帮助期望从大数据中获益的企业解决两大障碍:①数据来源不统一、格式混杂造成的数据整合难题;②数据分析难以被直观理解和运用的问题。通过结合认知计算有望进一步释放工业大数据的商业价值。三支决策正是这样一种符合人类认知的智能信息处理模式,有望为复杂问题求解提供一种有效的策略。因此,借鉴人类对复杂问题求解的认知思路,研究基于三支决策理论的工业大数据分析方法及应用是非常必要的。

本文对工业大数据新的特点以及工业大数据智能决策面临的挑战进行了归纳和总结;然后,举例阐述了三支决策在工业大数据中的应用;最后,对其今后的研究方向进行了探讨。

1 工业大数据

工业大数据即工业数据的总和, 其来源主要包括企业信息化数据、 工业物联网数据、 “跨界”数据。 如今, 工业大数据被誉为智能制造的关键要素, 并推动生产型制造向服务型制造转型。 随着大数据技术的发展, 工业大数据将在智能化设计、 智能化生产、 网络化协同制造、 智能化服务、 个性化定制等场景发挥巨大作用。 那么, 如何高效地从复杂的工业数据集中发现新的模式与知识, 是工业大数据智能分析领域亟待解决的科学问题[6]。

工业大数据除具有一般大数据的特征(数据容量大、 多样、 快速和价值密度低)外, 还具有多时空性、 强关联性、 准确性、 闭环性、 弱监督性等特征[7-9]。

多样性:指数据来源广、数据类型复杂。如工业数据,常来源于工业产品、互联网、机器设备、管理系统等,并且包含结构化、半结构化、非结构化等多种结构数据。并且,有的数据是高维动态的,有的数据采样周期是不同的,还存在如竖炉焙烧过程磁选管回收率数据往往难以在线测量,只能通过人工化验获得。

快速性:指获得和处理数据的速度。工业数据处理速度需求多样,生产现场要求分析时限达到毫秒级,管理与决策应用需要支持交互式或批量数据分析。

强关联性:不仅反映了属性间的关联,而且反映了物理对象之间和过程语义之间的复杂动态关联关系。包括产品生命周期设计、制造、服务等不同环节数据之间的关联,产品部件之间的关联关系,生产过程的数据关联以及在产品生命周期的统一阶段涉及的不同学科不同专业的数据关联。

多时空性:随着工业过程中数据采样率的增大、历史数据采样时间段的增大、采样变量规模的增大,采集存储到更大容量的多时空大数据。指标数据与过程数据不仅空间上具有相关性,由于成批次运行、动态运行操作使得过程变量具有互相关和强自相关关系,时间尺度上数据也呈稀疏分布,且具有时间序列相关关系。

准确性:主要指数据的可靠性、真实性以及完整性,更加关注数据质量、处理、分析技术以及方法的可靠性。对数据分析的置信度要求较高,仅依靠统计相关性分析不足以支撑预测预警、故障诊断等工业应用,需要将数据模型与物理模型相结合。

闭环性:包括产品全生命周期横向过程中数据链条的封闭和关联,以及智能制造纵向数据采集和处理过程中,需要支撑状态感知、分析、反馈、控制等闭环场景下的动态持续调整和优化决策。

弱监督性:工业大数据的快速增长也决定了其弱监督性甚至是非监督性。特别是一些生产设备物联数据,由于产生速度快、标记代价大,该类数据往往呈现极弱监督性。然而物联数据对生产流程的整体优化起到了难以替代的关键作用。

由于以上特征,工业大数据对传统的数据管理技术、大数据分析技术以及决策分析方法均提出了很大的挑战。工业生产的动态特征决定了数据信息的获取也是一个动态的过程。工业大数据多时空性与闭环性要求决策模型具有动态持续优化能力。此时,借鉴人类复杂问题求解的三支决策思想,研究三支多粒度智能决策分析模型与方法,期望在动态变化的生产环境下不断地优化加强对数据的理解。

针对当前生产知识体系下难以决策的任务,用户既可以在已有知识体系下给出博弈后的一个二支决策结果,也可以利用三支决策的思想等待动态信息以帮助进一步决策。事实上,根据人类认知习惯以及心理特点,人类通常更倾向于将对象划分到带偏序关系的3部分,而不是直接将决策对象严格地排序。然后,基于这3部分再进行相应的决策动作。典型的供应商选择决策、评价决策问题等均可采用这种三支决策策略。

又如,广泛存在于设备层、控制层、车间层的各类动态运行操作数据采集周期是不一致的。有的数据采集容易、采集周期短、低价值密度,通常是高频数据;有的数据采集不容易、采集周期长、付出代价大,大多是低频数据。此时,针对这类动态带时序的、决策知识需要动态更新的决策问题,用户可以结合三支渐进决策的思想来解决。

针对工业大数据的极弱监督性,可以采用三支决策聚类模型逐步地、有效地利用少量标签信息或该领域专家知识,构建合适的多粒度聚类分析算法予以解决。由此可见,这些基于三支决策的新思路有望为工业大数据决策分析带来新的理论模型和计算方法。

2 三支工业大数据应用案例

本文借鉴人类对复杂问题求解的认知思路,提出了融合三支决策理论到工业大数据分析中。在此,给出三支决策在铝电解过热度预测、大型分层组织机构中成员评价问题以及加热炉钢温软预测问题中的应用示例。

2.1 三支过热度预测

我国已成为全球最大的铝电解生产国。截至2015年底,我国电解铝、氧化铝产量分别占全球电解铝和氧化铝产量的54.5%和48.8%[10]。然而,我国铝电解行业仍面临着诸多挑战,如资源紧缺、能源消耗巨大、环境制约、严重依赖人工决策等等。如何在保证产品性能、质量、成本的前提下,实现铝电解生产的高效化、绿色化、智能化转型是铝电解行业亟待解决的问题。而研究面向工业大数据的智能决策新方法有望成为促进铝电解行业智能化、可持续化发展的有力途径。

在铝电解生产中电解槽过热度是关乎生产效率、生产质量的关键性指标。而铝电解槽过热度的测量一直是一个世界性难题。过热度是指铝电解中电解质温度与电解质初晶温度之间的差值。将过热度保持在5℃到12℃之间有利于形成规整的槽堂内形,进而能够稳定生产,减少水平电流,提高电流效率,延长电解槽寿命。但由于工业铝电解现场是一个强磁场、高温、高湿、含高浓度腐蚀气体、粉尘的环境,因此,目前业界还难以在线获得过热度。在实际生产中,铝厂往往通过人工经验视察法来离线判断过热度,通过已有的经验公式和电解质成分化学分析来计算过热度。但进行电解质成分化学分析花费时间较长,导致结果不能得到及时反馈和控制生产。由于过热度与电解质成分之间的关系十分复杂,并且各个电解铝厂的电解质成分不同,因此,很难用一个统一的过热度数学模型来对过热度进行计算。这些都对过热度的软测量带来了一定的困难[11-12]。

目前,曹丹阳等人提出了一种基于Restreken公式的初晶温度预测方法,通过对电解质成分的分析计算初晶温度,进而通过初晶温度计算得出槽过热度[13]。考虑到各个铝厂电解质组成复杂,而且电解质成分分析是一种后期化学成分分析,难以在线实现。为了尽可能地使用在线测量信息,通过与电解铝行业专家研讨认为,通过分子比对初晶温度进行估算进而估计过热度的方法可能会是一种有效的途径。因此,采用了铝电解历史生产数据中的分子比来计算初晶温度,进而实现过热度计算,并基于三支决策思想把过热度划分为高、中、低3个部分[14]。

使用工业铝电解中电解槽的历史生产数据,通过机器学习方法提取各个参数与过热度之间的规则[14]。由于分类规则具有较强的可理解性,因此得到广泛地研究与应用。如:Yan等使用粗糙集理论,在没有先验知识的情况下,通过时间、空间与河水富营养化的关系,提取了季节、地区等属性与河水富营养化的规则[15];朱鹏飞和胡清华[16]通过观察支持向量机中样本的分布区域定义了一致区域,并提出了覆盖约简算法进行规则提取。但在实际应用中存在着大量的动态数据,随着时间的递进,数据集中的数据量会不断增加,以上静态规则获取方法无法有效应对动态增量式数据。目前,面向动态数据集的规则获取及规则更新方法已经有较多的研究成果。Huang等将粗糙集理论与决策树相结合,提出了一种动态规则获取方法[17]。Kim和Park基于模糊神经网络提出了一种动态规则获取方法[18]。杨吉森等提出了一种基于规则树的增量式过热度软测量模型[19]。该模型通过应用粗糙集理论中值约简方法来提取规则,利用规则树对规则进行存储并实现对过热度的软测量,进而设计了规则树的增量式学习方法。该模型具有在线学习功能,通过在生产过程中的动态学习,有望进一步提高过热度软测量准确率。

图1为面向工业铝电解生产的过热度预测模型框架,主要包括数据预处理、规则提取、规则存储与增量式更新4个部分。

图1 工业铝电解中的过热度软测量框架Fig.1 Soft sensing prediction framework of superheatdegree in industrial aluminum electrolysis

表1为使用魏桥铝电公司部分车间从2015年11月至2016年5月的铝电解生产数据集,将规则树的增量式学习方法与启发式值约简算法、随机子空间方法、随机森林方法、M5方法进行对比得到的实验验证结果。

表1 各种方法在铝电解生产数据集上的准确率Tab.1 Accuracy of various methods in aluminum electrolysis production data set

由表1可知,本文所提方法在针对铝电解生产时实际效果会更好。虽然,该方法在最初表现不是最佳的,但随着数据的增加,该方法全面超越了对比的分类方法。并且随着数据的增加,该方法的准确率也逐步提升。

由实验结果可知,本文所提模型对于铝电解工业中的过热度预测问题具有一定的有效性和可行性。

2.2 分层组织机构成员评价

分层组织是生产生活中常见的一种企业组织架构,表现为较高粒度层上的某个对象由较低粒度层上的某些对象构成。如国家单位、企业集团和其他非盈利组织等大部分组织结构都具有分层组织架构。当前集团企业面临着一个挑战性问题,即如何对具有分层组织架构的企业中的多级分层评价对象进行联合评价。以铝电解集团企业分层组织机构成员评价活动为例进行说明。对于一个铝电解集团企业,其成员架构犹如一个分层的树形结构(见图2)。

图2 一个分层组织机构例子Fig.2 An example of hierarchical organization

从层级组织的角度来看,一个铝电解集团企业可分4个层级:集团层、分厂层、车间层以及电解槽层。其中,一个集团由多个工厂构成,一个工厂由多个车间构成,一个车间又由多个电解槽构成。从粒计算的角度来看,该铝电解集团企业中成员对象之间具有分层包含的关系,实际上是一种分层多粒度结构。诸如铝电解集团企业的管理层迫切需要对具有分层组织架构特征的成员对象进行联合评价。在分层组织架构的成员对象联合评价中,评价信息具有逐层传递的特征,即不同层其评价指标不同,且要求较高层成员的评价需要承接较低层成员的评价结果,评价信息传递过程如图3所示。

在分层组织结构成员的评价中,传统评价方法存在一些问题。一方面,传统的评价方法大部分仅适用于单一层次结构的成员评价,针对具有分层组织架构特征的成员评价是无效的。另一方面,传统评价方法往往是针对小规模评价对象,且通常是给出评价对象间的排序,然而,严格的排序可能并非是管理者所需的。因此,针对具有大规模评价对象且具有分层组织架构的成员进行评价时,分级评价比排序评价更为实用。

图3 评价信息流图Fig.3 Evaluation information flow diagram

针对分层组织架构成员评价问题,提出了一种基于多准则的三分类多粒度评价模型[20]。考虑到管理者往往并不关心成员对象之间的严格排序,更关心哪些对象状态较好,哪些对象状态较差,因此,基于三支决策思想,将评价对象划分为3个等级,即一等、二等、和三等。对于分层组织架构成员的评价,需要解决较低层评价信息向较高层的传递问题。针对该问题,将前一层的输出结果转换为其后一层的输入条件[21]。

图4 分层组织图解Fig.4 Hierarchical organization diagram

图5 单粒度评价算法流程Fig.5 Flow chart of single granularityevaluation algorithm

在图2的例子中, 分厂层、车间层以及电解槽层对应的评价指标如表2所示。在这个4层结构中,只需要评价前3个粒层上的对象。将对象的评价指标分为3类:收益属性, 该类属性值越大越好, 如槽寿命; 消耗属性, 该类属性值越低越好, 如阳极消耗速率; 非单调属性, 该类属性既有收益也有消耗, 并有一个最优值, 属性值越靠近最优值越好。

图6 多粒度层次评价模型框架Fig.6 Multi-granularity hierarchical evaluation model framework

该模型将基于TOPSIS的三支决策评价模型[21]进行改进和拓展,把单粒度拓展到多粒度,将定性评价方法和定量评价方法TWD-TOPSIS进行改进,结合基于多准则排序的相关策略最终得到每个粒度上的评价结果[20]。

2.3 基于三支聚类的加热炉钢温软预测模型

钢铁工业对国民经济发展和社会稳定至关重要。为了钢铁工业的可持续发展,目前行业的节能减排、绿色制造已经提到了首要位置。无疑,对钢铁生产的各个环节,都要致力于研究节能减排的措施和方法。其中,在热轧生产线上,钢坯加热炉是一个非常重要的设备,其能耗占比很大,如何提高其加热效率,降低能耗,提高成材率,是实现绿色钢铁制造的关键所在[22]。

表2 图2例子系统中的评价指标Tab.2 Evaluation index in the system of the example in Fig.2

加热炉作为钢铁工业过程中的重要设备,经过加热炉加热进入热轧机的钢坯加热情况对最终的钢材质量有直接影响。实际中也通常以出炉钢温作为加热过程效能的判断标准。因此,为了保证钢坯质量并实现节能环保,必须对其出口钢温进行准确控制[23]。

由于检测技术的限制, 很难直接在炉内对钢坯温度进行测量。 目前, 较为常用的方法是建立加热炉的钢温预报模型对出炉钢坯温度进行预测。

很多学者做了大量的研究,梁军通过有限元分析和有限差分分析方法对整个钢坯进行了离散化,同时考虑了现场测定的方程边界条件,以此建立了炉内钢坯的加热模型[24];也有学者考虑了过程中钢坯表面氧化铁皮的产生和与时间相关的边界条件,利用有限差分法和控制体积法提出了一种用于钢坯三维瞬态温度预测的数值热传导模型[25];Jang等人为了在步进梁式加热炉中以最小的能耗获得钢坯的最佳加热方式,建立钢坯温度历史预报的二维数学传热模型[26];Tang等人通过利用有限差分法建立了步进梁式加热炉中板坯加热的二维数值传热模型[27];Jang为不同滑块高度的钢坯建立了三维传热模型[28];Osintsev在有限体积法应用于加热炉数学模型的基础上提出了用有限体积法结合组合差分格式对连续炉的加热区进行计算的方法[29]。

从另一角度出发,有学者提出了借助总括热吸收率的方法。安等人运用了总括热吸收率的方法简化了炉膛内辐射换热,针对步进式钢坯加热炉建立了钢坯加热过程数学模型,同时也给出了炉膛热平衡数学模型、炉膛换热过程数学模型以及钢坯氧化过程数学模型[30]。但是,总括热吸收率会随着生产条件的变化而变化,因此,如何求解准确的总括热吸收率是很重要的。陈等人给出了一种修正总括热吸收率试算的算法[31]。

这些方法大部分是基于机理所建立的。这种建模因为无法考虑加热过程中作用机理不清楚的因素,也无法考虑加热过程中动态变化造成的影响,因此,自适应性较差。该类建模过程中需要事先做诸多假设,并且在实际生产过程中加热炉还会受到很多随机因素的影响。因此,该类模型在精度方面也存在难以满足用户要求的问题。

鉴于机理建模方法的局限性,同时,加热炉现场可以方便地获得大量相关数据,一些学者采用了基于数据驱动的智能建模方法建立了加热炉钢坯温度预测模型。

姜等人基于RBF神经网络建立了钢坯温度预报模型[32],通过收集影响钢坯温度的相关数据样本,来对神经网络进行训练,得到钢坯温度预测模型,实现了钢坯温度的较为准确的预报;王等人提出了基于模糊聚类的钢坯温度神经网络软测量模型[33],用聚类算法对训练样本进行聚类,用分布式RBF网络对每类样本进行训练。Yang等人介绍了一种基于相关向量机的步进式加热炉软件传感预测模型[34],此模型是利用支持向量机进行的回归方法建模。杨等人为了实现钢坯出炉温度精准检测与控制的目的,采用了基于数据驱动的研究方法建立加热炉钢坯出炉温度预报模型[35]。杨等人针对加热炉工业过程具有复杂、非线性、时滞性的特点和钢坯出炉温度预报问题,提出了一种基于数据特征的改进主元回归加热炉钢温预报模型的建立方法[23],该方法在预测钢坯出炉温度方面具有更好的性能。

虽然上述基于数据驱动的方法存在优势,但忽略了加热炉运行中固在的波动现象。这种波动现象使得产生的数据也存在很大的波动性,会导致产生的数据中存在着一定的不确定性,这种波动现象会降低预测模型的准确性。随着新技术的出现,三支聚类[15]是解决不确定性问题的一种有效方法。因此,将三支聚类分析的方法引入其中,首次尝试采用三支聚类分析来解决加热炉运行中固在的波动现象,其目的是为了尽可能消除波动现象带来的影响。考虑到人工神经网络具有很好的逼近性能,同时能够很好地体现出系统的非线性特性,和因为过程机理不清楚给建模带来的困难,所以,提出的模型是基于ANN建立的。基于以上分析,提出了基于三支聚类的方法来解决这一方面的问题,该项工作有望通过消除实际生产中存在的波动现象产生的影响来提高预测模型的精度[36]。

图7为基于三支聚类和人工神经网络的加热炉钢温软预测模型(TW-ANNs)的整体框架,是为了解决上述问题而提出的,由3个阶段组成。

第一阶段: 利用三支聚类算法对预处理的数据集进行聚类。 使用三支聚类算法[16]将数据划分为多个类簇, 使相似的数据可以划分为相同的类。

第二阶段:通过对不同聚类数据的训练,建立相应的预测模型。例如,在仿真系统中有3个子预测模型,不确定样本是通过三支聚类得到的,即它们来自类簇的边缘区域。对于任意一个类簇i,假设Ci是类簇的核心域,Oi是同时属于多个类簇的样本。设Zi是预测模型的评价函数,这个评价函数是平均绝对误差(mean absolute error)和均方根误差(root mean squared error)。然后,在Oi∪Ci上再一次训练子预测模型。如果在Oi∪Ci上的Zi比Ci上的Zi好,那么,选择更新之后的子预测模型。也就是说,通过分析将重叠样本添加到相应的训练数据中,是否能提高模型的预测精度来选择最优模型。这些子预测模型的生成是根据不同类簇的数据生成的,所以,每一个子预测模型将会是不一样的。对相似性高的数据进行训练,预测模型会提高预测结果的精准度。

图7 TW-ANNs模型的整体框架Fig.7 The overall framework of the TW-ANNs model

第三阶段:为了保证预测结果的可信度,对新来的数据通过“划分判定协同预测”的方式来给出预测结果。这是因为本文所提出的模型是建立在处理不确定性样本的基础上,所以在预测后续数据时,不能以“划分预测”的方式对新的样本进行预测。因此,提出了“划分判定协同预测”的方式对新的样本进行预测。步骤如下:首先,根据聚类的划分标准将新样本划分到相似的类簇中。然后,判定该新样本是否属于该类簇的重叠部分区域。如果不属于重叠部分,可以直接通过该类簇上的固定模型进行预测得到结果;如果新样本属于重叠部分区域,则需要通过包含重叠部分区域的类簇上训练的模型相互协同来得到结果。最后,给出预测的结果。

使用某钢铁工业中的加热炉自2019年9月11日至10月11日期间采集的现场生产数据作为数据集,在平均绝对误差(mean absolute error)、均方根误差(root mean squared error)的评价指标上,将本文所提TW-ANNs方法与ANN、HCM-SVRs、MFCM-SVRs、TW-SVRs、HCM-ANNs几种方法进行对比实验,结果如表3所示。

表3 不同方法的预测指标Tab.3 Prediction indicators of different methods

由表3可知, 与ANN相比, HCM-ANNs和TW-ANNs在各类聚类上的评价指标普遍有所提高, 但是在HCM-ANNs方法和HCM-SVRs方法中的 Class 2的指标显示是很低的。 然而, 加入了基于三支聚类的TW-SVRs和TW-ANNs方法之后能够比较好地解决这一现象。 为了直观地观察, Class 2中的出炉温度如图8所示, 可以看出, 这里数据的波动性非常大, 由此导致了指标的降低。 相比之下, 可以很明显地看出本文提出的方法比较好地解决了这一现象, 具有更高的精度。 同时, 本文提出的TW-ANNs方法同样比TW-SVRs方法在指标上具有优势。 观察这些数据可以看到, 所提出的预测模型可以很好地预测钢坯温度的趋势。

图8 Class 2中的出炉温度值Fig.8 The furnace temperature in Class 2

此外,图9,10直观地描述了评价指标,可以看出,通过TW-ANNs处理之后的指标均比其他比较方法的指标好,证明了在预测问题中引入不确定处理策略的优越性。同时,也证明了基于三支聚类和人工神经网络的出口温度预测方法是相当可靠的。对于加热炉的稳定运行和提高钢坯加热质量具有重要意义。

图9 不同方法的MAE指标Fig.9 MAE indicator of different methods

图10 不同方法的RMSE指标Fig.10 RMSE indicator of different methods

3 三支工业大数据分析的研究展望

综上所述,从工业大数据智能决策的要求来看,现有决策方法和技术存在静态优化多、动态学习少,局部、孤立、基于精确模型的优化较容易,多环节、异构、不确定性决策较困难的问题,在前述研究成果的基础上还有很多可以进一步拓展研究的内容。

要实现复杂工业过程中的决策智能化,还缺乏将自上而下的知识和自下而上的数据两类资源在工业生产过程中的人、机、物系统中实现有效融合的方法;针对工业大数据全流程动态性,还缺乏有效的能持续优化决策的模型;针对工业大数据对处理高效性的要求,还缺乏高效的计算方法。三支决策和粒计算是一种符合人类认知的智能信息处理模式,是解决复杂问题的一种有效的策略和方法。针对以上问题,未来可进一步研究“数据-知识”融合驱动、能够处理不确定性复杂工业大数据的三支多粒度智能决策模型与方法。

4 结语

模仿人类的认知机制,构造智能计算模型是人工智能研究的重要方法。本文归纳总结了工业大数据新的特点,分析了工业大数据智能决策面临的挑战。从工业大数据实际应用案例分析中可以看到,对于三支工业大数据分析方面已经初见成效,但对于人机认知机制结合、数据知识融合方面仍有待进一步研究。人类认知除了具有多粒度认知机制外,还具有复杂信息转化、经验学习、概念化、直觉、联想记忆等特点,如何使智能系统具备和人类相似的认知行为能力,将是未来人工智能发展的方向。

猜你喜欢

加热炉决策预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
加热炉小排量下的间歇运行
加热炉燃烧烟道系统的改造
加热炉燃烧烟道系统的改造
决策大数据
决策大数据
决策大数据