基于数据挖掘的卷烟包装成本参数自优化与控制

2020-04-27蔡培良杨剑锋易凡竣龙小昂

机械设计与制造工程 2020年3期

蔡培良，罗勇，杨剑锋，易凡竣，龙小昂

(1.红云红河烟草(集团)有限责任公司曲靖卷烟厂，云南曲靖 655001) (2.深圳华龙讯达信息技术股份有限公司，广东深圳 518052)

目前，数据分析处理技术已在烟草业得到广泛应用[1]，然而对卷烟包装材料成本参数的分析仍以人工为主，存在数据不完整、样本量少、不精确、成本评估误差大等问题[2-5]。针对这些问题，本文对卷烟包装实际成本进行分析[6]，对原、辅材料消耗量进行计算[7-9]，通过数据挖掘采集卷烟包装信息，采用量子粒子群算法对支持向量机参数进行优化，从而实现对卷烟包装成本参数的自优化与控制。

1 卷烟包装成本参数自优化与控制

1.1 基于数据挖掘技术的卷烟包装成本分析

基于数据挖掘技术的卷烟包装成本分析主要有以下步骤：

步骤1，采集卷烟包装成本有关数据(如原辅材料成本、经营费用等)；

步骤2，根据采集到的数据，建立卷烟包装成本数据分布诊断模型[10-12]，并计算数据置信度，通过置信度对不正常数据进行删改，构建最大似然评估修改模型；

步骤3，对所采集到的数据进行整体分析，解析供给方成本和收益率[13]。

卷烟包装成本分析的具体流程如图1所示。

图中aij为卷烟包装成本，其中i为卷烟包装材料种类，共计n种，j为第i类材料成本。在此基础上，用样本标准差Yi修正卷烟包装成本，通过t变换得到总体标准差λi如下：

图1 成本分析方法解析图

(1)

式中：βi是i类卷烟包装材料成本均值。第i类卷烟包装材料成本查验统计量Hi为：

(2)

用式(3)表示t分布的概率密度函数g(aij)为：

(3)

将置信度设为0.95，通过大样本均数置信区间评估法，检验卷烟包装成本样本数据是否处于描述的置信区间中。采集置信区间中的卷烟包装成本样本数据，通过最大似然评估修改模型更新数据。更新过程中采用的似然评估修改模型L为：

(4)

(5)

(6)

式中：ai为卷烟包装材料种类。

在此基础上，获得卷烟包装成本Z如下：

(7)

1.2 基于数据挖掘技术的卷烟包装成本参数自优化与控制

1.2.1支持向量机预测模型

支持向量机(support vector machines，SVM)的理论依据和泛化性能高，样品集训练结果误差小，是一种高质量的数据处理、分类方法[14]。支持向量机能够有效解决局部极小值问题，确保得到的极值解是全局最优解。SVR(支持向量回归机)是支持向量机回归的简称，其可进行时间序列预测，更适用于处理有限样品的机器学习问题[15]。

将训练集(x1,y1),…,(xl,yl)转换成(Π(x1),y1),…,(Π(xl),yl),xi和yi为训练集横、纵坐标，i=1,2,…,l，其中l为训练集总数。转换时通过非线性映射把样品从原空间Jc映射到特征空间H，利用映射到特征空间H的结果构造回归超平面。支持向量机在构建回归超平面时的优化目标是最小化数据间隔minΦ(v,b)：

(8)

优化时以式(9)为约束条件：

yiz(vxi)+bz≥1i=1,2,…,l

(9)

式中：v，b分别为数据间隔的横、纵坐标；Φ为间隔长度；z为平面空间面积。

支持向量机不直接求解原始问题，而是通过求解对偶问题获得最优解，获取的包装成本参数预测模型如下：

(10)

为了减少数据计算量，采用原空间核函数代替高维特征空间的点积运算。支持向量机的多项式及函数和高斯径向基函数等均是核函数[16-17]，由于式(10)所示的预测模型为非线性模型，因此支持向量机核函数采用式(11)所示的径向基函数：

z(xi,x)=exp{-|x-xi|2/(2ζ)}

(11)

式中：z(xi,x)为包装成本参数径向基函数；ζ为核宽度；x为成本参数。

1.2.2量子粒子群算法

量子粒子群算法具有较好的寻优性能，可通过波函数∂(x,y)表达粒子状态。式(12)为粒子的位置方程：

(12)

式中：x(t)为粒子的位置；t为迭代次数；K为粒子半径。

设定随机数u，通过式(13)～(15)求解粒子与全局最优解间的距离：

K(t+1)=2·u·|roptimal-x(t)|

(13)

(14)

qi(t=1)=

(15)

式中：qi(t=1)为粒子随机位置；R为种群大小；roptimal为种群平均最优解；qoptimali为第i个粒子的最优位置点；soptimal为种群最佳位置；q1，q2分别为选用的两个粒子的随机位置。采用式(16)更新粒子位置xi(t=1)：

xi(t=1)=qi(t=1)±η|roptimal-

xi(t)|·ln(k/e)

(16)

式中：η为扩张系数；k为粒子个数；e为粒子群总个数。η的值可通过式(17)求得：

(17)

式中：Maxtimes为扩张最大次数；r为粒子实际扩张强度；c为粒子的理论扩张强度。

1.2.3量子粒子群算法优化支持向量机

将烟卷包装成本分析结果代入适应度函数，采用量子粒子群算法通过多次优化迭代寻找最优的支持向量机参数。

1)粒子编码方式。

以B={Z1,Z2,…,Zk}表示粒子群，该粒子群有k个粒子，一个支持向量机参数组合代表一个粒子，粒子位置向量Zi为：

Zi=[z1,z2,…,zm]

(18)

式中：m为粒子维度。

2)确定支持向量机适应度函数。

卷烟包装成本参数的有效与否可采用适应度函数来评价，将卷烟包装成本参数自优化和控制间关系作为适应度函数errr，公式如下：

(19)

1.3 卷烟包装成本参数自优化与控制过程

第1步，采集卷烟包装成本及具体包装参数，构成支持向量机的训练样本。

第2步，确定支持向量机参数和核函数区间，采用式(20)所示的径向基核函数：

(20)

式中：σ为径向基核函数分布系数；‖xi-xj‖为核距离。

第3步，在径向基核函数中输入各量子粒子位置，获取各粒子适应度函数值。

第4步，若量子粒子的即刻位置为最佳位置，修正粒子以往最佳位置，否则确保以往最佳位置稳定。

第5步，若粒子群即刻位置为最佳位置，修正粒子群以往最佳位置，否则确保以往粒子群最佳位置稳定。

第6步，分析粒子群的局部吸引域。

第7步，修正各粒子位置。

第8步，若达到最高迭代次数，终止参数优化进程，否则返回第3步，继续进行参数优化。

2 实验分析

2.1 卷烟成本及利润分析

利用本文方法分析某卷烟厂2016年8月12日采购自B品牌供应商的烟盒包装纸成本，结果如图2所示。

图2 盒包装纸成本统计界面

由图3可以看出，采用编号405的卷烟盒包装纸后，卷烟的利润最高，可达到530.55元。

图3 卷烟利润统计界面

2.2 参数自由化控制效果

为验证本文基于数据挖掘技术的卷烟包装成本参数自优化与控制方法的有效性，将传统的指令域示波器方法与本文方法进行对比，验证不同方法的优化控制效果。对比结果如图4所示。

图4 不同方法优化控制有效率对比

从图4可以看出，利用指令域示波器方法进行卷烟包装成本参数优化控制的有效率低于85%，这主要是因为指令域示波器方法不能准确分析卷烟包装加工成本和卷烟包装加工参数两者之间的关系。而利用本文方法对该卷烟加工过程进行自优化控制的有效率在90%以上，这是因为本文方法采用了数据挖掘技术，并很好地发挥了支持向量机和量子粒子群算法的优点，实现了对卷烟包装成本参数的有效优化与控制。