赖氨酸发酵过程关键变量多模型软测量建模及其在线监控系统设计

2021-11-10朱熀秋王星宇

江苏大学学报（自然科学版） 2021年6期

朱熀秋，王星宇，王博

(江苏大学电气信息工程学院，江苏镇江 212013)

人类机体正常运转需要多种必备氨基酸，赖氨酸正是其中之一，但是人类必须通过消化食物来吸收赖氨酸.赖氨酸具有诸多积极的营养意义，如促进人类身体健康发育生长、提高免疫力、提高抗病毒能力等.然而，赖氨酸营养价值极高却只少量存在于肉类和豆类中[1].目前，利用发酵法制取赖氨酸是获取赖氨酸的主要途径，但是，利用发酵法制取赖氨酸的过程中存在着耦合性极强、时变性极大、非线性极强等诸多弊端，而且缺少能够实时检测发酵过程中关键变量(产物、基质、菌体的质量浓度)的仪器.针对上述问题，软测量技术应运而生，其基本思想是通过建立目标变量与辅助变量之间的关系模型达到间接测量目标变量的目的，不会对菌群造成任何污染，且软测量方法功能强大、性价比高[2].因此，研究出能够实时在线检测发酵过程中关键变量的软测量模型对于实现复杂发酵过程参数的实时检测具有重大现实意义.

从理论上而言，在全局样本空间上建立软测量模型确实能够在任何数据集上以任意精度描述任何非线性函数；但是，微生物发酵过程是滞后性强、耦合强度大且非线性程度高的复杂过程，若采用单一全局软测量模型对非线性发酵过程进行建模，会造成模型结构过于复杂、模型精度不高、计算量偏大、难以充分挖掘样本数据中的有效信息等弊端.因此，未来软测量技术发展的必然趋势是采用“分而治之”的建模策略，构建基于微生物发酵过程的多局部软测量模型.进行多模型软测量建模的首要工作就是对样本数据先进行聚类，但传统的聚类算法如模糊c均值聚类算法(fuzzyc-means algorithm, FCM)本身存在着易收敛早熟的缺陷，因此文中提出一种改进的满意聚类算法(improved satisfactory clustering algorithm, ISCA).ISCA算法以模糊c均值聚类算法为基础，首先设定好1个评价每次聚类的优劣标准和1个初始聚类数c，随后按照标准不断循环寻找最优聚类数，最终能够快速且合理地计算出系统的最优聚类数c[3].文中将使用最小二乘支持向量回归机(least square support vector regression, LSSVR)建模算法在每个子集上分别建模，并将子模型输出通过加权方式组合得到整体系统输出.为了使LSSVR多模型拥有最佳预测性能，需要对模型中的各个参数进行优化.将粒子群优化算法(particle swarm optimization, PSO)和模拟退火算法(simulated annealing，SA)结合起来使用，将PSO算法局搜索能力强和收敛速度快的优点和SA算法有效跳出局部最优的能力有机结合在一起，利用2者对LSSVR进行协同优化，力求模型预测性能达到最优[4-5].

综上所述，文中利用改进的满意聚类算法ISCA对样本空间进行聚类，并在每个子空间上分别建立LSSVR模型，再利用PSO与SA算法协同优化各LSSVR子模型参数，最终对子模型输出加权组合得到系统输出.采用试验仿真验证该方法的有效性.

1 改进的满意聚类算法描述

多模型软测量建模的第1步是利用聚类算法划分数据集，然后在聚类子集上构建子模型，将所有子模型结合之后得到基于全局的软测量多模型.文中采用ISCA聚类算法划分样本数据集，具体实现步骤如下.

ISCA聚类算法划分数据集的详细步骤如下：

1) 令初始聚类数c=2，循环次数L=int(N/m).

2) 利用FCM算法计算隶属度矩阵U=[ui,j]c×N.FCM的目标函数为

(1)

式中：U=[ui,j]c×N；V=(v1,v2,…,vc)；g>1为常数，表征聚类模糊程度的可调参数，g越大各参数之间的重叠越多，通常取g=2.

约束条件为

(2)

在约束式(2)下优化式(1)得

(3)

(4)

即可得隶属度矩阵U=[ui,j]c×N，再根据U分配每组样本到各自隶属度最大的子集当中去，最终将T分为c个子集{T1,T2,…,Tc}.

3) 在聚类后生成的每个子集上分别建模，基于各聚类中心的子模型输出由yi(i=1,2,…,c)表示.

4) 最终的系统输出是由各子模型的输出加权后得到的，因此将隶属度矩阵U=[ui,j]c×N作为连接各子模型的权系数，则系统输出为

(5)

5) 计算聚类性能指标，计算式为

(6)

若c

6) 在样本集中，根据隶属度矩阵U找出1个与各子集最不相似的样本xn(n=1,2,…,N)做新的聚类中心vc+1，不相似性可按下式给出：

(7)

为避免产生误差，可以通过选取几个相似的样本并取其平均值作为新的聚类中心vc+1.

7) 令c=c+1,以v1,v2,…,vc+1为新的聚类中心，根据式(3)重新计算新的隶属度矩阵U，再重新划分数据集，转步骤3).

8) 将聚类性能指标最小时所对应的c的值作为最优聚类.

2 最小二乘支持向量回归机

在前文中，已经将样本空间划分成了c个局部空间，为了在每个局部空间上分别建立模型，需要选取合适的建模算法.而LSSVR算法是一种经典建模算法，可以很好地处理样本容量小、高维数据等问题，且将标准SVR算法与最小二乘法结合起来，加快了模型训练速度[6].因此，将LSSVR算法应用于构建各聚类子集的模型中.

LSSVR的核心思想是假设某个局部训练样本集{(x1,y1), (x2,y2),…,(xn,yn)}，y∈R寻找最优回归超平面wTx+b=0，让1个集合的所有数据到该平面的距离最近，即解决以下优化问题：

s.t.yk=wTφ(xk)+b+ek,k=1,2,…,N,

(8)

式中：φ(·):Rn→RnH是将输入数据映射到高维特征空间的函数；权值向量w∈RnH；误差变量和偏置值满足ek∈R及b∈R；γ>0为权重系数，能够使得偏差量最小的同时还能最快寻找到最优超平面.

引入Lagrange函数，式(8)转变成

L(w,b,e;α)=J(w,e)-

式中：αk≥0为Lagrange乘子；xk为支持向量.

对上式中的w、b、ek、αk分别求导，整理能够得到以下关于α和b的线性方程组：

(9)

式中：Ω被称作核矩阵，其子项表达式为

Ωi,j=(φ(xi))Tφ(xj)=K(xi,xj),i,j=1,2,…,N.

求解上述方程组(9)，可得LSSVR回归函数：

(10)

采用核函数代替目标函数中的点积进行计算，K(·,·)必须满足Mercer条件，文中采用高斯径向基核函数.

3 基于PSO与SA的协同优化算法

为增强ISCA-LSSVR多模型的预测精度，将一种典型现代集群优化算法—PSO算法与一种随机优化算法—SA算法结合起来协同优化ISCA-LSSVR多模型参数.PSO优化算法定义简单并且操作方便，易于实现，其独到之处在于全局搜索能力极强且计算速度极快，而SA算法具有局部最优突跳能力、寻优效率高等优势.所以常用这2种优化算法优化规模较大的数学问题.同时，二者也广泛应用在模糊系统控制、神经网络训练、函数优化等领域[7-8].

在标准PSO算法中，集群里的任意1个个体都被看作1个在D维搜索空间中没有体积的粒子，并用其当前位置来表示.所有粒子在搜索空间里按照一定的速度飞行，相互配合进行优化，粒子的速度可以根据自身和同伴的飞行经验动态调整.

若第i个粒子的当前速度和位置分别为

Vi=(vi,1,vi,2,…,vi,D)，Pi=(pi,1,pi,2,…,pi,D)，

该粒子自身以及全体粒子经历过的最好位置为

则对于第t+1代粒子，它的第j维(1≤j≤D)速度和位置按照以下公式变化，即

(11)

pi,j(t+1)=pi,j(t)+vi,j(t+1),

(12)

式中：w为惯性权重；c1和c2为加速常数；r1,i和r2,i为2个在[0,1]范围内变化的随机函数.

为了避免出现收敛早熟的情况，保证优化算法收敛到全局最优，文中引入具有突跳能力的SA算法对PSO进一步处理，以此防止出现局部收敛、无法收敛到全局的现象.利用PSO得到粒子的适应度函数值f(Pi)以及最优粒子的适应度为f(Pg)，通过式(13)得到新的适应度函数，即

(13)

式中：f(·)为算法构建的适应度函数；S(·)用于更新目前温度t下粒子i的适应度.

当粒子的当前适应度比以前更差时，更新将以一定的概率li被接受，如式(14)所示：

(14)

(15)

式中：Te0表示初始温度.当迭代次数逐渐增加时，退火温度逐渐减小.

基于退火模拟更新位置步骤如下：

1) 根据式(13)计算粒子i的适应值.

2) 若新适应值优于以往，那么粒子i的位置将被更新，否则跳到步骤3).

3) 生成1个介于0和1之间的随机数，记为r.

4) 用式(14)计算粒子i的概率li.

5) 如果li大于r，那么粒子i的位置将被更新.否则将被拒绝.

6) 重复步骤1)至5)，直到所有粒子都被计算一次.

7) 通过式(15)更新退火温度.

4 子模型的连接方法

在每个子集上分别建立基于LSSVR算法的软测量子模型之后，需要对子模型输出进行处理以得到最终的系统输出.通过如图1所示的权连接方式对各子模型进行加权连接，即文中所建立的多模型软测量模型是通过若干个各自独立、相互协调的局部子模型共同组成的.最终的系统输出则通过对每个子模型输出加权得到.

图1 基于改进满意聚类的多模型连接结构

各子模型与多模型之间的权连接关系由下式给出：

Y=uTyi=u1y1+u2y2+…+ucyc，

(16)

式中：Y是多模型的输出；yi是第i个子模型的输出；u为权值向量，取为式(3)聚类时计算出的模糊聚类隶属度矩阵.

5 算法流程图

总结上述各算法论述，ISCA-LSSVR多模型软测量建模流程图如图2所示.

图2 ISCA-LSSVR算法流程图

6 仿真试验与分析

6.1 数据采集

发酵仿真试验使用WKT-30L型液态发酵设备.赖氨酸发酵过程变量如空气流量q、CO2排放率

μ、pH、罐内压强p、发酵液温度t、桨叶搅拌速率v

等实时采集.各批次发酵时间大约维持在72 h，分批投菌发酵.采样周期为15 min.发酵罐的温度控制在50±0.5 ℃，罐内压强需稳定在0.25 MPa，pH需稳定在6.5～7.5，搅拌速率稳定在400 r·min-1.在开始发酵之前，校准溶解氧电极参考读数.

菌体、基质、产物的质量浓度ρX、ρS和ρP为发酵过程中无法在线实时检测的3个关键变量，而通过这3个变量能够直接判断最终发酵品质的优劣与否.针对这3个参数，本次发酵试验分别采用细胞干重法、PAL-1型数字显示糖度计离线测定法和茚三酮比色法对其进行离线测量.发酵液的取样周期为每2 h一次.在采样过程中，需每15 min对在线检测到的数据进行多项式插值，不断重复此操作，最终可构建赖氨酸发酵数据库.

在完善发酵数据库之后，共筛选出6批发酵数据作为构建软测量多模型的原始数据集.通过各批次初始条件的差异以及相应投料策略的改变，可以得到差异较大的各批次数据.首先选取前5批发酵数据，以此来训练基于ISCA-LSSVR的软测量多模型；而最后1批发酵数据被用于测试软测量多模型的预测精度与泛化性能.

6.2 辅助变量的选择

发酵过程中的直接可测参数p、t和v等与不可测参量的ρX、ρP、ρS之间存在着密不可分的关系，将这些直接可测参数称为软测量建模的辅助变量.然而这些辅助变量对关键参数的影响程度不一，若是将其全部应用于软测量模型的构建中会造成模型结构复杂、计算量巨大等问题，因此需要筛选出影响因子较大的辅助变量.文中选用主元分析算法来筛选出关键的辅助变量[9].最终筛选得到发酵液温度t、空气流量q、溶解氧质量浓度DO和pH的影响因子都在90%以上，故选取这4个变量作为辅助变量.关键参量与辅助变量之间的关系可用下式表述：

Y=f(DO,t,pH,q)，

(17)

式中：Y是输出变量(ρX，ρP，ρS)；f(·)描述了关键参量与辅助变量之间的非线性关系.

6.3 结果与分析

将ISCA-LSSVR算法与传统LSSVR算法进行比较以验证ISCA-LSSVR算法的性能.试验仿真结果见图3-5.

图3 产物质量浓度预测比较图

由图3-5可见，在所有3个输出变量的预测精度方面，所提出的ISCA-LSSVR方法均优于传统的单一LSSVR方法.尤其从图3可见，不管在发酵初期、中期还是后期，基于LSSVR算法的软测量模型预测曲线波动明显较大，误差明显，预测精度明显不如ISCA-LSSVR模型.同样，从图4-5明显可见，基于ISCA-LSSVR的软测量模型性能更加优越，它的稳定性更强、模型预测精度更高且泛化性能更强.表1给出了2种算法的均方差比较.

图4 基质质量浓度预测比较图

图5 菌体质量浓度预测比较图

表1 均方差比较表 %

由表1可见，在3批数据中，就预测均方差值大小而言，LSSVR软测量模型明显更加逊色于ISCA-LSSVR模型；而就稳定性而言，LSSVR软测量模型均方差值处于不断波动状态，且波动范围较大，与之相反，ISCA-LSSVR模型均方差值相对稳定，波动较小.

为了进一步直观地对比2个软测量模型的性能，分别计算2个软测量模型对产物、基质、菌体的质量浓度预测结果的平均绝对百分比误差.对比结果如表2所示.

表2 平均绝对百分比误差对比表

从表2可直观看出ISCA-LSSVR软测量模型的预测精度明显高于LSSVR模型.

7 发酵过程监控系统

7.1 总体方案

文中设计的赖氨酸在线监控系统由上位机数据处理模块和下位机数据采集模块共同组成.先通过下位机即通过普通传感器设备测量出可测参量，然后将获得的样本数据信息传输至上位机，通过ISCA-LSSVR多模型软测量方法获得不可测的主导变量，并在上位机人机界面上显示出来，最终可实现在线监控赖氨酸发酵过程[10].

7.2 下位机硬件系统设计

下位机系统主要通过各硬件传感器设备完成发酵过程样本数据的采集，根据上位机反馈的信息对发酵过程中的关键参数进行控制，并将获得的可测量参数传输至上位机；用ISCA-LSSVR多模型软测量算法模块进行预测并在人机交互界面进行显示，一方面可将实时数据通过LCD模块显示出来，另一方面可以通过网络通信模块，将数据上传到互联网，实现多发酵平台的资源共享.

将S3C44B0X芯片作为数据处理单元，如图6所示，同时利用通讯模块，把通过各种传感器获得的过程变量在上位机监控界面显示出来.

图6 监控系统的总体硬件结构图

功能较为完备的数字监控系统主要由人机交互、输出控制、信号采集模块和数字控制模块等部分组成.

7.3 上位机软件系统开发

将从下位机接收到的数据信息进行预处理，同时通过基于ISCA-LSSVR的软测量多模型实时在线预测发酵过程的关键变量是上位机软件最主要的任务.

该系统的主要设计步骤如下：① 初始化系统并具体配置一些必要的参数；② 将ISCA-LSSVR模型制成COM组件，并将其嵌入到系统软件中以在线预测赖氨酸发酵过程的关键变量；③ 通过远程人工处理对数据进行采集与管理；④ 植入软测量模块，完成不可测测量参量在线估计；⑤ 设计优秀的人机交互界面满足不同人群的需求，并通过人机交互界面将关键信息实时传递给操作人员.

7.3.1系统初始化

进行赖氨酸发酵过程软件设计时，在使用前必须对所设计的监测系统软件进行初始化，具体配置如下：

1) 注册表配置.为合理配置注册表信息，需要在进行赖氨酸发酵工业生产之前根据发酵过程的相关信息合理配置.需要配置的关键参数主要有以下几种：离线分析过程参量、算法参数、在线采样过程参量、数据下载及存储位置等.

2) 训练数据库生成.在赖氨酸发酵过程投入运行前，必须做好准备工作，首先要解析好历史发酵数据并备份好，作为构建软测量模型的备用数据库.在首次生产过程中需要调用训练集数据.在生产过程中，为确保数据的稳定性与真实性以及防止数据库中的一些数据参数随着生产过程的进行而不断发生变化，需要不断调用数据库更新模块对数据进行更新.

7.3.2COM组件构建

通过MATLAB搭建功能组件的过程由以下几个部分组成：

1) 创建工程.首先，打开MATLAB软件，找到命令窗口并输入“comtool”，点击“文件”菜单并左击“新建工程”按钮，该系统会出现“新建工程设置”窗口，然后在“元件名称”窗口给组件(DLL文件)命名，则生成器自动在“类名”窗口键入同一名称.“工程目录”选项用于在编译和集成模型时设置项目和相关文件的存储路径.当前目录和组件名称会自动组合以生成项目目录.在“编译”窗口，可以在C和C++之间切换.用C语言编写的组件运行更稳定，而C++语言可以增强代码的可读性，更好地升级和维护.MATLAB中的“使用手柄图形库”选项具有调用手柄图形的功能.设置操作完成后，选择“OK”按钮，则新建项目即成为工程工作空间的一部分，并与新增到工程中的M文件等一起被保存至指定位置.

2) 管理M文件.将步骤1)生成的用来完成赖氨酸软测量功能的M文件利用“新建工程设置”窗口中“添加文件”按钮添加至工程，并通过系统的功能选项对其调试.

3) 生成组件.上述操作完成后，利用“COM对象”调用编译器，将必要的输出文件存储至D:projectdistrib中，源文件存储至D:projectsrc中，并利用“生成状态”页面浏览生成过程的输出.

4) 打包和分发组件.上述操作完成后，经调试及测试好即可打包分发.在“元件”选项中单击“封装元件”，即得到1个可执行程序，从而实现ISCA-LSSVR多模型软测量方法的程序包的建立.

7.3.3人机交互界面

本系统使用带有丰富显示模块的Measurement Studio软件来对人机交互界面进行设计.

系统软件主要界面是由用户登录界面、系统主窗体界面、系统输入与软测量界面、数据预处理界面等构成，并且可以通过主界面来实现各界面之间来回切换.

通过用户名及密码等账号信息可以在用户登录界面进行登录.且该系统设计了用户信息登录错误次数限制，多次信息错误后即锁定一段时间.

登录成功进入系统后，主窗体界面包括系统设置、参数设置、远程监控、实时预测、历史曲线、报警显示及帮助等菜单.且单击每个菜单按钮均可查看相关选项.

在系统初始状态信息输入界面，需要由工作人员手动设置种子罐以及罐批次编号、接种量、发酵时间、初始状态下的X、P、S值等的初始值,以保证赖氨酸处于适宜的发酵环境.

在实时在线预测界面中，还需要根据发酵过程的环境参数及各营养液的补料情况输入当前数据.同时该系统还具有自纠错功能，系统若出现异常数据，则立即将出错信息发送给工作人员，以确保输入数据准确无误.

为避免数据噪声和数据冗余等问题，需要在数据预处理界面对数据进行加工，从而使数据能被COM组件功能模块所用.数据预处理的具体步骤如下：

1) 数据剔除.一些数据噪声和明显异常的数据在输入模型时会出现坏点和偏差，该选项会采取MMD聚类分析法搜索数据中的坏点并将其舍弃.

2) 数据滤波.选择滑动时间平均滤波算法对数据进行滤波，可以有效抑制周期性滤波干扰.

3) 阶数求导.通过数值微分五点法对所测量到的关键参量及流加补料量进行求导，并将各导数值作为COM组件模块参量.

4) 数据量纲一化.由于输入参量之间可能有着较大差异，数据的单位不同以及数量级不同会使系统难以利用这些数据，该选型利用量纲一化操作能极大地消除这些问题产生的影响，使数据之间的可比性更强.

8 结论

1) 提出了一种ISCA聚类算法，对赖氨酸发酵样本数据进行划分，并利用LSSVR在各样本子空间上分别建立LSSVR模型，随后采用PSO与SA优化算法协同优化模型参数，最终将子模型输出加权组合成系统输出.通过试验仿真，证明了基于赖氨酸发酵过程的ISCA-LSSVR不论在预测精度、稳定性和泛化能力方面均优于全局单一LSSVR模型.

2) 设计了赖氨酸发酵过程的在线监控系统.该系统以S3C44B0X芯片为核心，在其中嵌入了ISCA-LSSVR多模型软测量模块，将由下位机数据采集模块采集到的发酵实时数据，经由多模型软测量模块处理后输送到上位机数据处理模块.数据处理完毕后，可以将数据传给LCD模块显示实时状态，也可以通过网络通信模块将数据上传到互联网，实现多发酵平台的资源共享.