APP下载

基于人工蜂群波长优选和残差增广的近红外光谱定量模型研究

2018-06-13林双杰柴琴琴李玉榕

关键词:蜂群波长遗传算法

林双杰, 柴琴琴, 王 武, 2, 李玉榕, 2

(1. 福州大学电气工程与自动化学院, 福建 福州 350116; 2. 福建省医疗器械和医药技术重点实验室, 福建 福州 350002)

0 引言

近红外光谱技术具有快速、 方便、 低成本以及无损的特点, 广泛应用于食品、 制药、 烟草、 化工、 农产品等多个领域[1-5]. 在建立近红外光谱模型时, 为了降低模型的复杂度, 减少冗余信息, 提高模型的稳健性以及预测能力, 需要对光谱进行特征波长优选, 选择出冗余信息最少, 光谱共线性最少的特征波长组合. 光谱波长的筛选主要方法有连续投影法[6]、 无信息变量消除法[7]、 蒙特卡洛法[8]、 间隔偏最小二乘法[9]等. 近年来, 具有全局搜索能力的群智能优化算法也广泛运用到波长优选, 如: 遗传算法[10]、 粒子群算法[11]和萤火虫算法[12]等. 人工蜂群算法(artificial bee colony algorithm, ABC)是Karaboga等[13-14]提出的一种启发式优化算法, 在函数优化、 组合优化等方面的应用十分广泛[15-16], 并且在一些应用中也优于遗传算法、 蚁群算法等[17-18]. 目前, 该算法已成功应用于高光谱图像的波段优选中[19], 因此本文采用人工蜂群算法优选后的特征波长建立预测模型, 为光谱波长的优选提供一个新的方法.

近红外光谱建立预测模型一般采用偏最小二乘(partial least squares, PLS)方法[20], 但该方法对光谱重叠情况严重的处理效果不是很理想. 浓度残差增广的最小二乘算法[21](concentration residual augmented classical least squares, CRACLS)是一种最小二乘的改进算法, 与PLS相比, 该算法实现更为简单, 同时具备PLS解决光谱数据高度共线性的能力, 并且对待测物质中的隐含信息进行更有效的提取, 提高光谱信息的利用率, 并能有效解决严重光谱重叠情况, 使得建立的模型预测能力更强[22-23]. Hegazy等[24]运用双变量校准法结合CRACLS测定降解物中不同物质的含量, Moustafa等[25]将CRACLS应用于多元混合物中的药物制剂中不同药物含量的近红外光谱分析, 以上研究均取得较好的结果.

本实验通过测量勾兑果汁中具有不同含量的苹果汁原汁的吸光度光谱, 将人工蜂群算法应用于光谱波长变量的优选, 优选后的波长变量由CRACLS建立预测模型. 将ABC波长优选后建立的CRACLS模型与全光谱建立的CRACLS模型, 标准遗传算法(genetic algorithm, GA)波长优选后建立的CRACLS模型进行比较, 并与ABC波长优选后建立的PLS模型、 全光谱建立的PLS模型、 标准GA波长优选后建立的PLS模型进行比较. 实验结果表明, 人工蜂群算法能够有效地处理好波长变量的优选问题, 且CRACLS模型具备优异的预测性能, 为光谱的预测模型建立提供更多的选择.

1 算法原理

1.1 基于人工蜂群算法的特征波长选取

ABC算法是模拟蜜蜂采蜜过程而提出的一种新型智能优化算法, 由食物源、 雇佣蜂和非雇佣蜂组成, 通过不同工种蜜蜂的协同收缩, 寻找质量最好的食物源, 可避免陷入局部最优问题. 有研究表明, 蜂群算法作为一种新的强大的智能优化算法在某些运用场合比遗传算法取得更优结果. 针对本文要优化的问题, 人工蜂群与特征波长选取的优化问题对应关系如表1所示.

表1 人工蜂群算法与波长选取的优化问题的对应关系

(1)

基于ABC算法特征波长的寻优过程主要步骤包括如下6步.

步骤1 初始化种群, 初始化算法中的全部参数, 蜂群数量, 最大迭代次数以及控制参数. 确定对特征波长的搜索范围, 并在该搜索范围内随机产生一个初始化特征波长组合;

步骤2 根据初始化后的点来计算每只蜜蜂的目标函数值, 同时根据目标函数值的好坏来对蜜蜂进行排序划分采蜜蜂和跟随蜂;

步骤3 跟随蜂和采蜜蜂根据不同的路径来更新调整新的位置;

步骤4 若蜜蜂的位置超出了寻优范围, 那么他的位置不会更新, 还在原来的位置上;

步骤5 记录到目前为止的最优解;

步骤6 判断满足最大迭代次数或者适应度值已满足循环终止条件, 若满足, 则循环结束, 输出最优波长点组合, 否则返回步骤2继续搜索.

1.2 浓度残差增广的最小二乘算法

步骤4 将E中的一个向量增强到C;

步骤5 使用新的C重复步骤1, 直到误差E达到性能要求, 预测性能不能再提高.

其中:A为光谱矩阵;C为输出的浓度参考矩阵;E为浓度残差矩阵. CRACLS的主要优点是, 它保留了定量经典最小二乘法的优点, 并保持了偏最小二乘法建模的灵活性.

2 结果与讨论

2.1 试验材料

试验所用的苹果与苹果汁粉均购于福州某大型超市, 苹果新鲜且完好. 首先将新鲜的红富士苹果, 经去皮、 切碎、 榨汁、 过滤等工艺得到新鲜的苹果汁, 并测定鲜榨果汁中可溶性固形物含量; 同时采用蒸馏水配置与鲜榨果汁具有相同可溶性固形物含量的苹果汁粉. 然后鲜榨果汁以5%为梯度与苹果汁粉进行勾兑, 得到21个样品. 其中以原汁比例为0、 0.10、 0.20、 0.30、 0.40、 0.50、 0.60、 0.70、 0.80、 0.90、 1.00的样本共11组数据作为校正集, 用来优选模型参数和模型结果; 以0.05、 0.15、 0.25、 0.35、 0.45、 0.55、 0.65、 0.75、 0.85、 0.95样本共10组数据作为预测集, 用来验证模型的有效性, 校正集和预测集样本的分布统计结果如表2所示.

表2 苹果汁勾兑样本分布统计结果

2.2 光谱采集

图1 近红外吸收光谱图Fig.1 Absorption spectra of the concentrations design

利用Nicolet 6700 FT-NIR近红外光谱软件平台OMNICE软件采集光谱数据. 仪器的波数范围为12 000~3 997 cm-1, 分辨率为16 cm-1, 将混合后的果汁样品依次装入10 mm的比色皿中, 每个样品采集3次光谱, 取其平均值作为该样品的近红外吸收光谱, 图1为样品的21条原始光谱. 光谱数据分析均在MATLAB R2016a中进行, 操作系统为Win 7.0.

2.3 光谱预处理

近红外光谱全波段区域包含系统测量噪音和操作噪音的干扰, 通过光谱预处理可以减轻或消除样品中与浓度无关的其他因素干扰. 在原始光谱波段区间835~2 500 nm分别运用中心化(center)、 标准正态变量(standard normal variate, SNV)、 多元散射校正( multiplicative scatter correction, MSC)等预处理方法分别对CRACLS和PLS建模分析, 结果见表3, 依据相关系数R越大, 均方根误差(RMSE)越小的原则选择多元散射校正的数据预处理方法作为CRACLS和PLS模型的预处理方法.

表3 不同预处理方法对应CRACLS和PLS模型结果

2.4 特征波长提取

为提高模型的预测能力, 采用人工蜂群算法对预处理后的数据进行波长优选, 并与遗传算法进行比较. 其中, 人工蜂群算法的种群大小设为100, 最大迭代次数为200, 控制参数40和遗传算法的种群大小设置为100, 最大迭代次数为200, 变异概率和遗传概率分别设置为0.5、 0.01. 本文通过150次以上的独立运行, 最终选择出现频率在120次以上的最优波长点组合, 以确保实验结果真实有效, 非偶然现象. 实验结果表明, ABC算法将光谱吸收矩阵从828维降低到32维, 而GA算法只降低到69维, 选取的最优波长组合分别如图2、 图3所示, 图中用圈标记选中的波长点. 因此, 在相同的适应度函数和相同的迭代终止条件下, ABC算法得到的维数更小, 人工蜂群算法相对遗传算法具有更强的搜索能力, 寻优性能更好.

图2 人工蜂群算法的特征波长选择图Fig.2 Optimum wavelength combination obtained by artificial bee colony algorithm

图3 遗传算法的特征波长选择图Fig.3 Optimum wavelength combination obtained by genetic algorithm

2.5 结合ABC-CRACLS的浓度定量模型

图4 测量值与预测值的关系图Fig.4 Relationship between measured value and predicted value

CRACLS是一种浓度残差增广最小二乘算法, 具有良好的定量分析能力(图4). 为了体现ABC-CRACLS算法的优越性, 与采用全光谱CRACLS、 GA-CRACLS、 全光谱PLS、 ABC-PLS、 GA-PLS模型进行比较, 见表4. 由表4可知, 经过多元散射校正预处理后, 通过ABC提取出的特征波长建立的CARCLS模型的结果最优, 该模型的校正集、 测试集的预测均方根误差分别为: 0.000 9和0.012 1. 当全谱828个波长变量参与建模, 变量之间的强相关性也可能会影响建模效果, 因此全光谱PLS和全光谱CRACLS建模效果相对其它几种经过波长优选的模型来的差. 人工蜂群提取的特征波长组合建立的模型效果比遗传算法提取的特征波长组合建立的模型效果好, 说明人工蜂群能更准确地提取出有效特征波长点组合. CRACLS、 GA-CRACLS、 ABC-CRACLS相对于PLS、 GA-PLS、 ABC-PLS模型的均方误差都相对较低, 说明CRACLS模型对于果汁中的原汁含量测量性能更强. 由图4可知, ABC-CRACLS模型的Rp为0.999 1, RMSEP仅为0.012 1, 说明该模型能对果汁中的原汁含量做出准确的预测. 由于实验室制作的样本数的环境干扰少, 测试样本与结果成强相关性, 但依旧能发现ABC-CRACLS优于其它模型.

表4 不同模型性能比较

3 结语

基于勾兑苹果汁中的苹果原汁含量建立近红外光谱CRACLS模型, 对原始近红外进行波长优选, 实验结果显示, 人工蜂群算法优选建立的CRACLS模型优于全光谱建立的CRACLS模型和GA优化算法建立的CRACLS模型, 其中, GA算法优选的波长数为69, 而ABC算法优选的波长变量数仅为32, 极大地提高了模型建立的效率, 增强了模型的精确性和稳定性, 表明ABC算法能有效提取近红外光谱的特征波长. 该模型进一步与一般的PLS模型进行比较, CRACLS在预测集和校正集的相关性和均方误差均优于PLS模型, 结果显示CRACLS模型相较于PLS模型预测能力更强, 预测精度更高. 实验表明, 本文提出的ABC结合CRACLS模型在极大降低冗余波长的情况下能实现对勾兑苹果汁中苹果原汁含量的准确测定, 该模型简单、 高效, 可为解决其它勾兑果汁中原汁含量的快速检测问题提供借鉴, 在近红外光谱分析领域具有巨大的潜力和实用价值.

参考文献:

[1] 邓总纲, 李玲慧, 温江北, 等. 草莓固体可溶物的近红外光谱信息统计分析[J]. 食品科技, 2015(5): 317-321.

[2] 樊书祥, 黄文倩, 郭志明, 等. 苹果产地差异对可溶性固形物近红外光谱检测模型影响的研究[J]. 分析化学, 2015, 43(2): 239-244.

[3] 林翔, 彭熙琳, 陈晓春, 等. 基于近红外光谱技术的辛伐他汀片剂生产过程多参数的质量监控[J]. 四川大学学报(工程科学版), 2015, 47(4): 192-197.

[4] 夏骏, 陆扬, 苏燕, 等. 烟草水溶性糖近红外定量模型中光谱范围选择方法的研究[J]. 中国烟草学报, 2015, 21(2): 19-22.

[5] 谢锦春, 袁洪福, 闫香君, 等. 漫反射近红外光谱测定聚乙烯醇 (PVA) 的醇解度与挥发分含量[J]. 光谱学与光谱分析, 2016, 36(1): 70-74.

[6] 吴迪, 宁纪锋, 刘旭, 等. 基于高光谱成像技术和连续投影算法检测葡萄果皮花色苷含量[J]. 食品科学, 2014, 35(8): 57-61.

[7] 吴迪, 吴洪喜, 蔡景波, 等. 基于无信息变量消除法和连续投影算法的可见-近红外光谱技术白虾种分类方法研究[J]. 红外与毫米波学报, 2009, 28(6): 423-427.

[8] 吴双, 涂斌, 陈志, 等. 近红外光谱结合蒙特卡洛交互验证奇异样本筛选的橄榄油掺伪定性定量分析[J]. 食品科技, 2016(10): 277-282.

[9] MA H L, WANG J W, CHEN Y J,etal. Rapid authentication of starch adulterations in ultrafine granular powder of Shanyao by near-infrared spectroscopy coupled with chemometric methods[J]. Food Chemistry, 2017, 215: 108-115.

[10] RAMMAL A, PERRIN E, CHABBERT B,etal. Evaluation of lignocellulosic biomass degradation by combining mid-and near-infrared spectra by the outer product and selecting discriminant wavenumbers using a genetic algorithm[J]. Applied Spectroscopy, 2015, 69(11): 1303-1312.

[11] WANG G, MA M, ZHANG Z,etal. A novel DPSO-SVM system for variable interval selection of endometrial tissue sections by near infrared spectroscopy[J]. Talanta, 2013, 112: 136-142.

[12] GOODARZI M, DOS SANTOS COELHO L. Firefly as a novel swarm intelligence variable selection method in spectroscopy[J]. Analytica Chimica Acta, 2014, 852: 20-27.

[13] KARABOGA D, AKAY B. Artificial bee colony (ABC) algorithm on training artificial neural networks[J]. Signal Processing and Communications Applications, 2007, 112(4): 1-4.

[14] KARABOGA D, BASTURK B. Artificial bee colony (ABC) optimization algorithm for solving constrained optimization problems[J]. Foundations of Fuzzy Logic & Soft Computing, 2007, 11(3): 789-798.

[15] 刘三阳, 张平, 朱明敏. 基于局部搜索的人工蜂群算法[J]. 控制与决策, 2014, 29(1): 123-128.

[16] 李彦苍, 彭扬. 基于信息熵的改进人工蜂群算法[J]. 控制与决策, 2015, 30(6): 1121-1125.

[17] 于明, 艾月乔. 基于人工蜂群算法的支持向量机参数优化及应用[J]. 光电子·激光, 2012, 23(2): 374-378.

[18] 黄丽君, 郭昆. 收发件同步的快递服务网点选址与车辆线路规划算法研究[J]. 福州大学学报(自然科学版), 2015 ,43(3): 322-327.

[19] 王立国, 赵亮, 刘丹凤. 基于人工蜂群算法高光谱图像波段选择[J]. 哈尔滨工业大学学报, 2015, 47(11): 82-88.

[20] 沈掌泉, 卢必慧, 单英杰, 等. 基于变量选择的偏最小二乘回归法和田间行走式近红外光谱进行土壤碳含量测定研究[J]. 光谱学与光谱分析, 2013, 33(7): 1775-1780.

[21] MELGAARD D K, HAALAND D M, WEHLBURG C M. Concentration residual augmented classical least squares (CRACLS): a multivariate calibration method with advantages over partial least squares[J]. Applied Spectroscopy, 2002, 56(5): 615-624.

[22] HAALAND D M, MELGAARD D K. New prediction-augmented classical least-squares (PACLS) methods: application to unmodeled interferents[J]. Applied Spectroscopy, 2000, 54(9): 1303-1312.

[23] HEGAZY M A M, FAYEZ Y M. Mean centering of ratio spectra and concentration augmented classical least squares in a comparative approach for quantitation of spectrally overlapped bands of antihypertensives in formulations[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2015, 140: 210-215.

[24] HEGAZY M A, YEHIA A M, MOUSTAFA A A. Bivariate versus multivariate smart spectrophotometric calibration methods for the simultaneous determination of a quaternary mixture of mosapride, pantoprazole and their degradation products[J]. Die Pharmazie-An International Journal of Pharmaceutical Sciences, 2013, 68(5): 317-326.

[25] MOUSTAFA A A, HEGAZY M A, MOHAMED D,etal. Evaluation of multivariate calibration models with different pre-processing and processing algorithms for a novel resolution and quantitation of spectrally overlapped quaternary mixture in syrup[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2016, 154: 76-83.

猜你喜欢

蜂群波长遗传算法
“蜂群”席卷天下
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
日本研发出可完全覆盖可见光波长的LED光源
软件发布规划的遗传算法实现与解释
改进gbest引导的人工蜂群算法
基于改进的遗传算法的模糊聚类算法
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
便携式多用途光波波长测量仪
蜂群夏季高产管理