APP下载

基于电子鼻与LightGBM算法判别葡萄酒品种的研究

2020-07-03母芳林

食品与机械 2020年5期
关键词:电子鼻交叉葡萄酒

乔 淼 张 磊 母芳林

(河北工业大学人工智能与数据科学学院,天津 300130)

葡萄酒是一种极具风格和个性化的酒精饮料,不同

产地、不同年份、不同品种和不同工艺条件的葡萄酒均具有显著的特征[1],其中葡萄品种是决定葡萄酒品质的重要因素。目前,鉴别不同品种的葡萄酒的方式主要还是利用品评专家的感官鉴定[2]来实现,受到个人经验和条件的限制;而现有的仪器分析[3]、理化分析[4]等只能从某一或者某几个侧面反映葡萄酒的品质。

随着电子鼻技术的发展,很多研究人员开始利用这一技术对葡萄酒品质特征进行快速判别。张振等[5]利用表面声波型电子鼻对不同年份的黄酒样品进行采样,并利用主成分分析法和典型判别分析对气体数据进行分析,成功区分了4种酒龄黄酒样品。许春华等[6]利用电子鼻指纹分析系统对张裕干白和长城干红的气味进行鉴别,并采用主成分分析和线性判别分析法对传感器响应信号进行分析,实现了对葡萄酒的风味评价。刘奕彤等[7]利用电子鼻检测技术有效地鉴别了西拉、马瑟兰和美乐3种品种干红葡萄酒的香气差异。宫雪[8]利用电子鼻对不同葡萄品种酿造葡萄酒进行检测,结合主成分分析方法和线性判别分析探索电子鼻的识别能力,结果显示,电子鼻能很好地识别与分区葡萄酒的品种。

LightGBM是一种集成学习算法,具有较优的数据分类能力,不易过拟合,在食品安全[9]、信用评级[10]、电力评估[11]、疾病预测[12]等方面可实现快速准确的判别,但目前尚未见其在葡萄酒品种鉴别中的相关报道。研究拟提出一种LightGBM结合电子鼻检测的葡萄酒品种快速、准确识别方法,以期为葡萄酒检测引入性能优异的算法。

1 材料与方法

1.1 材料与仪器

1.1.1 试验材料

赤霞珠、马瑟兰、西拉、梅洛、蛇龙珠、佳美、品丽珠7个品种干红葡萄酒样品:华夏产区2018年产的原酒,每种样品100瓶,中粮华夏长城葡萄酒有限公司。

1.1.2 主要仪器

便携式电子鼻:PEN3型,由10个金属氧化物气体传感器矩阵(如表1所示)、气体采集装置和信号处理单元组成,德国Airsense公司。

表1 PEN3传感器名称与性能描述

1.2 试验方法

1.2.1 试验环境控制 室内温度22~25 ℃,湿度50%~55%。用移液器取每个酒样300 mL并将酒样装于500 mL烧杯中,用保鲜膜密封,并使其与小瓶中的空气静置平衡10 min,使样品气体能充分挥发在密闭烧杯中,待气体达到饱和平稳状态后进行正式试验。

1.2.2 电子鼻采样 采用直接顶空吸气法,气体采集前以300 mL/min的速率吸取经由活性炭处理的洁净空气,对电子鼻的气室和气道进行清洗,清洗时间为60 s;检测时,将进气针与补气针同时插入保鲜膜密封的烧杯中,电子鼻内置气泵开始工作,以300 mL/min的速率吸取样品气体,采集间隔时间1 s,采样时间为90 s;为避免试验过程中人为操作造成的偶然性误差,确保样品的准确性与可靠性,对同一样品进行3次重复试验。每次采集后的气体信息以文本方式保存到计算机内,以便进行后续的数据分析处理。

1.3 建模方法

1.3.1 LightGBM算法 LightGBM算法是一种基于GBDT的数据模型,是将弱学习器组合成强大的学习器的集成学习算法[13]。算法中使用回归树作为弱学习器,通过使用每个预测结果与目标值的残差作为下一个学习的目标,获得当前残差回归树,每个树都学习所有先前树的结论与残差,将多个决策树的结果加在一起作为最终预测输出。利用直方图算法对特征进行预排序,并利用节点展开方式进行树的构建,是一种高效、高精度、高性能的分类算法。

1.3.2 支持向量机 支持向量机(SVM)是在分类分析中的监督式演算法,利用分离超平面将两种或多种类别资料做区分[14]。当资料为线性可分时,支持向量机透过决策平面将不同类别资料进行区分,资料与决策平面的距离成为边界,距离越大越能够明确的区分资料。面对非线性的分类问题时,先计算每个资料与决策边界的最小距离,再将所有的距离加总求最大值,得到区分线为分离超平面。

1.3.3 随机森林 随机森林(RF)是以决策树为元分类器,通过随机方式建立“森林”对样品进行训练并预测的一种分类器[15]。使用拔靴法将数据随机进行取后放回的动作,在数据取出后使用特征袋法随机选取训练数据集特征来生成决策树,重复这样的动作建立出每棵独立的决策树,最后对多颗决策树进行投票对分类结果进行评断。

1.3.4 BP神经网络 神经网络是由人工神经元所组成,以人工神经元来模仿生物神经元的功能,再由人工神经连接成网络,进而达到模仿生物神经网络的目的[16]。在多层神经网络中,由于隐藏层没有理想输出值,只能透过计算最后一个隐藏层中的误差来估计上一层的理想输出值后来计算上一层的误差,通过这种方式一层一层的反向分析传递到第一层,称之为反向传输神经网络(BPNN)。

1.3.5 TPE超参数寻优 以TPE算法对LightGBM超参数进行自适应寻优,假设λ1,λ2,…,λn代表模型中选择的超参数,Λ1,Λ2,…,Λn代表每个超参数的选择域;则模型的超参数选择域空间定义为Λ=Λ1×Λ2×…×Λn,假设训练中的损失函数L(·),当λ∈Λ的超参数使用k折交叉验证方法时,超参数的优化问题可以表示为最小化公式:

(1)

式中:

f(λ)——k次损失函数的平均值;

k——交叉验证次数;

TPE算法利用概率模型代理复杂优化函数[17],概率模型中引入了待优化目标的先验,模型能有效减少不必要的采样,是考虑历史参数的一种搜索方法。TPE使用顺序模型全局优化(SMBO)方式进行超参数寻优[18],利用预期改进法(EI)作为优化准则,使用以往的超参数推荐下一次的超参数。

2 不同品种葡萄酒的识别与分析

2.1 电子鼻响应信号曲线

由图1可观察到,电子鼻响应值的变化趋势呈现一定的规律,在90 s的检测过程中,传感器的响应值先突然升高,偏离原有基线,随着检测时间的延长,传感器的响应值基本达到稳定状态,其中B、F、G、H、I 5个传感器对葡萄酒气味响应明显,G、F响应值更是高于150,表明葡萄酒中存在甲烷类、烃和硫的有机成分。其他5种传感器响应值都在5以下,没有变化或者变化不明显。通过观察响应曲线,电子鼻设备能对葡萄酒进行检测,但想要对每种品种进行建模分析,需要对数据进行进一步的处理。

图1 传感器响应图

通过二维多项式拟合传感器响应曲线,其表达式:

y=A0+A1x+A2x2,

(2)

式中:

y——传感器吸附过程的响应值;

A0、A1、A2——多项式曲线拟合系数;

x——传感器吸附时间,s。

采用每条拟合曲线的模型3个系数A0、A1、A2作为单个传感器特征值。

2.2 LightGBM判别模型的建立

试验中,共采用到2 100(7种品种×100瓶×3次平行试验)组葡萄酒的气味信息数据,每组数据具有30(10个传感器×3个特征值)维特征。LightGBM算法经Python2.7实现,采用TPE超参数寻优算法对模型超参数进行选择,其中参数表述、取值范围、最终取值情况由表2所示。采用5折交叉验证方法进行判别准确性评估,将2 100组资料分为5个子集,每次轮流挑选1个子集(420组)资料作为验证,剩下的4个子集(1 680组)数据作为训练资料,最后将5次的资料辨别率取平均作为整体的辨别率。

从表3可以看出,LightGBM方法作为改进的集成算法在葡萄酒的气味数据挖掘中表现出了优秀的判别准确性。在5折交叉验证中,每次的判别准确率均高于95%,并在第3次交叉验证中准确率高达98.10%,提升了最终的平均准确率,并且5折交叉验证避免了判别的偶然性与单一性,有力地说明了LightGBM模型的适用性。

2.3 不同算法性能的比较

为验证所提的LightGBM在葡萄酒鉴别中的分类优越性,选择支持向量机(SVM)、随机森林(RF)、神经网络(BPNN)3种在电子鼻检测中常用的分类算法进行结果的验证与比较。为保证各算法达到最优的效果,同样采取TPE超参数寻优方法对模型进行优化,采用5折交叉验证对模型进行分类准确性的判别。

由表4可知,4种算法对葡萄酒鉴别准确率均高于90%,说明电子鼻结合模式识别能有效地判别葡萄酒中葡萄的品种;LightGBM算法取得了最高的判别准确率,说明LightGBM模型通过不断拟合前一棵树的误差能有效提高分类准确率。其次为随机森林算法,说明对于特征值与特征向量进行随机选取构建的“森林”能多气味数据进行较全面的训练与学习,但因没考虑每棵树产生的误差其分类效果劣于LightGBM。通过比较得知,经典的支持向量机算法和神经网络算法在验证集上的效果相对较差,支持向量机平均判别准确率最低为90.53%,并且在第5次交叉验证中准确率为89.29%,在420个验证集中有45个被判别错误,其分类效果不佳。说明支持向量机在对葡萄酒气味信息进行分类时无法寻找到最优的分线性映射函数,无法对多品种的葡萄酒数据构建最优的分类超平面。相较于支持向量机,神经网络展现了较优良的分类效果,在5折交叉验证中其分类准确率均高于90%,并且平均准确率为92%仅次于随机森林算法,说明误差反向传播的神经网络算法通过不断减小误差能达到较好的分类效果,然而每次训练样本仅为1 680个,神经网络无法得到最优的训练,固其分类效果欠佳。

表2 超参数信息

表3 LightGBM模型的5折交叉验证的测试集判别准确率

Table 3 5-fold cross-vaidation method for accuracy of LightGBM model in test set

交叉验证次数准确率/%交叉验证次数准确率/%第1次96.19第4次97.38第2次95.95第5次95.48第3次98.10平均值96.62

表4基于5折交叉验证的不同算法测试集准确率

Table 4 5-fold cross-vaidation method for accuracy of different algorithm model in test set%

3 结论

利用电子鼻对赤霞珠、马瑟兰、西拉、梅洛、蛇龙珠、佳美、品丽珠7种葡萄酒的气味进行采集。通过观察传感器响应曲线提出二次多项式拟合方法对曲线进行拟合,提取多项式3个系数作为90 s传感器信号的特征值,大大地降低了特征值的维度。然后,提出LightGBM算法对不同品种葡萄酒进行区分,并利用TPE参数寻优方法对算法进行改进,最后对比支持向量机、随机森林、反向传输神经网络算法的分类效果,结果表明LightGBM模型的5折交叉验证平均准确率为96.62%,分类准确度最高,验证了所提算法在葡萄酒品种鉴别中的优越性。

试验探索了电子鼻和LightGBM模型在葡萄酒品种检测中的可行性,为提高判别准确率后续将进一步探索电子鼻数据,通过特征选择方法选取更具代表的葡萄酒气味特征对其进行分析。

猜你喜欢

电子鼻交叉葡萄酒
基于DFI-RSE电子鼻传感器阵列优化的葡萄酒SO2检测
基于电子鼻的肺癌无创检测研究
菌类蔬菜交叉种植一地双收
中国2020葡萄酒消费量下降17%
葡萄酒的产区品牌
“六法”巧解分式方程
法国葡萄酒何以誉满天下
砸酒瓶
飞到火星去“闻味儿”——神奇的电子鼻
连数