APP下载

基于近红外光谱和复杂样品划分集合的生物质灰分含量模型构建

2023-10-09张梦玲巩志杰张世壮王晓玉周仲华谢光辉

光谱学与光谱分析 2023年10期
关键词:灰分生物质光谱

郭 歌,张梦玲,巩志杰,张世壮,王晓玉,周仲华,杨 玉,谢光辉

1. 湖南农业大学农学院,湖南 长沙 410128 2. 湖南省农业信息与工程研究所,湖南 长沙 410125 3. 中国农业大学农学院,北京 100193 4. 国家能源非粮生物质原料研发中心,北京 100193 5. 湖南省智慧农业工程技术研究中心,湖南 长沙 410125 6. 湖南省产业技术基础公共服务平台,湖南 长沙 410125

引 言

生物质作为可再生可贮藏的清洁能源,是目前国内外最有前景的替代化石能源之一,被广泛应用于发电及生产燃料乙醇、生物柴油、沼气等产业[1],对固碳或减缓气候变化的作用越发显著。生物质原料主要分为林业剩余物(木质)和作物秸秆(草质)[2],其化学成分均含纤维素、半纤维素、木质素和灰分。灰分含量虽少,但直接关系着生产效率,因此灰分含量是工业工艺设计重要参数指标[3-4]。利用传统方法测定生物质样品灰分存在耗时长、污染环境,检测成本高的弊端,而利用近红外光谱技术(near-infrared spectroscopy,NIRS)建立模型,尤其在大量、无损的复杂样品的测试中极具优势[5-7]。

生物质光谱的主要信息来源于C—H、N—H、O—H等含氢官能团的倍频和合频吸收[8]。由于纤维素、半纤维素和木质素等结构为含氢基团,所以基于生物质纤维素、半纤维素和木质素等的近红外光谱(NIRS)建立模型均获得理想的结果;灰分是矿质元素氧化物的总和,结构为无机盐类,在近红外区域并没有特征光谱,但灰分常与有机物成分之间存在相关性,利用这种相关性可以对灰分进行NIRS定量测定[9]。Ye等建立玉米秸秆木质素和灰分模型,结果表明木质素和灰分NIRS模型的RMSEP分别为0.987和1.435预测结果木质素优于灰分,模型需进一步优化[10];刘丽英在建立的NIRS测定玉米秸秆中灰分、半纤维素、纤维素等组分含量的校正模型中,灰分、纤维素和Klason木素R2分别为0.934 1、0.956 9和0.964 7[11]。为解决生物质灰分预测模型优化问题,本研究选用不同地区、不同类型的生物质原料样品,通过不同建模方法的组合及样本筛选划分集合方式,建立并优化灰分含量模型,比较样品集合划分方式对模型拟合性和稳健性的影响,筛选最优生物质样品集合划分方式,以期解决生物质电厂发电原料种类繁多复杂、测定困难和成本高等难题,为生物质发电厂测定原料灰分含量提供可靠依据。

1 实验部分

1.1 样品

样本来自河北省吴桥县、河北省行唐县、江西省赣县、辽宁省铁岭县和山东省郯城县,共计1 465份,包含有木本生物质样本(1 084份)和草本生物质样本(381份)。木本生物质样本(木质样品)包含树皮、树根枝丫、木材边角料和长白皮,草本生物质样本(草质样品)包括园林叶、玉米秸秆、棉花秸秆、小麦秸秆、园林叶和杂草(表1)。

表1 供试生物质原料样品基本信息Table 1 Basic information of tested biomass raw material samples

1.2 样品灰分含量的化学分析及光谱采集扫描参数设置

将生物质样品切割为<5 cm的样段后,用生物质粉碎机(CBSS11,北京慧明雨)粉碎过6 mm筛网,在105 ℃烘干后应用微型高速万能粉碎机(FW100,天津泰斯特)粉碎为细度0.9 mm的样品,用于化学测定和近红外光谱扫描灰分含量。

根据国家标准NB/T 34057.6—2017《木质纤维素类生物质原料化学成分的测定第6部分:灰分的测定》[12],生物质样品灰分含量用干灰化法测定,将2 g样品放置于Vulcan 3-550马弗炉(Neytech 美国)550 ℃下灰化5 h后测定其灰分质量,供试生物质样品的灰分含量参考值在0.5%~36.3%之间(表2)。

表2 生物质样品集合划分及灰分含量的建模集和预测集的取值范围Table 2 Biomass sample set division and ash value ranges of calibration and validation sets

应用Scientific-Antaris Ⅱ傅里叶近红外光谱仪(Thermo Fisher 美国)采集样品的光谱。波长范围为4 000~10 000 cm-1,分辨率为8 cm-1,波数精度为±0.03 cm-1。单份样品光谱采集次数为64次。该仪器配备有InGaAs检测器,使用积分球收集光谱,将平均光谱作为样本光谱,每条光谱包含1 557个光谱变量。

1.3 样品集合划分及模型构建

通过主成分分析(principal component analysis,PCA)剔除异常样本20份,有效样本1 445份(表1)。

由表2可知,按照3类不同方法,样品可划分为9个样品集合,包括1个集合即“全样品”(1 445份有效样品),2个集合即草质和木质样本和6个子类样本集合。在6个子类样本建模集和预测集模型中,玉米秸秆灰分含量的均值最高,分别为14.4%和13.8%,木材边角料灰分含量最低为3.7%和4.0%;木质样本的灰分含量的极值和均值较草质样本低;长白皮+棉花秸秆(WC)集合标准差最小分别为2.4%和1.6%,玉米秸秆集合标准差最大均为7.0%;全样本混合模型建模集的灰分含量范围为0.5%~36.3%,预测集的范围为0.9%~32%,分布范围一致且预测集两端极值均在建模集之中,可说明该划分结果合理。该分类方法归纳为“筛选分类集合法”。

采用Kennard-Stone法[13]将样品量按4∶1的比例划分为建模集和预测集,其中建模集用于模型的建立和内部交叉验证预测,预测集用于预测未知样品性能评价。应用Chem Data Solution 3.1.0(大连达硕)软件,构建9个近红外光谱生物质样品集合灰分含量的模型。

样品的近红外光谱信息量丰富,为了解决光谱峰重叠并消除线性基线漂移和降低随机噪声的影响,经过多次筛选尝试,确定使用Savitzky-Golay(SG)求导或者SG求导+多元散射校正(MSC)组合对光谱进行预处理。其中,全样本、草质样本和木材边角料3个样品集合采用SG求导进行光谱预处理,木质、树皮、玉米秸秆、长白皮+棉花秸秆、小麦秸秆+玉米秸秆+棉花秸秆和小麦秸秆+杂草+园林叶共6个样品集合采用SG求导+MSC方法预处理光谱。9个集合建模的变量选择方法均为竞争性自适应重加权(CARS),校正方法均为偏最小二乘法(PLS)组合。

1.4 近红外光谱模型的评价指标

评价近红外光谱模型的指标主要有4个,分别为决定系数(R2)、均方根误差(RMSE)、相对分析误差(RPD)和平均相对偏差(ARD)。R2是回归偏差占总偏差的比率,用来判断模型的拟合优度,其值越接近1表示模型预测效果越好[式(1)]。RMSE表示NIRS结果与参比值差异的标准误差[式(2)],交叉验证均方根误差(RMSECV)是检验模型的稳定性和内部预测能力的重要指标,预测均方根误差(RMSEP)是外部验证检验模型实际预测能力的重要指标预测值与参考值之间的方差,其值越小即RMSECV和RMSEP越接近0,模型的拟合效果越好。RPD可用来验证模型的稳定性和预测能力[式(3)],若RPD>3,说明该模型预测精确度高,所建模型可用于样品相关组分的预测;若2.5

图2 生物质样本预处理后光谱图(n=1 445)(a):SG求导处理后光谱图;(b):SG求导+MSC组合处理后光谱图Fig.2 Preprocessed spectra of biomass samples (n=1 445)(a):Savitzky-Golay (SG) derivative;(b):Savitzky-Golay (SG) derivative and multiple scattering correction (MSC)

(1)

(2)

RPD=SD/RMSE

(3)

式(3)中,RPD为相对分析误差;SD为建模集或预测集参比值的标准偏差;RMSE为均方根误差。

(4)

式(4)中,ARD为平均相对偏差;Xi为第i份样本的参比值;Yi为第i份样本的预测值;n为样本量。

2结果与讨论

2.1 不同样品集合模型的拟合性

由表3可知,不同种类的生物质样品灰分含量差异较大,集合建模效果也会存在较大差异。建模的主成分因子数会直接影响模型精度和拟合性。主成分因子数过多,会出现模型过拟合现象,从而导致模型预测结果不稳定,预测误差会显著增大。对1 445份样品划分集合方法获得的9个集合建立NIRS灰分模型的主因子数(Factors)范围为5~9。其中,木质样本(W)和草质样本(H)2个集合NIRS模型主因子数高达9和8,模型拟合性有待进一步验证以防止模型过拟合。而分析基于6个集合划分下的近红外灰分模型主成分因子数,除木材边角料(L)的因子数为8外,其他模型的因子数变化范围为5~7,综上所述,划分6个集合建立近红外生物质灰分模型拟合度较优。

表3 生物质灰分近红外模型评价Table 3 Evaluation of near infrared models for ash content in biomass

2.2 不同样品集合模型的稳健性

模型的稳健性是模型应用的重要指征之一,通常用RMSECV/RMSEP值评价,其值越接近1,表示模型越稳定。由表3可知,9个样本集合模型的RMSECV/RMSEP在0.75~1.41(表3),其中,W集合的RMSECV/RMSEP最高为1.01,表示W集合模型稳健性最好;在6个子类样本模型中,M集合的RMSECV/RMSEP为1.10,表示其模型的稳健性最优。综合9个样本集合的RMSECV/RMSEP分析,除H集合(1.41)和WWL集合(1.34),其他模型的比值均相对接近于1。

9个样品集合模型中F、M、长白皮+棉花秸秆(WC)、WCM和WWL等5个集合模型的交叉验证平均相对偏差(ARDcv)较小,分别为9%、6%、7%、7%和9%,模型的内部预测准确度较高;H、M、WC、WCM和WWL等5个集合模型的预测平均相对偏差(ARDp)较小,分别为11%、8%、9%、8%和10%,外部预测准确度较高,因此,草质样品集合模型的预测准确度高于木质样品集合。

2.3 不同样品集合模型的精确性

分析表3可知,9个生物质样品集合的灰分模型的交叉验证均方根误差(RMSECV)和预测均方根误差(RMSEP)范围分别为0.588 7~2.422 8和0.486 4~2.860 6。其中,WC集合模型RMSECV最小为0.588 7,该模型拟合准确度最高;WCM、M、L、WWL和H等5个样品集合模型的RMSECV分别为1.088 8、1.108 6、1.144 4、1.193 6和1.659 4,均低于W、B和F等3个集合模型;基于6个子类样本模型分析,WC集合模型RMSEP最低为0.486 4;基于2个子类样本模型分析,H集合的RMSEP为最低为1.177 7。因此,草质样本集合所建立模型的精确度优于木质集合且划分6个集合建立生物质NIRS灰分模型精确度较高。

不同生物质样品集合建立近红外灰分含量模型的交叉验证相对分析误差(RPDcv)范围为2.0~6.3(表3)。其中,草质样品集合中的H(RPDcv=3.7)、WC(RPDcv=4.1)、WCM(RPDcv=6.2)、M(RPDcv=6.3)、F(RPDcv=2.5)和W(RPDcv=2.6)这6个集合模型可满足灰分含量的定量分析,可直接应用于生物质样品灰分的近红外分析检测;L、B和WWL等3个集合的RPDcv均<2.5,因此模型待优化。9个集合灰分模型的预测相对分析误差(RPDp)范围变化较大为1.3~7.8,草质样品集合中的WCM(RPDp=7.8)、M(RPDp=7.0)、H(RPDp=5.1)和WC(RPDp=3.3)4个集合灰分模型表现出显著优越性,模型均可用于生物质样品灰分外部验证的预测和评估;而F、W、WWL、B和L等5个集合RPDp<2.5,模型待优化。

2.4 不同样品集合模型建模集与外部预测集的相关关系

图3 不同生物质样品集合近红外光谱灰分模型建模集和预测集的散点关系F:全样本;W:木质样本;H:草质样本;L:木材边角料;B:树皮;M:玉米秸秆;WC:长白皮+棉花秸秆;WCM:小麦秸秆+玉米秸秆+棉花秸秆;WWL:小麦秸秆+杂草+园林叶×:建模集;○:预测集Fig.3 Scatter relationships between Calibration set and prediction set of near-infrared spectral ash model for different biomass sample sets×:Calibration;○:PredictionF:Full set;W :Woody subset;H:Herbaceous subset;L:Leftover material;B:Bark;M:Maize straw;WC:White bark+cotton straw;WCM:Wheat+Maize+cotton straw;WWL:Wheat straw+weed+garden leaf

3 结 论

3.1 生物质样品集合模型的综合评价

通过对1 445份生物质样品灰分含量的分析,发现木本生物质样品灰分含量平均为6.8%,而草本生物质样品灰分含量平均为10.8 %,差异高达1.6倍,这与Tao等[16]的结论较为一致,这是由于木本植物为多年生植物,其碳水化合物的多年积累所造成的。

对6个子类样本分析可知,单一样品建模的拟合性和精确度最差,如L集合和B集合,M模型综合表现是最优;对混合样品建模,WCM集合模型综合表现最优。这是由于木质样本受环境影响较大,树皮、碎木片和长白皮泥沙较多,树根枝丫样品分类混杂;木材边角料含有建筑用胶、油漆、布料、皮革和泥土等杂质,都会影响近红外光谱扫描及其化学测定,而草、叶和秸秆样本纯净,来源单一而明确,因此模型的拟合度和稳健度都较好。

3.2 生物质样品近红外光谱技术预测应用解决方案

为解决生物质电厂发电原料测定步骤繁琐且成本高这一问题,利用9个近红外生物质样品集合模型对11种电厂生物质样品的ARD进行预测评估,分别选出最适合这11种生物质样品预测的近红外应用模型(表4)。除玉米芯样本外,草质样本ARD预测范围为3.7%~16.5%,而木质样本中只有长白皮、树根枝丫和碎木片样本的ARD低于20%,因此,草质与木质样本相比预测精度更高,预测效果更好。由于建模数据库中的玉米芯的样本量少,筛选出未参与建模的玉米芯最适宜用草质样本模型进行预测,但ARD预测精度为38.3%,预测效果较差,不适于直接模型应用。综上所述,目前草质样本集合所建立模型的精确性优于木质样本集合,木质样本集合灰分含量模型有待进一步扩充优化。

表4 应用近红外光谱模型预测生物质样品灰分含量的解决方案Table 4 Solution for predicting ash content of biomass samples by using near infrared spectral model

运用筛选分类集合法将生物质原料样本进行分类建模,划分为不同类型的集合有助构建生物质样本灰分含量的不同层级预测模型,有利于构建拟合度和预测精度更高的灰分含量模型。综合9个生物质样品集合的灰分含量模型分析,草质样品集合的灰分含量预测模型的拟合性、准确性和精确度均优于全样本集合、木质样品集合及划分的6个子类样本集合。这都将为生物质能源转化和优化生物质原料检测技术提供可靠的理论和技术支持。

猜你喜欢

灰分生物质光谱
基于三维Saab变换的高光谱图像压缩方法
基于灰分回控的智能密度控制系统在寨崖底选煤厂的应用
灰分在线检测对选煤智能化建设作用的思考
生物质挥发分燃烧NO生成规律研究
潘集选煤厂重介灰分控制系统的开发与应用
不同重量僵蚕总灰分含量的比较研究
《生物质化学工程》第九届编委会名单
《造纸与生物质材料》(英文)2020年第3期摘要
生物质碳基固体酸的制备及其催化性能研究
星载近红外高光谱CO2遥感进展