APP下载

一种基于分类-回归决策树的烤烟产区识别模型

2014-11-24张毅李强王政张一扬周冀衡

中国烟草学报 2014年6期
关键词:烤烟分段烟叶

张毅,李强,王政,张一扬,周冀衡

1湖南农业大学生物科学技术学院,湖南省长沙市芙蓉区农大路1号 410128;

2湖南农业大学烟草研究院,湖南省长沙市芙蓉区农大路1号 410128;

3广西中烟工业有限责任公司,广西壮族自治区南宁市北湖南路28号 530001

一种基于分类-回归决策树的烤烟产区识别模型

张毅1,2,李强2,王政3,张一扬2,周冀衡1,2

1湖南农业大学生物科学技术学院,湖南省长沙市芙蓉区农大路1号 410128;

2湖南农业大学烟草研究院,湖南省长沙市芙蓉区农大路1号 410128;

3广西中烟工业有限责任公司,广西壮族自治区南宁市北湖南路28号 530001

为建立不同产区及风格烤烟烟叶与化学指标之间的关系,对2005~2009年湖南省、河南省、福建省和云南省等4省份共计1040份烟叶样品的21种化学成分进行检测,并利用Mining Tree模型进行分类-回归决策树(C&RT analysis)数据分析。结果表明:(1)从21个烟叶化学成分中,共筛选出14个特征化学指标,其中钾和硝酸根为4省烟叶共有特征化学指标;(2)湖南、河南、福建和云南4省份识别概率最高的特征化学指标分段组合(Segment)分别为:还原糖(≤24.93%)、钾(>1.98%)、pH值(≤5.37)(p=0.658);钾(≤1.98%)、灰分(>11.03%)、水溶性灰份碱度(≤0.49)、硝酸根(≤0.06%)(p=0.776);还原糖(>24.93%)、钾(>1.98%)、硝酸根(≤0.06%)、蛋白质(>5.01%)(p=0.914);钾(≤1.98%)、灰分(≤11.03%)、水溶性总糖(>28.94%)、硫酸根(≤1.43%)(p=0.957)。分类-回归决策树方法在建立烤烟化学成分识别模型中具有重要的应用价值。

烤烟;产区;化学指标;识别;分类-回归决策树分析;Mining Tree模型

烟叶质量与风格特色主要受烟叶外观质量、物理特性与化学成分等三个方面因素的影响,其中化学成分是烟叶质量与风格特色形成的物质基础[1-2],是定位烟叶质量风格的重要指标之一[3]。在生产中,通常以单个或多个化学成分的含量以及多种化学成分的比例来表征烟叶质量风格[4]。例如,刘金霞等[5]研究发现浓香型烟叶总氮、烟碱、降烟碱含量较高,而清香型烟叶的总糖、还原糖含量较高。云南清香型烟叶的特征化学指标可以归纳为糖碱比10-15、烟碱2%左右、总糖25%左右[6]。因此,实现定量化烟叶特征化学成分指标对于理解烟叶质量及风格形成具有重要的意义。

由于烟叶的化学成分指标多而复杂,通常利用相关分析[3]、通径分析[3]、逐步判别分析[7]、因子分析[8]、聚类分析[9]等多种数量统计方法进行烟叶特征化学指标的分析与筛选。然而,由于各个化学成分指标间关系的不确定性与复杂性,导致这些统计方法很少能实现对烟叶特征化学成分进行定量化和筛选,更难以系统性地建立烟叶的特征化学指标识别模型。分类-回归决策树(Classification and Regression Tree approaches,C&RT)分析提供了一种可以从大量指标中筛选出特征指标并进行定量化的方法[10],它分析过程不需要预先了解相关自变量间的内在联系,同时由于采取非参数性检验,自变量可以是连续变量或者分类变量,非常便于数据的挖掘与分析[11]。本研究利用基于分类-回归决策树方法的Mining Tree模型对不同省份烟叶化学成分进行分析,筛选出不同区域烟叶的特征化学指标,以期为理解烟叶质量与风格特色的形成机理与调控措施的研究提供理论与技术支持。

1 材料与方法

1.1 烟叶样品

本论文研究中共收集到本课题组以及合作伙伴2005~2009年在湖南省、河南省、福建省和云南省等4省份所开展烟叶试验中的1040份烤烟烟叶样品,其中各省分别有169、142、210、519份样品。主要的烤烟品种为K326、中烟101、中烟100、云烟87、云烟85、红花大金元、NC89、NC82、翠碧1号、G80等10个品种,烟叶等级为X2F、C2F、C3F、B2F等4个等级。

为了对Mining Tree模型所筛选出的烟叶特征化学指标正确性进行验证,选取《中国烟草科学技术数据库》(http://sjk.ztri.com.cn/tobacco/index.jsp)之“烟叶主要化学成份分析数据库”中湖南省、河南省、福建省、云南省等4省份2006~2007年共计331个烟叶样品进行特征化学成分指标正确性的验证。在验证烟叶样品数据库中,烤烟品种为K326、中烟100、云烟87、云烟85、红花大金元、NC82、翠碧1号、G80等8个品种,烟叶等级为X2F、C2F、C3F、B2F等4个等级。

1.2 烟叶化学成分指标

研究共选取水溶性总糖、总植物碱、蛋白质、总氮、还原糖、总挥发酸、总挥发碱、石油醚提取物总量、醚提取物中性总量、醚提取物酸性总量、醚提取物碱性总量、pH值、钾(K2O)、氯离子、硝酸根、硫酸根、灰份、水溶性灰份碱度、氮碱比、糖碱比、钾氯比等21个化学指标进行区域烟叶特征化学指标的分析与筛选。相关化学指标的测定方法参照文献[12-14]进行。

1.3 Mining Tree模型

Mining Tree是PS-Explore NC软件中数据分析模块之一,它提供了一种简单易用从大批量数据组中挖掘数据组间相互关系与未知趋势的工具[15]。Mining Tree模型基于分类-回归决策树方法(C&RT,Classification and RegressionTree)进行数据的统计分析[10-11],它通过结合逐步线性回归与回归树[16]方法去识别出相关的自变量[16]。如图1所示,Mining tree模型通过对多个有效自变量(诸如A、B、C、D等)按一定规则进行连续二分处理(successive dichotomy),最终完成对因变量X的产生进行合理的分析与解释[11,17]。即在对自变量进行连续二分处理过程中,产生不同的自变量分段组合(Segment,SNr.),以分段SNr.5为例,概率p值为自变量A(数值≤…)、B(数值≤…)、C(数值>…)可以解释因变量X的概率,分析过程如下图1所示。

图1 Mining Tree模型数据分析示意图Fig.1 Mining Tree model for data analysis

在Mining Tree模型分析中,自变量可以是连续变量或者分类变量,连续变量、分类变量分别采用F-test、Chi2-test方法进行显著性检验分析[11],本研究中显著性检验水平为P<0.05。由于因变量可能受到众多自变量的影响,在模型对自变量进行连续二分处理中,本研究中自变量可以解释的最小分段大小(segment size)设置为因变量总样本数的5%,即自变量最低可以解释因变量的5%形成原因。

2 结果与分析

2.1 烟叶化学成分指标

不同省份烟叶化学成分数据的统计分析见表1。

烟叶水溶性总糖含量湖南省(25.66%)和河南省(23.91%)均低于福建省(30.63%)和云南省(30.22%)。

湖南省烟叶的总植物碱(2.88%)、总氮(2.59%)、总挥发碱(0.35%)、石油醚提取物总量(6.28%)、水溶性灰份碱度(0.81)、氮碱比(0.96)等6项化学指标数值最高;

河南省烟叶的醚提取物中性总量(11.3 mg/g)、醚提取物酸性总量(127.99 µg/g)、氯离子(0.40%)、灰分(12.69%)等4项化学指标数值最高;

福建省烟叶的蛋白质(5.19%)、还原糖(27.60%)、总挥发酸(0.31%)、醚提取物碱性总量(5.75%)、钾(2.77%)、硫酸根(1.74%)、糖碱比(11.73%)、钾氯比(12.09%)等8项化学指标数值最高;

云南省烟叶仅有pH值(5.45)、硝酸根(0.10%)等2项化学指标数值最高。

表1 不同省份烟叶主要化学指标描述性统计Tab.1 Statistical summary of chemical components of flue-cured tobacco of different provinces %

2.2 烟叶特征化学指标

利用Mining Tree模型对不同省份烟叶21个化学指标进行分类-回归决策树(C&RT analysis)统计分析,如表2所示,4个省份共筛选出14个烟叶特征化学指标。对于不同省份烟叶特征化学指标数量,湖南省筛选出8个特征化学指标,河南省烟叶筛选出6个特征化学指标,福建省烟叶筛选出5个特征化学指标,云南省烟叶筛选出9个特征化学指标。

在所有筛选出来的特征化学指标中,钾和硝酸根这两个指标为4省烟叶共有的特征化学指标。醚提取物酸性总量和钾氯比两个指标为湖南省烟叶所独有,总植物碱为河南省烟叶所独有,水溶性总糖和硫酸根两个指标为云南省烟叶所独有。

2.3 烟叶特征化学指标定量化

利用Mining Tree模型对湖南省烟叶特征化学成分进行定量化分析,共产生18个分段组合(Segment),各分段组合对于湖南省烟叶的识别概率p最高为0.658,其特征化学指标分段组合为:还原糖(≤24.93%)、钾(>1.98%)、pH值(≤5.37)。利用该分段组合从4省烟叶中筛选出湖南省烟叶的正确率为65.8%。

对于河南省烟叶,Mining Tree模型共计算出13个分段组合,各分段组合的识别概率p最高为0.776,其特征化学指标分段组合为:钾(≤1.98%)、灰分(>11.03%)、水溶性灰份碱度(≤0.49)、硝酸根(≤0.06%)。

表2 不同省份烤烟烟叶主要特征化学指标Tab.2 Specific-chemical component of flue-cured tobacco of different provinces

表3 湖南省烟叶特征化学成分指标的定量化Tab.3 Overview of specific-chemical component of flue-cured tobacco of Hunan Province

表4 河南省烟叶特征化学成分指标的定量化Tab.4 Overview of specific-chemical component of flue-cured tobacco of Henan Province

对于福建省烟叶,Mining Tree模型共计算出16个分段组合,各分段组合的识别概率最高为0.914,其特征化学指标分段组合为:还原糖(>24.93%)、钾(>1.98%)、硝酸根(≤0.06%)、蛋白质(>5.01%)。

对于云南省烟叶,Mining Tree模型共计算出22个分段组合,各分段组合的识别概率最高为0.957,其特征化学指标分段组合为:钾(≤1.98%)、灰分(≤11.03%)、水溶性总糖(>28.94%)、硫酸根(≤1.43%)。

表5 福建省烤烟烟叶特征化学成分指标的定量化Tab.5 Overview of specific-chemical component of flue-cured tobacco of Fujian Province

表6 云南省烟叶特征化学成分指标的定量化Tab.6 Overview of specific-chemical component of flue-cured tobacco of Yunnan Province

2.4 模型指标验证

为了进一步验证Mining Tree模型分析结果的正确性,在《中国烟草科学技术数据库》中“烟叶主要化学成份分析数据库”中选取湖南省、河南省、福建省、云南省等四省份烟叶进行特征化学成分指标正确性的验证。在烟叶特征化学成分指标正确性校验中,分别选取在模型计算中识别概率(p)最高的分段组合进行不同省份烟叶特征化学成分指标正确性检验。

表7 不同省份烟叶特征化学成分指标正确性校验Tab.7 Validation of results of specific-chemical component of flue-cured tobacco of different provinces

如表7所示,从331个校验烟叶样品中,湖南省、河南省、福建省、云南省的单个分段组合的鉴别率(从总样本中成功筛选出的目标样本数占总样本数的百分率)分别为23.40%、27.66%、35.19%、18.58%,其中河南省分段鉴别正确概率达到1,高于模型分段识别概率(0.658);湖南省、福建省分段的鉴别正确概率略高于模型计算的分段识别概率;云南省分段的鉴别正确概率(0.912)略低于模型分段识别概率(0.957)。

3 讨论与结论

研究表明,不同省份烟叶的特征化学成分指标有较大的差别,而且特征化学成分指标的数量也有较大的差别。其中,总植物碱、水溶性总糖分别为河南省、云南省烟叶所独有的特征化学成分指标,这部分解释了河南省、云南省烟叶分别作为典型性浓香型、清香型烟叶代表的原因。特征化学成分指标数量的影响一方面受到自变量与因变量之间的相关性影响,另一方面还会受到样本量大小的影响[11]。在4个省份中,利用Mining Tree模型分析所产生的分段组合数以云南省烟叶最多(22个分段组合),以河南省烟叶最少(13个分段组合),这主要是受到数据样本量大小的影响(519 vs.142)。

在模型指标校验中,单个分段组合从大样本数据中的鉴别率在18%~35%间,总体上处于较高的水平,未来在构建地区烤烟化学指标识别特征模型时,可以考虑适当增加分段组合数,以提高识别模型的鉴别率。同时,在构建烤烟化学指标识别模型中,还应该适当对分段组合数量进行敏感性分析,从而能更好的建立烤烟化学指标识别模型。

总体上,分类-回归决策树方法可以很好的从众多化学成分指标中筛选和定量化出烟叶特征化学成分指标,这为进一步理解和分析烟叶质量和风格特色的形成提供了有力的方法与工具支持。同时,在本研究中,仅对区域间烟叶的特征化学成分的差异进行分析,未对烟叶品种、部位等级等方面的影响进行分析研究,未来在系统性建立区域烟叶特征化学成分数据库中应当适当加以考虑。

[1]唐远驹.烟叶风格特色的定位[J].中国烟草科学,2008,29(3):1-5.

[2]杜文,谭新良,易建华,等.用烟叶化学成分进行烟叶质量评价[J].中国烟草学报,2007,13(6):25-31.

[3]吴春,王轶,蒲文宣,等.中间香型烟叶特色彰显度与主要化学成分的相关及通径分析[J].中国烟草科学,2012,33(4):1-6.

[4]李长江,温晓霞,孙渭,等.陕南主栽烟草品种化学成分综合评价与分析[J].西北农林科技大学学报:自然科学版,2013,41(7):67-74.

[5]刘金霞,李元实,黄飞,等.不同香型烤烟化学成分含量的差异研究[J].河南农业科学,2012,41(9):50-52.

[6]张崇范.对烟叶质量的再认识[J].中国烟草,1993,4:12-14.

[7]毕淑峰,朱显灵,马成泽.逐步判别分析在中国烤烟香型特色鉴定中的应用[J].热带作物学报,2006,27(4):104-107.

[8]于建军,郭玮,毕庆文,等.烤烟主要化学成分因子分析和综合评价[J].浙江农业学报,2010,22(2):244-248.

[9]李国栋,胡建军,周冀衡,等.基于主成分和聚类分析的烤烟化学品质综合评价[J].烟草科技 2008,12:5-9,13.

[10]Sonquist J A,Morgan J N.The Detection of Interaction Effects - A Report on a Computer Program for the Selection of Optimal Combinations of Explanatory Variables [M].Ann Arbor: University of Michigan,1964.

[11]Kuchenbuch R O,Uwe B.Re-visiting potassium- and phosphate-fertilizer responses in field experiments and soiltest interpretations by means of data mining [J].Journal of Plant Nutrition and Soil Science,2011,174(2):171-185.

[12]张槐苓.烟草分析与检验[M].郑州:河南科学技术出版社,1994.

[13]肖协忠.烟草化学[M].北京:中国农业科技出版社,1997.

[14]王瑞新.烟草化学[M].北京:中国农业出版社,2003.

[15]VGSPS mbH.PS-Explore-Handbuch [M].Neustadt/Wied,2007.

[16]Lobell D B,Ortiz-Monasterio J I,Asner G P,et al.Combining field surveys,remote sensing,and regression trees to understand yield variations in an irrigated wheat landscape [J].Agronomy Journal,2005,97(1): 241-249.

[17]Strobl C,Malley J,Tutz G.An Introduction to Recursive Partitioning [EB/OL].[2009].http://www.stat.unimuenchen.de.

A classification and regression decision tree method-based model for identifying tobacco growing areas

ZHANG Yi1,2,LI Qiang2,Wang zheng3,ZHANG Yiyang2,ZHOU Jiheng1,2
1 College of Bioscience and Biotechnology,Hunan Agricultural University,Changsha 410128,China;
2 Tobacco Research Institute,Hunan Agricultural University,Changsha 410128,China;
3 China Tobacco Guangxi Industrial Co.Ltd.,Nanning,530001,China

An identification model of chemical components in flue-cured tobacco was established through classification and regression decision tree method (C&RT analysis) based on a database composed of 1040 samples (21 chemical components were tested) of fluecured tobacco collected during 2005 to 2009 in Hunan,Henan,Fujian,and Yunnan provinces Results showed that: (1) a total of 14 specificchemical components were selected from 21 chemical components,among which K2O and NO3-components were selected in each province; (2) Specific-chemical component segments of highest identification rate branch calculated by the Mining Tree model based on C&RT analysis in Hunan,Henan,Fujian,and Yunnan provinces were: reducing sugar (≤ 24.93%),K2O (>1.98%),pH (≤ 5.37) (p=0.658);K2O (≤1.98%),ash (>11.03%),water soluble ash alkalinity (≤0.49),NO3-(≤0.06%) (p=0.776); reducing sugar (>24.93%),K2O (1.98%)>,NO3

-(≤0.06%),protein (>5.01%) (p=0.914); K2O (≤1.98%),ash (≤11.03%),water dissoluble sugar (>28.94%),SO42-(≤1.43%) (p=0.957),respectively.Experimental results validated the significance of applying classification and regression decision tree method in establishing an identification model of chemical components in flue-cured tobacco.

flue-cured tobacco; chemical component; classification and regression decision tree method; Mining Tree model

10.3969/j.issn.1004-5708.2014.06.005

TS411,TS42 文献标志码:A 文章编号:1004-5708(2014)06-0028-06

广西中烟工业有限责任公司项目(1212013022 );红云红河烟草(集团)有限责任公司项目(HYHH2012YL03)

张毅(1985—),博士,讲师,主要研究方向为养分资源管理、烟草营养,Email:zyi1219@163.com

周冀衡(1957—),本科,教授,主要研究方向为烟草生理与生物化学,Email:jhzhou2005@163.com

2013-11-12

猜你喜欢

烤烟分段烟叶
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
烤烟上炕机械研制
生活中的分段计费
不同追肥对烤烟品质的影响
关于新形势下烟叶生产可持续发展的思考
分段计算时间
分段函数“面面观”
烤烟专用水溶根施肥技术介绍(二)
烤烟专用水溶根施肥技术介绍(一)
3米2分段大力士“大”在哪儿?