APP下载

重楼属植物在线分类鉴定系统的设计与实现

2020-10-09任强桑世叶刘长宁

计算机时代 2020年9期
关键词:随机森林

任强 桑世叶 刘长宁

摘要:文章以传统形态学分类方法為依托,基于随机森林算法,结合网站开发,设计并开发了重楼属植物在线分类鉴定系统。该系统操作简便,分类鉴定效果好,可用于重楼属植物16个种及5个变种的分类鉴定,能够在一定程度上为研究重楼的科研工作者和从事重楼属药用植物开发行业的工作人员提供帮助。

关键词:重楼属;随机森林;网站开发;分类鉴定

中图分类号:TP181

文献标识码:A

文章编号:1006-8228(2020)09-72-04

Design and implementation of Paris plants online classification and identification system

Ren Qiang1, Sang Shiye2, Liu Changning1

(1. Xishuangbanna Tropical Botanical Garden Chinese Academy of Scienres, Xishuaizgbanna, Yunnan, 666303, China;2.University of Chinese Academy of Sciences)

Abstract: Based on the traditional morphological classification method and Random Forest algorithm. combined with websitedevelopment, this paper designed and developed an online classification and identification system for plants Paris. The system iseasy to operate and has good classification and identification effects. It can be used for the classification and identification of 16species and 5 variants of Paris. To a certain extent, it can provide assistance to scientific researchers and workers engaged in thedevelopment of medicinal plants belonging to Paris.

Key words: Paris; Random Forest; website development; classification and identification

0引言

重楼属(Paris)是种子植物黑药花科(Melanthiaceae)家族中的一员,为多年生草本植物[1]。重楼是一味名贵的野生中药材,全株皆可入药,在民间习称草河车、蚤休、七叶一枝花等,具有清热解毒、凉肝定惊、消肿止痛之功效,可用于治疗痈肿、毒蛇咬伤、咽喉肿痛、跌打伤痛、惊风抽搐等病症[2]。

由于本属植物的种类较多,而且其外貌特征极为相似:一个茎,一轮叶,顶生一朵花,不容易确定划分种以上各级单位的指标[3]。当前重楼种苗的鉴定主要根据外观形态特征鉴定,存在主观性强的缺点,即使是有经验的专家也难以准确鉴定。这给研究重楼的科研人员和从事重楼种植及开发的工作者带来很大的困扰,特别是在缺少花、果时,重楼种子、种苗缺少有效方法来鉴别,无法确定重楼物种信息的真实性,药材质量难以得到保障[4]。一旦种子种苗的源头出错,将会给科研人员和种植户带来很大损失。因此,建立起准确、高效的重楼分类鉴定系统是十分必要的。

为了满足科研工作者和种植户对重楼属植物分类鉴定的需求,本文以随机森林算法为基础设计了并开发了重楼属植物在线分类鉴定系统。

1随机森林算法原理

随机森林(Random Forest)是一种基于决策树(Decision Tree)的集成算法,是目前机器学习和数据挖掘领域最流行的分类与回归算法之一。决策树[5]是一种广泛应用的树状分类器,在树的每个节点通过选择最优的分裂特征不停地进行分类,直到达到建树的停止条件。一般情况下,决策树具有很好的准确率,但是当数据复杂时,就会遇到性能提升的瓶颈。随机森林以决策树为基分类器来构建集成分类器,为了产生有差异的分类器,随机森林算法在构建森林的过程中采用了两个“随机”[6]。首先,采用有放回的装袋法(Bagging)进行Bootstrap抽样,制造有随机差异的训练样本集;然后,随机选择属性对内部节点进行分裂从而形成单棵决策树;最后,重复上述两个步骤建立大量的决策树,就生成了随机森林。随机森林中包含多个由Bagging集成学习算法训练得到的决策树,在输入待分类测试样本集后,由单个决策树的输出结果进行投票,所得票数最多的分类结果即为随机森林的最终输出结果。随机森林解决了决策树性能瓶颈的问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。

2分类系统开发

2.1分类模型构建

通过随机森林算法解决多分类问题,可以从数据采集、数据预处理、模型建立、结果预测几个阶段给出解决方案。

2.1.1数据采集

根据《重楼属植物》一书中对重楼不同种的形态特征描述,并结合“CHV中国数字植物标本馆”中重楼属植物各种的标本信息,采集其形态学分类特征数据。重楼属植物分类的相关特征经过文献调研最终确定为31个。共采集包含重楼属植物15个种及6个变种的形态学分类特征信息共2022条。具体统计信息如图1所示。

猜你喜欢

随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
基于随机森林算法的B2B客户分级系统的设计