随机森林算法在石油馏分临界性质预测中的应用

2016-11-19宋新阳刘子媛王从岗

广州化工 2016年20期

关键词：馏分物性偏差

宋新阳，刘子媛，王从岗

(1 青岛经济技术开发区第一中学，山东青岛 266510； 2中国石油大学(华东)，山东青岛 266580)

随机森林算法在石油馏分临界性质预测中的应用

宋新阳1，刘子媛2，王从岗2

(1 青岛经济技术开发区第一中学，山东青岛 266510； 2中国石油大学(华东)，山东青岛 266580)

在实测原油馏分临界性质及基础物性数据基础上，采用随机森林方法预测其临界性质。预测临界温度的随机森林模型训练的平均相对偏差在0.6%左右，测试的平均相对偏差在1.4%左右。预测结果精度较高，应用范围广。预测临界压力的随机森林模型训练的平均相对偏差一般在3%左右，测试的平均相对偏差一般在6%左右。考察了随机森林模型参数的影响，其中Ntree取500或800时预测结果能够满足要求；对于输入参数数目k≥4时，Mtry取k-1预测精度较高，当k较小时Mtry取k的预测精度较高。

随机森林；石油馏分；临界性质；预测

石油馏分的临界性质常用来确定石油馏分的相状态，并关联和计算其他热力学性质，是石油加工工艺计算所必需的基础数据。本课题组实测了多种原油总计165组馏分油的临界温度、临界压力及常用基础物性数据，如中沸点Tb(K)、20 ℃相对密度D、平均相对分子质量M、20 ℃运动粘度ν(cst)和20 ℃折光率N等。以实测物性数据为基础，预测石油馏分油的临界性质是获得临界性质数据的重要途径。

传统的临界性质预测方法有经验关联法[1-2]、基团贡献法[2-3]、人工神经网络法[4-5]等。随机森林(random forest)是一种机器学习方法，可以处理高维度数据，对多元共线性不敏感，不仅运算速度快，而且算法简单易实现[6]。随机森林已经在生物信息、医学、经济、管理、统计等领域有着广泛的应用[7-12]，但在石油化工基础物性预测方面的应用还未见报道。

随机森林算法能处理回归和分类两种问题，本文用基于随机森林的回归算法来预测石油馏分的临界性质。随机森林算法可以通过R语言或MATLAB等软件实现。本文采用MATLAB软件建模计算。

1 随机森林简介

假设有k个自变量(X1,X2,…,Xk)与因变量Y相关，因变量有m个观测值。在构建分类树时，根据Bootstrap 抽样方法，会随机地在原始数据中随机选择M个观测值。同时随机森林随机地从k个自变量选择部分变量进行分类树节点的确定。随机森林可以随机生成几百个至几千个分类树，在进行回归时，每棵分类树产生一个Y的预测值，随机森林的预测结果由每棵分类树预测值的平均值确定[6]。随机森林学习算法示意图见图1。

图1 随机森林学习算法简图

2 随机森林模型参数的考察

在随机森林的MATLAB程序中，有两个参数可以调整，一个是Mtry，指分类树每个节点用来二分数据的自变量的个数，对于回归分析，所用程序的缺省值是自变量总数的1/3。另一个是Ntree，指分类树的数目，其缺省值是500。

实测石油馏分的临界性质数据共165组，为了考察上述两个参数对预测结果的影响，随机选择其中的132组作为训练样本，其他33组作为测试样本，检验随机森林模型的预测效果。

2.1 Ntree的考察

理论上分类树的数目Ntree 增大，能够提高模型的预测精度，同时训练时间也会延长。选择中沸点、20 ℃相对密度、平均相对分子质量、20 ℃运动粘度和20 ℃折光率5种基础物性数据作为输入参数，按照缺省值，取Mtry=2，Ntree在200～1500间取值，考察不同Ntree取值的影响。临界温度和临界压力训练及测试的平均相对偏差列入表1。由表1可见，随Ntree的增加，临界温度和临界压力的训练偏差和测试偏差并不是逐渐降低的，而是略有降低或增加，变化不大，尤其是增加到800以后，预测偏差变化很小。表2给出了5种基础物性作为输入参数，Mtry=3时，不同Ntree取值时的偏差，结果与表1的规律类似。因此在样本数较少时，Ntree的取值不必很大，可取缺省值500，或取中间值800即可达到令人满意的计算精度，同时节省计算时间。

表1 Ntree不同取值的随机森林模型预测偏差(Mtry=2)

表2 Mtry=3时Ntree不同取值的随机森林模型预测偏差

2.2 Mtry的考察

程序中固定Ntree=800，选择5种基础物性数据作为输入参数。Mtry的缺省值为2。现考察Mtry取1～5时临界性质的预测偏差，结果见表3。

从训练、测试平均相对偏差看，Mtry从1增加到4，偏差逐渐降低，而Mtry增加到5时，训练和测试偏差有增加也有降低。而且Mtry增加到3以后，偏差变化很小，综合考虑Mtry可以取3或4，这里取4预测偏差更小。

表3 Mtry不同取值的随机森林模型预测偏差(5个输入参数)

同理考察四种基础物性数据N、D、Tb、M作为参数时，Mtry不同取值时的结果，见表4。Mtry从1增加到3，预测偏差逐渐降低，当Mtry取4时，预测偏差有增有降。因此Mtry可以取2或3，取3更好些。

表4 Mtry不同取值的随机森林模型预测偏差(4个输入参数)

三种基础物性数据D、Tb、M作为参数时，Mtry不同取值时的预测结果见表5。随Mtry增加，预测的平均相对偏差降低，Mtry取3预测精度更高。

表5 Mtry不同取值的随机森林模型预测偏差(3个输入参数)

表3～表5的结果表明，当输入参数k较多(≥4)时，Mtry取k-1最好，当输入参数较少时，Mtry取k的预测偏差最小。

2.3 输入参数归一化的影响

选择5种基础物性数据中数据变化范围较大的三个参数Tb、M、ν，考察输入参数是否归一化对预测结果的影响。这里取Mtry=3，Ntree=800。根据数据变化范围，Tb、M、ν三个参数分别除以1000，500和25000，保证输入数据介于0～1之间。计算结果列入表6。由表6可见，不论输入数据是否进行归一化处理，对预测结果的影响都很小，因此采用随机森林模型进行预测时，不必对输入参数进行归一化处理，这一点比人工神经网络方法要方便[4-5]。

表6 输入参数归一化对随机森林模型预测偏差的影响

3 随机抓取数据预测结果的考察

对165组实测石油馏分临界性质和基础物性数据，随机抓取其中的2/3用于训练，其他1/3数据用于测试，采用随机森林方法建立模型进行预测。选取D、Tb、M、ν四种基础物性作为输入参数，取Ntree=800，Mtry=3。由于随机抓取训练数据，每次抓取的数据都不相同，因此每次的计算结果也不相同。连续进行6次计算，结果列入表7。

表7 随机抓取数据对随机森林模型预测偏差的影响

由表7可见，在原始数据和模型参数均相同的情况下，由于每次抓取的数据不同，临界性质训练和测试的预测偏差也不相同，而且相差较大。训练临界温度的平均相对偏差为0.559%～0.649%，临界压力平均相对偏差为2.514%～3.050%。测试临界温度的平均相对偏差为1.288%～1.463%，临界压力平均相对偏差为5.513%～9.123%。

临界温度和临界压力训练的偏差变化较小，而测试的偏差变化较大。临界压力的训练和测试偏差对比见图2。由图2可知，临界压力训练偏差较小时，其相应的测试偏差反而较大，说明训练和测试的结果与所选择的训练样本有较为密切的关系。

图2 临界压力训练与测试偏差的对比

4 结论

(1)采用随机森林方法预测石油馏分的临界温度，其训练平均相对偏差在0.6%左右，测试平均相对偏差在1.4%左右。预测临界压力其训练平均相对偏差一般在3%左右，测试平均相对偏差一般在6%左右，预测精度较高，适用于各种国产原油馏分临界性质的预测。

(2)考察了随机森林模型参数的影响，其中Ntree取缺省值500或800时预测结果即可满足精度要求；对于输入参数数目k≥4时，Mtry取k-1，k较小时Mtry取k的预测精度较高。

(3)采用随机森林模型预测临界性质输入参数不必进行归一化处理。

[1] 刘子媛,王从岗,张艳梅.塔里木原油馏分油临界性质常用计算公式考察[J].燃料化学学报,2003,31(6):636-638.

[2] 王从岗,寿德清,向正为,等.国产石油馏分临界性质的测定和计算方法研究[J].石油学报:石油加工,1993,9 (1):73-80.

[3] 王从岗,张艳梅,寿德清.预测石油馏分临界温度和临界压力的基团贡献型新方法[J].石油学报:石油加工,1998,14(1):91-94.

[4] 周山花,张晓彤,张素萍,等.人工神经网络在石油分析中的应用研究(Ⅰ)——BP神经网络预测石油馏分临界性质[J].石油化工高等学校学报, 1998,11(1): 23-27.

[5] 刘子媛.塔里木原油馏分临界性质的测定和研究[D].东营:石油大学,1999.

[6] Breiman L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.[7] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-37.

[8] 李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197.

[9] 韩玉,施海龙,曲波,等.随机森林方法在医学中的应用[J].中国预防医学杂志,2014,15(1): 79-81.

[10]王志红,王华珍.基于随机森林的基金评级模型选择[J].财务与金融,2009,24(1):65-70.

[11]何宁,武忠.基于随机森林的光伏企业科技创新动力模型研究[J].科技管理研究,2014(19):145-148.

[12]徐戈,张科.基于随机森林模型的房产价格评估[J].统计与决策, 2014(17): 22-25.

Prediction of Critical Properties of Petroleum Fractions by Random Forest Method

SONGXin-yang1,LIUZi-yuan2,WANGCong-gang2

(1 Qingdao Economic and Technological Development Zone No.1 Middle School, Shandong Qingdao 266510;2 China University of Petroleum, Shandong Qingdao 266580, China)

Based on the experimental data of critical properties and basic physical properties of petroleum fractions, random forest method was used to predict the critical properties. The average relative deviation for critical temperature prediction was about 0.6% for the train result, and 1.4% for the test. The average relative deviation for critical pressure was about 3% for the train result, and 6% for the test. The results showed that random forest method had relatively high veracity and a wide range of application. The parameters of random forest model were examined. The appropriate value of Ntree was 500 or 800. For models which had more than 4 input parameters, the appropriate value of Mtry was the number of input parameters minus 1, but for models which had smaller parameters, the appropriate value of Mtry was the number of input parameters.

random forest; petroleum fraction; critical properties; prediction

宋新阳，青岛经济技术开发区第一中学学生。

刘子媛，女，博士，副教授，研究方向：石油物性和石油加工。

TE622

1001-9677(2016)020-0071-03