基于网格搜索支持向量机的边坡稳定性系数预测

2019-06-03王健伟徐玉胜李俊鑫

铁道建筑 2019年5期

王健伟，徐玉胜，李俊鑫

(1.中国铁道科学研究院研究生部，北京 100081；2.铁科院(深圳)研究设计院有限公司，广东深圳 518000;3.深圳地质灾害监控工程实验室，广东深圳 518000)

边坡稳定性分析一直是滑坡防治的关键问题之一。在实际工作中，岩土设计人员主要应用Geo-studio，PLAXIS，ABAQUS等有限元分析软件对边坡的安全性系数予以求解。

边坡稳定性的定量分析方法，主要可以分为极限平衡法和折减强度法。当边坡地质条件复杂时，采用极限平衡法(Limit Equilibrium Method,LEM)进行稳定性分析通常会遇到复杂的非线性隐式函数、地下水位变化、节理裂隙发育等情况，岩土力学的参数不易获取，所以岩土力学参数的获取往往具有不完备性。

边坡稳定性的定性分析方法，主要包括工程类比法、可靠度分析方法、图解法、边坡专家系统等。其中边坡稳定可靠度分析方法被引入边坡稳定性分析已有40多年的历史，该方法主要是基于统计学理论而形成的一种分析方法。赵清静[1]采用蒙特卡罗法对一边坡予以分析。蒙特卡罗法相对精确，但进度依赖于模拟次数，存在效率低的问题。近年来机器学习领域发展出了一些新的基于机器学习理论的边坡稳定性预测方法，如BP遗传算法、支持向量机。相比神经网络,支持向量机具有更好的泛化能力[2]，在解决小样本、非线性及高维问题中表现出许多优势，提供了更高的精度和更低的错误率[3-4]。

1 支持向量机

支持向量机是基于结构风险最小原理和统计学VC理论(Vapnik-Chervonenkis Theory)的一种学习方法[5]。它根据小样本建立将复杂性和学习能力予以最佳折中的模型，是一种在分类与回归分析中分析数据的监督学习模型与相关的学习算法。支持向量机在解决回归问题和分类问题的本质是一样的，不同之处仅在于二者输出的取值范围不同。

将支持向量机(见图1)中回归问题得到的结论应用到回归分析中被称为支持向量机回归(Support Vector Regression,SVR)。在支持向量机中，希望得到一个拟合函数f(x)使得其与样本真实值y尽可能地接近。在这个模型中，只有当f(x)与y完全相同时，|yi-f(x)| 损失才为0。以f(x)为中心构建一个宽度为2ε的间隔范围(ε为损失边界)，若间隔范围内包含样本，即支持向量回归|yi-f(x)|在承受范围内，则认为预测是正确的。

图1 支持向量机示意

支持向量机的数学模型为

(1)

通过调节惩罚系数实现了算法复杂度和精度问题的折中，将式(1)转化为求二次规划最优解问题，可通过求拉格朗日鞍点得到。通过拉格朗日函数对偶化后的形式可求解其最小值：

(2)

由式(1)、式(2)得回归函数为

(3)

支持向量机通过核函数将非线性模型从低维空间转变到高维空间,引入核函数K(xi·xj)后回归函数转换为

(4)

2 支持向量回归机模型

2.1 K折交叉验证与网格搜索

K折交叉验证(K-fold cross Validation，K-CV)是在统计学范畴上将数据样本切成较小子集的实用方法。步骤为：将目标数据分为k组，每组子集作为一次测试集，剩余k-1组作为训练集，得到k个模型并对其进行测试评估;用k个模型最终验证集的分类准确率的平均数作为此K-CV下分类器的性能指标[6]。

网格搜索(Grid-search)是一种模型参数调节措施，在支持向量机参数选择的过程中，通过循环遍历所有惩罚系数C和参数g可能的组合，通过任意一种可组合进行评价，选取最优化参数。由于收集的数据有限，当数据量不足时，如果把所有的数据都用于训练模型容易导致模型过拟合。通过交叉验证降低模型的方差，提高了模型训练结果的精度。通过网格搜索法配合交叉验证，找到全局最优参数。

2.2 边坡稳定性安全系数模型的建立

建立边坡安全系数预测模型，将影响边坡稳定性的各种参数看作自变量，首先给定一个包含这些参数的样本集，通过模型训练得出影响参数与边坡安全系数间的函数映射关系。本文边坡支持向量机回归模型建立过程中，把边坡土体重度、边坡高度、孔压值、黏聚力、内摩擦角和边坡倾角6个参数组成的向量映射到高维空间，之后求解最优超平面问题，在该特征空间里，上述最优超平面对应于回归函数。将收集的38个边坡实例[7](见表1)作为支持向量机回归模型样本，并对其进行超参数调优。

表1 边坡样本数据

根据边坡模型特点，选用RBF核函数(Radial Basis Fanction)作为支持向量核函数，需调整核函数的惩罚系数C和参数g。本文采用libsvm for python 模块模拟分析，使用Grid-search参数寻优，取得最优惩罚系数C为 16 384，最优核函数参数g为 0.001 953，此时均方差为 0.026 298。

3 SVM回归效果评估

3.1 导入多个预测模型

现要使用Python及机器学习库sklearn中的多个回归算法作回归分析。先设置交叉检验的次数为6(6折交叉检验)，后续在交叉检验模型训练中用到：①导入库文件;②数据准备;③训练回归模型,本文为样本建立5种回归模型，分别是贝叶斯岭回归(BR)、普通线性回归(LR)、弹性网络回归(EN)、支持向量机回归(SVR)、梯度增强回归(GBR)。前3个算法属于广义线性回归，后2个属于支持向量机和梯度增强算法的变体。④回归模型效果评估标准。

3.2 拟合结果

采用5种模型计算的拟合曲线对比见图2。其中支持向量机回归模型与真实值最为接近。

图2 5种模型计算的拟合曲线对比

5种回归模型的评价结果见表2。mae为平均绝对误差，用于评估预测结果和真实数据集的接近程度，其值越小说明拟合效果越好。mse为均方误差，该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值。r2为决定系数，代表自变量解释因变量方差得分[8-10]。通过以上3个回归评价指标得出经过网格搜索进行参数优化后的SVR回归是所有模型中拟合效果最好的，能解释96%的方差变化，并且各个误差项的值都是最低的，和真值数据最接近，均方误差最小。另外，还有一个重要因素是SVR在6次测试中的结果相对稳定性较高，说明了该算法在应对不同预测样本数据集的稳定性较好。