有监督机器学习算法

2019-03-29刘文博

科学与技术 2019年11期

刘文博

摘要：机器学习作为人工智能技术的一个新发展，近年来受到工业界和学术界的极大关注，并广泛应用于计算机视觉，数据挖掘，语音识别等各个领域，其中作为它的最主要部分，有监督机器学习算法也是被广泛应用。本文就有监督机器学习介绍其回归算法与分类算法，阐述了其原理，并阐述其组合应用设计。最后给出对机器学习发展前景的主观预测和总结。

关键词：人工智能；机器学习；有监督学习；回归算法；分类算法

引言

机器学习的研究是根据生理学、认知科学等对人类学习机理的了解，建立人类学习过程的计算模型和认识模型，发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析，建立面向任务的具有特定应用的学习系统。这些研究目标相互影响，相互促进。

第一个机器学习的定义来自于Arthur Samuel。他将机器学习定义为在进行特定编程环境中进行计算机学习的领域。

机器学习强调“学习”，而不是程序本身。它使用复杂的算法来分析大量的数据，识别数据中的模式，并作出预测——不需要特定的代码。在样本的数量不断增加的同时，自我纠正完善“学习目的”，可以从自身的错误中学习，提高识别能力。

在机器学习中，主要有三类；有监督学习，半监督学习和无监督学习。本文主要从有监督学习算法，应用等方面进行概述。

1 有监督学习算法概述

1.1 回归算法

回归算法主要是根据一系列的数据集，假设一系列方程来拟合数据集，选择一种曲线拟合较好的方程作为假设函数，然后通过优化算法选取合适的参数，更好的拟合数据集，完成机器学习过程。

系统回归算法的主要步骤包括：

（1）构建M个初始样本，x代表特征/输入变量，y代表目标变量/输出变量，（x，y）代表訓练集中的实例。

（2）将训练样本喂养给我们的学习算法。

（3）输出一个函数，通常用小写h表示，h代表hypothesis，h表示一个函数。

（4）输入将要预测的x喂给h，预测出结果作为输出变量y。

（5）接下来要做的就是判断假设函hypothesis的拟合程度，选择出可以使得建模误差的平方和能够最小的模型参数，即使得代价函数J（θ0，θ1）最小。

（6）采用梯度下降算法来求出代价函数J（θ0，θ1）的最小值。

1.2 分类算法

分类算法即给不同类型的样本点贴上不同的标签，目的是为了确定一个点的类别，而具体有哪些类别是已知的。分类算法经常被用于判断邮件是否为垃圾邮件、判断在线交易是否存在潜在风险、判断肿瘤为良性或者恶性等等。由此可见：

逻辑回归算法是一种分类分析，它有正向类和负向类，即：y ∈ {0，1}，其中0代表负向类，1代表正向类。对一个分类问题：y=0或y=1，可能出现的结果是：hθ（x）>1或<0，就无法进行结果的归纳。此时就需要采用逻辑回归，得到的结果可以满足0≤hθ（x）≤1，逻辑回归是一种特殊的分类算法，同理，更普遍的分类算法中可能有更多的类别，即：y ∈ {0，1，2，3 ...}。

决策树算法也是一种典型分类算法将变量通过不同属性分为不同组别，基于决策得出结论，获得希望得到的判定结果。决策树包含一个根节点，多个内部节点和多个叶节点，其中叶节点对应于结果，其他节点对应于属性测试。根据属性测试的结果，将样本划分为不同的子节点，最终到达叶节点。决策树使用信息熵的方法来分离节点。信息熵通过计算，信息熵作为概率的单调函数通过计算反映不确定性。信息增益利用信息熵度量特征分类给系统带来的信息量，然后判断特征划分的依据，进行特征选择划分。

2 有监督学习算法组合设计

2.1 回归算法组合设计

（1）单变量线性回归算法：

以房屋交易问题为例，假设回归问题的训练集

如下表所示：

因为只有一个特征/输入变量，所以这种问题称为单变量线性回归问题。

接着要做的便是为模型选择合适的参数θ0 和θ1在这个例子中便是选取合适的斜率和截距。所选参数决定了得到的直线相对于训练集的准确程度，以及模型的预测值与训练集的实际值之间的差异（下图竖直方向的黑线所指）就是建模误差。

接下来就是用梯度下降算法来求解使得代价函最小的θ0和θ1

（2）梯度下降算法：

梯度下降算法是求解函数最小值的一种算法，用于求解代价函数J（θ0，θ1）的最小值（θ，θ1）。梯度下降算法的公式如下：

在梯度下降算法中，所有参数都被学习率减去，同时乘以代价函数的导数。

梯度下降算法的直观理解就是对θ赋值，使J（θ）沿着梯度下降最快的方向进行，并一直迭代得到局部最小值，其中α是学习率，它决定了沿着使代价函数最大程度下降的方向迈出的步子有多大。当然，α不能太大或太小。

如果α太小了，即学习速率太小，结果就是只能一点一点的挪动，去努力接近最低点，这样就需要很多步才能接近最低点，所以α太小的话，可能会很慢，因为它需要一点点的挪动，他会需要很多步才能达到全局最有点。

如果α太大了，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次的越过最低点，直到离最低点越来越远，所以，如果α它会导致无法收敛，甚至发散。

在梯度下降算法中，当接近局部最优点时，梯度下降法会自动采取更小的幅度，这是因为当接近局部极小值时，很明显导数在局部极小值处等于0，所以当接近局部最极小值时，导数值会自动变得越来越小，因此梯度下降将自动采取较小的幅度，因此没有必要在另外减小α。

梯度下降算法可以用来最小化任意代价函数J，不只是线性回归中的代价函数J。

（3）线性回归与梯度下降结合：

接下来，我们需要将梯度下降算法与线性回归相结合，并将其应用于具体的拟合直线的线性回归算法里。

梯度下降算法与线性回归算法比较如图：

这种梯度下降我们也称为批量梯度下降，“批量梯度下降”是指在梯度下降的每个步骤中都使用到了所有的训练样本，在梯度下降中，在计算微分导数项时，需要进行求和计算。因此，在每一个梯度下降中，我们最终都需要计算这样一个东西，每个项需要对所有m个训练样本求和。因此，批量梯度下降法这个名字说明了计算最终需要考虑的是所有这一批训练样本，而事实上，有时也有其他类型的梯度下降法，不是这种批量型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。

2.2 分类算法组合设计

（1）逻辑回归：

逻辑回归的算法是目前最流行使用最广泛的一种学习算法，这个算法的性质是：它的输出值永远在0-1之间。

逻辑回归虽然名字里面带“回归”，但它实际上是一种分类问题，它的模型假设是hθ（x）=g（θTX）

其中：X代表特征向量，g代表逻辑函数（或称为Sigm

oid函数），公式为g（z）= ，该函数的图像为：

求导后得到：

所以如果有n个特征，也就是：θ=[θ0，θ1，θ2，θ3，···，θn]，参数向量θ包括θ0θ1θ2一直到θn那么就可以用以上式子同时更新所有的θ。

2.3 正则化

（1）解决过拟合问题

回归算法和分类算法它们能有效地解决很多问题但当把他们应用到某种特定的机器学习应用时，会遇到过拟合的问题，可能导致他们的效果很差。因此需要采用正则化技术来改善或减少过拟合的问题。

如果我们有非常多的特征，通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但是可能会不能推广到新的数据。

解决过拟合主要有两种方法

（1）减少变量的个数，舍弃一些变量，保留更为重要的变量。但是如果每个特征变量都对预测产生影响。当舍弃一部分变量时，也就舍弃了一些信息。所以希望保留所有的变量。

（2）正则化：保留所有的变量，将一些不重要的特征权值置为0或权值变小使得特征的参数矩阵变得稀疏，使每一个变量都对预测产生一点影响。

（3）正则化的思路：

如果参数对应一个较小的值，那么会得到更加简单的假设。惩罚高阶参数，使他们趋于0，这样就会得到较为简单的假设，也就是得到简单的函数，这样就不易发生过拟合。但是在实际问题中，并不知道哪些是高阶多项式的项，所以在代价函数中增加一个惩罚项/正则化项，将代价函数中所有参数值（约定一般不惩罚j=0，惩罚从j=1开始到j=n）都最小化，收缩每一个参数。

这样便得到了一个较为简单的能防止过拟合问题的假设：

其中λ称为正则化参数，如果选择的正则化参数λ过大，则会把所有的参数都最小化导致模型变成hθ（x）=θ0，也就是一條直线，因此又会造成欠拟合，所以对于正则化，要取一个合理的λ值，这样才能更好的应用正则化。

3 机器学习技术的发展趋势

从目前的研究趋势来看，未来机器学习的主要研究方向如下：1）人类学习机制的研究。2）开发和改进现有的学习方法，开发新的学习算法。3）建立实用的学习系统，尤其是多种学习算法协同工作的集成系统。4）机器学习理论与应用研究。

机器学习是继专家系统之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统学习能力很小，至多也只有非常有限的学习能力，不能满足科学技术和生产的新要求。机器学习的探讨和机器学习研究的进展，必将推动人工智能和整个科学技术进一步发展。

4 结论

机器学习是关于理解和研究学习的内在机制建立能够通过学习自动提高自身水平的计算机程序的理论方法的学科。近年来机器学习理论在诸多应用领域得到成功的应用与发展，已成为计算机科学的基础与热点之一。而且机器学习在人工智能中占有很大的地位，人工智能目前的应用已经证明了人工智能可以改变人类，改变世界，未来在各方面的支持下，人工智能一定会取得长足的发展，对世界产生巨大的影响，随着人工智能的发展，机器学习的进化，对人类的生活带来了极大的便利，智能的发展提高了资源的利用率与生产率，将原始手工的生产方式转化为机器生产，省去了人工劳力。所以机器学习技术的发展将是未来高新技术的前沿，也应是人们努力的方向。

参考文献

[1] 陈勇涛，郭晓颖，陶慧杰. 浅谈机器学习研究现状与发展趋势[J]. 中国新通信，2018.

[2] 刘斌，何进荣，耿耀君，等.并行机器学习算法基础体系前沿进展综述[J]. 计算机工程与应用，2017.

[3] RAIF B A，BEKIR T L. Influence of fly ash on corrosion resistance and chloride ion permeability of concrete[J]. Construction and building materials，2012，31：258-264.

[4] 段明赫.人工智能的发展现状及应用[J]. 通讯世界，2018.

[5] 刘丛，彭敦陆，邬春学. 基于案例的《机器学习》课程教学方法研讨[J].软件导刊，2018.

[6] 魏烨敏，蒋子元. 机器学习聚类组合算法及其应用[J]. 电子世界，2018.

[7] 孙晖. 深度学习优缺点的剖析[J]. 电子制作，2018.

[8] 詹骐源. 机器学习的发展史及应用前景[J]. 科技传播，2018.

[9] 史加荣，马媛媛. 深度学习的研究进程与发展[J]. 计算机工程与应用，2018.

（作者单位：郑州大学软件与应用科技学院）