机器学习的发展史及应用前景

2018-11-15詹骐源

科技传播 2018年21期

詹骐源

摘要随着“人工智能”技术的发展，人们开始越来越多地研究计算机怎样模拟或实现人类的学习行为，来获取知识或技能。机器学习作为实现“人工智能”的一种方法，文章对其从浅层学习到深度学习的发展历程进行了总结与梳理，简要分析了三类机器学习模式和决策树算法、K最近邻算法、朴素贝叶斯算法等机器学习的算法理论与应用，并提出了展望。

关键词机器学习；发展史；应用

中图分类号 TP2 文献标识码 A 文章编号 1674-6708（2018）222-0138-02

自阿尔法狗击败世界围棋冠军柯杰后，“人工智能”一词在社会和生活中的热度不断升高。随着人工智能概念的普及，人们不止一次听说过“机器学习”这个词，而实际上，“机器学习”和人工智能仍有本质差别[ 1 ]。从严格意义上讲，阿尔法狗的诞生更多是归功于机器学习这一领域。

那么，机器学习究竟是指什么呢？它在生活中被应用的实例又有哪些呢？其实，“机器学习”是一种方法，不同于人工智能，它的目标并不是让机器获得和人类一样的思考能力，而是使计算机拥有在没有被明确编程情况下学习的能力[2]。通俗地讲也就是通过算法使得机器从大量数据中学习规律，从而拥有对新样本分析和研究的能力。而我们日常生活中接触的Siri、面部识别等功能都是机器学习进步的结果。

1 机器学习的发展史

“机器学习”的发展并不是一帆风顺的，它的起源可以追溯到1949年赫布理论的诞生[ 3 ]。它在20世纪70年代曾陷入了瓶颈期，而后大数据时代开始，机器学习也在大数据的支持下复兴。因此我们可以大致将它的理念和运作模式从大数据时代前后分为浅层学习和深度学习。

1）小数据时代（浅层学习）。1949年，Donald Hebb 提出的赫布理论[4]解释了学习过程中大脑神经元所发生的变化。赫布理论的诞生标志着机器学习领域迈出了第一步。1952年被誉为“机器学习之父”的Arthur Samuel设计了一款西洋跳棋程序。这个程序帮助机器观察棋子的走位并构建新的模型以提高自己的下棋技巧。同时，IBM首次定义并解释了“机器学习”，将其非正式定义为“在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域”。1957年Rosenblatt发明了感知器模型[5]，这种模型被认为是机器学习人工神经网络中较为典型的算法。而3年后Widrow提出了 Delta学习规则，也就是差量学习规则，即如今的最小二乘问题。这种学习规则随即被应用到了感知器模型中，创建出了更精确的线性分类器。随后“机器学习”的发展出现了瓶颈。在1969年，Minsky提出了异域问题，指出了感知器的本质缺陷——面对线性不可分问题时的无力，即当空间内的点无法被直线分类时，感知器便会束手无措。尽管1970年Linnainmaa首次提出了著名的BP算法以解决此问题，可当时并没有引起重视。直到80年代末此算法才开始被接纳使用，并给机器学习带来了希望。人们发现，BP算法可以帮助机器通过大量数据统计整理规律从而对未知的事件作出推测。这时候的感知机只是种含有一层隐层节点的浅层模型，这个时代的机器学习也因而得名——浅层学习。到了90年代，浅层学习进入了黄金时代，各种各样的浅层学习模型被相继提出，这些模型大多数在实际运用中都取得了巨大的成功。

2）大数据时代（深度学习）。随着人类对数据信息的收集和应用逐渐娴熟，对数据的掌控力逐渐提升，“机器学习”在海量数据的支持下攀上了新的高峰，即深度学习。深度学习的实质便是通过海量的数据进行更有效的训练从而获得更精确的分类或预测。深度学习的理念在2006年由Geoffrey Hinton和他的学生提出，并在当时引起了轰动，在学术界和工业界掀起了深度学习的浪潮。

2 机器学习的分类

如今，机器学习被广泛分为3个大类，有监督学习、无监督学习以及半监督学习。这些学习模式各具特点，因而被用于处理和应对不同的问题和场景。

1）有监督学习。有监督学习为每组数据编写特定的标识，让机器在已知规则的约束下对数据进行分类。而计算机会根据分类的准确性不断自我优化，直到预测的准确性达到自身的预期。

2）無监督学习。有监督学习是指机器在已有的规则下进行学习，无监督学习则是指在没有任何标识的情况下进行分类。对于未分类的事物，机器会根据自己的判断将物品根据一定的特征归类。如果把机器人当做一个孩子，有监督学习是让他在已知规则下对物品进行分类得出较为精确的结果；而无监督学习则是放手让这个孩子根据自己的喜好用自己希望的方式对物品进行分类，从而推断出数据的内部结构。当我们面对没有标签的数据时，我们也可以先应用无监督学习让机器对物品的内在结构进行估测，再在已有估计的基础上为数据添加标签从而应用有监督学习得出较为精确的分类结果。

3）半监督学习。有监督学习和无监督学习分别对应了两种特定的数据。那么，当我们同时面对标签和未标签的数据时，我们该如何处理呢？近期专家提出了一种新的学习模式，那就是半监督学习。半监督学习在面对两类数据时同时具有有监督学习和无监督学习的优势。它可以对已标签数据精确分析并估算预测未标签数据，从而处理多类数据共存的问题。

3 机器学习的算法

我们已经了解了机器学习的大分类，在有监督学习、无监督学习、半监督学习的分类标准下，每个分类都会对应一些算法。当然，并不一定是一一对应。算法是一种工具，它帮助我们在输入数据后预测出结果。下文将会介绍几个常用的算法。

1）决策树算法。决策树算法是机器学习中较为简单也较为典型的算法。首先我们需要明确，算法的作用是帮助我们预测数据对应的结果，算法所应用的对象是包含许多数据的个体。而面对不同的问题，我们仍需要训练算法这一过程。决策树算法是通过已经提取的特征对数据进行分类的，它先将已经提取的信息进行信息熵的计算以确定其包含信息量的多少。这一过程我们通常使用ID3算法或C4.5算法。在CART决策树中我们用基尼指数来划分属性。之后通常状况下会按照从包含数据多到包含数据少进行排列。然后开始以此顺序对个体进行分类。当整个分类完成后，决策树模型的构建也就完成了。此时若我们要预测一个新个体的数据，只需要把他的信息输入决策树，就可以对应出预测的结果。

2）K最近邻算法。相比于决策树算法，K最近邻算法会更容易理解。在训练K近邻算法的过程中，我们首先把提取的数据向量化，让它们在空间中排列成点集。K取值正整数，含义为和某点距离最近的K个点，通过对点的分类来实现对数据的分类。它主要用于讨论数据的相关性。在使用这种算法时，我们可能会用到欧式几何或者非欧几何中不同的距离度量来讨论空间中点与点之间的距离。如我们生活中最常见的欧氏距离或是把平面看做棋盘用步数描述距离的切比雪夫距离。

3）朴素贝叶斯算法。当我首次看到这个算法时，我便联想到了曾学习过的条件概率。在朴素贝叶斯算法中，给定目标值的属性都被假设为相互独立的条件概率。和决策树模型不同，朴素贝叶斯分类器更简单，也更依赖它的数学基础，以及稳定的分类效率。同时它的参数很少，因而对缺失的数据不敏感。同时，由于该算法模型建立在假设所有数据都相互独立的基础上，而现实中数据与数据之间难免存在联系，所以这个算法在实际生活中的运用往往是不精确的。

4 机器学习在生活中的应用

机器学习中各式各样的算法和它们所针对的诸多方面注定了机器学习在生活中的不同方面会被广泛应用。例如当我们要预测某个产品的受众面时，我们就可以使用决策树算法。我们首先选择一定数量的个体，提取他们的信息，按照训练决策树模型的流程进行操作。这样构建好的决策树模型就可以在我们给予新个体时按照新个体的信息预测出他是否为该产品的受众人群。

同时，机器学习还可以被用于风险评估、满意度预测、垃圾信息的过滤乃至人脸識别等方面。

5 结论

人类的学习能力无疑是胜过机器的，但对于人脑来说，反复地处理数据是枯燥乏味的，同时人类也难以进行庞大信息的分析处理。这便是机器学习的优势和作用，“不会厌倦，不知疲惫”。

曾经业界有一种说法，描述机器学习可以动摇人类的“自由意志”，因为大数据时代庞大的信息量可以支持机器做到非常精确的分析。当学习模型构建得足够精准时，机器就可以预测任何个体的行为。机器的预测决定了人的行为，自由意志便不复存在了。这当然是对机器学习“威力”较为夸张的展望。但笔者认为机器学习纵然达不到预知未来，也将在未来对人类的生活产生巨大的影响。

未来的某一天，机器学习可以帮助人类进行预知地震、海啸等，预知现在难以避免的风险。机器学习也会在人类的逐步研究中成为人类的左膀右臂，帮助我们继续进步，渡过难关。

参考文献

[1]曹栩森.机器学习的发展与应用[J].消费导刊，2017（28）.

[2]李凡长.机器学习理论及应用[M].北京：中国科学技术大学出版社，2009.

[3]余殷博.基于人工智能下的机器学习历史及展望[J].电子技术与软件工程，2017（4）：129.

[4]甄盼好.浅谈机器学习方法[J].网络安全技术与应用，2014（1）：176-177.

[5]王永庆，刘华.机器学习方法进展研究[J].无线互联科技，2013（7）：138.