深度学习技术的发展与应用

2018-04-17曾凡槊

电子世界 2018年19期

曾凡槊

近年来，深度学习技术已成为人工智能最热门的研究领域之一，其在自然语言处理、语音识别、图像处理等领域都取得了突破性进展。本文首先简要介绍了深度学习技术的概念，发展历史，之后举例说明了深度学习技术在医学、教育、安防行业的应用，最后分析了当前深度学习技术面临的挑战以及未来的发展前景。

1.引言

2016年，谷歌研发团队DeepMind设计的AlphaGo与韩国围棋世界冠军李世石进行了围棋人机大战，最终以4比1的总比分获胜，震惊了世界。AlphaGo是一款围棋人工智能程序，之所以拥有如此高超的围棋水平，很大程度上得益于其应用的深度学习技术。深度学习是人工智能的一个研究方向，近年来由于计算机算力的提高以及算法的进步，其在许多领域如计算机视觉，语音识别，自然语言处理等已经显现出巨大的能量，取得了许多突破性的进展[1]。

深度学习的概念最初由加拿大多伦多大学的Hinton教授和他的学生在2006年提出。深度学习通过建立一个与人脑类似的神经网络来分析、处理数据，主要借助人脑的多层抽象机制，来实现对大规模数据的建模[2]。深度学习同支撑向量机，Boosting，最大熵方法等浅层学习方法不同，其可通过学习一种深层非线性网络结构，实现对复杂函数逼近（如对多维数据的分布进行表示），从而为解决复杂问题提供了可能。

2.深度学习技术概述

深度学习是人工神经网络的一种变体。人工神经网络是利用计算机技术对大脑的抽象、简化和模拟，神经网络一般是由多个人工神经元相互连接组成的。神经网络广泛使用的一种连接方式包括三层，分别为: 输入层、隐藏层和输出层。其中，输入层的各神经元用于接收输入信号，并传输到隐藏层的各神经元，之后隐藏层中的神经元通过激活函数处理后继续将信号传输到输出层各神经元。人工神经网络中的输入以及各层神经元的个数不固定，隐藏层也可以有多层，在通常情况下隐藏层有5层、6层、甚至10多层，这些都需要根据所要解决问题的复杂性而定。

计算机硬件技术的发展为多层神经网络的实现提供了基础，研究者可以通过较高配置的计算机来建立更多层的神经网络，实现复杂的网络模型，此时，利用多层神经网络进行“深度学习”才有了真正意义。

3.深度学习的应用

3.1 医学影像分析

目前，在医学领域特别是医学影像分析方面，深度学习技术已被广泛使用[3]。糖尿病性视网膜病变如果不加干预，继续加重可能会导致失明，全世界范围内有超过4亿的糖尿病患者存在该病风险，假如能在发病早期进行确诊，采取相应的治疗方式将有很大的几率治愈。谷歌公司的研究团队采用深度学习技术建立了一个自动识别模型，模型在超过10万张视网膜眼底图像数据集上进行了训练，图像数据都是经过眼科专家逐一标注的，保证了训练数据的准确性，之后研究者对模型进行了验证，最终机器的识别效能与人类专家相当。未来，当该技术更加成熟达到临床应用条件后，能够在保证识别准确性的同时减少患者的等待时间，患者可以在疾病的早期就能就医，防止疾病的进一步发展。

皮肤癌是一种恶性肿瘤，由于其存在于皮肤表面，容易被患者忽视。皮肤癌的筛查主要依赖临床医生的视觉判断同时结合临床表现，若还不能明确诊断，则需进行皮肤镜分析、活检和病理学分析。通过皮肤镜进行皮肤癌筛查依赖医生丰富的临床经验，由于其复杂的临床表型，即使是经验丰富的医生也不能100%确认，常常需要借助病理分析，而病理分析耗时且费用昂贵，不能满足筛查的需要。 2017年初，斯坦福大学研究团队利用深度学习技术结合迁移学习技术，通过对近13万张皮肤表面图片的训练，得到了一个可以对超过2000种疾病进行识别的智能模型。随后，研究者将此模型和多位皮肤科医生进行了识别准确率的竞赛，人工智能系统在较量中均表现出与人类专家不相上下的水平，准确率接近70%，比人类专家高出近4%。

当前，基于深度学习技术的医学影像处理技术在某些领域达到甚至超过了人类专家的水平，在不久的将来，随着技术的进一步发展，越来越多的医院将会开始使用人工智能技术，辅助临床医生，提高疾病诊断的准确率和效率。

3.2 教育

讯飞联合实验室是致力于语言认知计算领域的技术创新，已在类人答题、语音转写、作文评阅等方面进行了深入研究，其中，对作文进行批阅的机器智能阅卷系统是其中一项重要的研发成果，已经开始部分试用[4]。

作为考试中的主观题，利用机器对作文进行批阅困难重重。20世纪60年代以来、国外许多专家和学者就致力于这方面的研究，比如托福考试作文测评系统Erater系统。Erater系统是一种在线测评英语写作能力的计算机系统，学生在线向该系统提交其撰写的作文后，3秒之内系统即可作出评测，向用户反馈其文章存在的问题，并给出评分结果。然而这类系统大部分针对的都是非母语作文，作文中的错误大多是一些基础性拼写错误，或者是初级语法错误，通过规则可以比较容易地让机器识别从而实现批阅。而对于母语作文，情况就复杂得多，需要从文采、篇章衔接、立意等更高层次做出评判。这种智能阅卷系统能减少教师的重复劳动，可以减少教师的工作压力。教师可以有更多的精力来做创造性的工作，例如与学生进行思想交流，启发学生智慧等。

3.3 安防

人脸识别技术在过去几年进展非常大，特别是结合了深度学习技术的人脸识别算法，相比几年前，在同一测试集上新的算法的错误率下降十分明显[5]。人脸识别在安防产业的应用十分广泛，如对视频图像进行分析、门禁等。安防领域应用人脸识别模型时，尤其要注意光照、角度、表情问题，系统的鲁棒性、可靠性要求较高。

目前道路上部署的绝大多数摄像机装置采集的图像分辨率较低，且为了提高采集范围，视角设置的较广，距离行人较远，不能满足人脸识别算法的基本要求，采集的人脸图像常常比较模糊，只能从图像中分辨出人的外形。尽管采集的图像比较模糊，但如果能利用算法提取人物的身高、衣着等信息也十分有价值。例如，公安机关常常需要从视频信息中确定嫌疑人的逃跑路线，如果算法能够自动追踪可疑人物的话将大大提高公安机关的办案效率。

4.深度学习技术面临的问题

虽然深度学习模型具有强大的表示能力，但是这种表示是隐式的，且依赖大量的模型参数；另一方面，深度学习是一个“黑箱”模型，可解释性差，模型的好坏常常依赖参数的选择与优化，而参数优化很大程度上是经验的[1]。

深度学习的理论源于对大脑结构的模拟，而现如今人类对大脑的理解也存在局限性，因此以此为基础的深度学习其理论的正确性与否还未可知，尽管目前其在很多任务的表现十分亮眼，研究者也设计了许多深度学习模型，但其理论问题一直被反对者诟病。

在工程应用时，如何解决海量数据训练所需的算力是每个深度学习应用首先要解决的问题。目前深度模型的训练较长，根据模型的大小从几天到几个月的都有，而随着互联网技术不断普及，数据样本将不断增加，训练时间将会是制约互联网公司发布产品的瓶颈。未来，需要进一步完善技术、发展适合深度模型的专用芯片等硬件设备，提高模型的训练效率。