APP下载

基于专利发展路径的颠覆性技术识别:以智能语音领域为例

2022-04-15王海军于佳文

科技管理研究 2022年6期
关键词:语音专利神经网络

王海军,于佳文

(沈阳工业大学管理学院,辽宁沈阳 110870)

党的十九大报告提出要突出关键共性技术、前沿引领技术、现代工程技术和颠覆性技术创新。2016 年习近平总书记在全国科技创新大会上指出,一些重大颠覆性技术创新正在创造新产业、新业态。颠覆性创新是促使后发企业改变现有竞争模式,在全球价值链中获得主动地位的突破口[1],因此颠覆性技术识别对企业感知外部风险有着积极作用,也便于决策者作出相应的对策;同时,颠覆性技术识别还可以帮助企业有效避免伴随颠覆性技术产生的不利影响,抓住机遇,从而在激烈竞争中立于不败之地。因此,加深对颠覆性技术的认识和了解,深入研究颠覆性技术识别与预测方法并提高判定结果的精准性具有重要的理论与实践意义。从现有颠覆性技术识别与预测相关研究来看,大多从颠覆性技术与市场的角度来进行界定,如张佳维等[2]从技术特征、市场特征、宏观环境等角度分析颠覆性技术;Ganguly 等[3]认为颠覆性技术既可以是现存技术的组合,也可以是全新的技术;张欣[4]也从技术和市场两个维度对颠覆性技术展开分析。此外,大多文献采用定性的方法展开研究,如Vecchiato[5]强调用户需求管理认知会影响机构对颠覆性技术的识别;李晓龙等[6]采用德尔菲法和决策与试验评价实验室方法识别出影响国家电网的颠覆性技术;Cagnin 等[7]将技术发展过程中的各种利益相关者加入到颠覆性技术研究路线图中,定量研究较少。然而,现有识别技术的方法由于主观因素较强且未能清晰解释技术演进趋势而存在以下局限:首先,客观信息是技术预测成功的关键因素,以往的技术识别方法不能根据客观的技术数据反映对应技术发展过程中的信息;其次,有必要用系统的方法来阐述技术的详细发展过程,尽管统计分析、扩散模型等各种方法可应用于技术预测,以增强分析结果的客观性,但不能解析技术详细发展的复杂结构,只能从宏观角度描述技术发展的总体方向及过程。为了弥补这些局限,本研究基于能够反映客观信息的专利数据和体现微观信息的专利发展主路径,构建颠覆性技术识别的新方法,并将该方法应用于人工智能(AI)语音领域,分析该行业内的颠覆性技术,以期对相关研究者及相关企业提供有益启示。

1 理论基础与模型构建

1.1 颠覆性技术创新

1995 年,克里斯坦森[8]216-219首次提出“颠覆性技术(disruptive technology)”的概念,并在其随后的研究中将颠覆性技术解释为以意想不到的方式取代现有主流技术的技术,认为颠覆性技术对现有主流市场上在位企业的竞争力起破坏作用。颠覆性技术是指具有一系列新功能,但尚未满足主流客户功能需求的技术,这是由于颠覆性技术在其生命周期的早期阶段只服务于重视其功能的顾客;随着颠覆性技术发展,当其功能足以满足主流客户需求时,颠覆性技术则转变成主流技术。现有研究通常是基于技术和市场两个视角对颠覆性技术进行定义,从技术角度聚焦于颠覆性技术的性能和成本,认为颠覆性技术具备一定的技术性能且成本较低[9],从市场角度则是试图解析颠覆性技术的市场特征,认为颠覆性技术改变了消费者期望以及市场的绩效指标[10]。

本研究基于克里斯坦森[8]5-7的颠覆性创新模式,绘制了颠覆性创新技术轨道(见图1),基于时间和性能两个维度构建颠覆性技术发展模型。其中,曲线L1 表示客户可以利用或吸收的改进率随时间推移呈上升趋势,例如,新一代电脑处理器比旧款性能更加强大,然而工作需求、个人操作水平等问题限制了电脑性能的发挥,曲线L1 末端的正态分布表明了客户可以利用的一系列性能,即两条虚线之间的部分;曲线L2 表示持续性技术创新,即在原有性能的基础上做增量的技术改进;曲线L3 表示颠覆性技术创新,是对原有技术轨道的颠覆,使技术发展轨道发生改变。由此可知,颠覆性技术多产生于如图1 中阴影部分。

图1 颠覆性创新技术轨道

由图1 可以看出,曲线L2 和L3 的斜率比L1 更大,表明技术进步通常超过了用户使用所有新产品功能的能力。克里斯坦森[8]26认为持续创新是通过增量改进来服务对产品性能要求更高的客户,并指出现有的竞争对手通常致力于持续创新,因为这一战略可以为消费者开发出更好的产品,从而获取更高的利润。从性能角度来看,通过颠覆性技术创新而来的产品或服务,与当前市场中的产品或服务相比,通常使用更方便、价格更便宜,吸引要求较低或者新的客户[11]。这种特性将持续创新与颠覆性创新区分开来,同时也重新定义了L3 的创新轨迹。

1.2 颠覆性技术的特征

对现有文献中关于颠覆性技术特征的表述进行梳理和归纳,可得到颠覆性技术大致有8 个主要特征(见表1)。

表1 颠覆性技术特征归纳

基于液晶技术对阴极射线(CRT)技术颠覆的案例,对表1 中的8 个主要特征进行归纳分析。郑彦宁等[16]、Lee[17]、Carlo 等[18]认为颠覆性技术是基于科学原理并融合技术实践,增加其他相关知识模块。颠覆性技术基于科学理论的突破、技术的融合及跨界应用的优势而进行技术创新。创新技术的融合及跨界应用并不表明技术是新出现的,只是相对于技术的应用领域是创新的——创新性对于颠覆性技术而言是必要条件而非充分条件。进一步地,尽管价格便宜、使用方便、操作简单被学界认为是颠覆性技术所支撑产品的特性,但最新研究表明这些特征并非同时存在,例如液晶显示屏对CRT 显示屏的颠覆并不具备价格便宜、操作简单等特征[19]。利用颠覆性技术可以开发出新的技术或技术产品的功能[9],其本质在于这些新功能可以挖掘出客户的潜在需求。换言之,客户需要的产品需具有创新性。因此,将表1 中第1~4 条特征修正为“创新性”。

由图1 可见,在位技术的性能供过于求为颠覆性技术的出现提供契机。从颠覆性技术与在位技术的关系来看,颠覆性创新作为一种特殊的技术竞争关系,是颠覆性技术对在位技术全方位的功能覆盖,功能层面的覆盖亦将成为从在位技术出发定位潜在颠覆性技术的重要途径。由于在位技术供过于求,为了顺应市场的需求,颠覆性技术应运而生。但颠覆性技术早期的性能较为低劣,随着技术的发展其性能逐步提升,这一过程即体现了表1 中所归纳出的第5~7 条特征。例如,CRT 显示器亮度、色彩饱和度等方面因肉眼识别能力存在溢出效应,而液晶技术逐步发展,但早期的液晶技术产品存在显示慢、有残影、视角小等诸多问题,随着液晶技术性能提升,相关技术产品从小型显示屏逐步迈入电视、电脑显示屏领域。有研究用对未来技术发展的影响来定义颠覆性创新,如Dosi[20]认为能够成为未来许多发明基础的技术被认为是具有颠覆性的;Schoenmakers 等[21]认为颠覆性技术通过对未来技术的影响实现技术的传递。因此,将表1 中第5~7条特征修正为“扩散性”,即颠覆性技术对未来技术的影响。

颠覆性技术对在位技术的颠覆是一个漫长的过程,在技术演化方面具有不连续、阶跃式发展的特点[12]。换言之,颠覆性技术通过引入新的范式为后续技术发展奠定基础,开启新的技术轨道,例如液晶显示屏只依赖液晶技术本身,与在位技术阴极射线管不存在任何形式上的关联。当颠覆性技术进入在位技术所在领域时,将会改变在位技术的性能衡量标准,从而产生不连续、阶跃式的技术性能发展轨道,即表1 中的第8 条特征。因此,颠覆性技术的性能并不能参照现有技术进行衡量,而需要采用一组新的性能参数,从而产生了与在位技术不同的技术性能轨道。

综合以上分析,归纳总结出颠覆性技术具有以下特征:(1)创新性。颠覆性技术基于科学或技术原理的新突破或者现有技术的不同组合,从而使其具有创新性。(2)扩散性。颠覆性技术必须能够与主流创新领域现有的社会需求关联,对在位技术功能具有一定的覆盖性;颠覆性技术能够满足未被在位技术所发掘的潜在需求,对未来技术发展具有一定影响性。(3)转轨性。当颠覆性技术进入现有的技术领域时,会改变当前技术的性能衡量标准,呈现出阶跃式的技术性能轨道。

1.3 颠覆性技术识别方法

自1995 年颠覆性技术的概念被提出以来,潜在颠覆性技术的识别方法始终是一个研究热点。目前采用的方法大致可以分为定性识别和定量识别两种。技术路线图和评分模型是定性识别与预测颠覆性技术的主要方法,如Vojak 等[22]基于价值链角度提出颠覆性技术识别的技术路线图方法体系;Kostoof等[23]将文本挖掘法和技术路线图两种方法相结合识别颠覆性技术。然而,使用技术路线图方法识别颠覆性技术,其结果的客观性会受到研究人员主观意识的影响。此外,影响颠覆性技术发展因素较多,很难对其发展路径进行精准预测,这也会对绘制颠覆性技术的技术路线图带来阻碍。也有学者利用评分模型来识别颠覆性技术,例如,Ganguly 等[3]提出目标细分市场对比、在位企业技术成熟度、技术采用率和期望效用值对比等指标来评价颠覆性技术;Guo 等[24]从主导力、成熟度和扩散能力的角度评价颠覆性技术;Sainio 等[25]从顾客利益、核心战略、战略资源和价值网络4 个维度构建颠覆性技术评价体系。上述模型就是根据现有的颠覆性技术理论提出一系列指标来评价某种技术,并依据这些标准建立评分模型,得分越高意味着这种技术越有可能成为颠覆性技术。但这种方法主观性太强,更多是依赖于专家对颠覆性技术的判断和预测。

定量识别方法主要是以专利、文献数据为主要来源,通过建立数理统计模型对技术进行评估,定量识别方法的数据输入更具客观性和系统性,例如Cheng 等[26]基于SIRS 传染病模型,对射频识别技术(RFID)领域的专利数据进行分析,从而得到颠覆性技术的总体扩散率;黄鲁成等[27]从技术生命周期着手,基于颠覆性技术萌芽期的技术特性进行测度,并结合SAO 语义结构提取预测技术未来发展;苏敬勤等[28]依据动态创新能力理论,利用专利量时间分布“J”型曲线、专利引用量时间分布“Λ”型曲线和专利引用率时间分布的“L”型曲线,研究颠覆性技术的演化路径,并且提出“专利影响因子”的概念,可以对中早期的颠覆性技术进行识别;Momeni 等[29]则是结合专利和论文数据,通过专利引用信息获取技术发展相关信息,再通过对专利摘要进行技术聚类来识别技术发展轨迹,最后结合相关论文验证颠覆性技术的发展趋势和潜力。综上所述,现有定量识别方法更多是从颠覆性技术对市场影响的角度来着手,较少考虑颠覆性技术的自身特点;而且现有研究较多从单一指标着手进行颠覆性技术的识别,缺乏对颠覆性技术特征的系统阐述。因此,本研究首先分析对颠覆性技术特征的相关研究,然后从专利文献数据入手,利用专利路径分析现有技术的复杂结构,最后结合专利吸收率和专利扩散率的测度结果识别出颠覆性技术。

2 颠覆性技术识别模型构建

2.1 搜索路径统计数

搜索路径统计数(search path count,SPC)是Batagelj[30]基于节点对投影统计数(node pair projection count,NPPC)、搜索路径连接统计数(search path link count,SPLC)、搜索路径节点对统计数(search path node pair,SPNP)而提出的方法。该算法使用专利引文矩阵作为输入,专利引文矩阵是一个有向图,这意味着一组由弧1)连接的节点(指专利)有一个方向,也就是说,该图显示了专利 是否引用专利以及引用专利 的频率;反之亦然。专利引用矩阵应包含一项技术的所有相关专利,如Wasserman 等[31]根据引文关系的结构特征将专利分为4 类:(1)独立专利(未被其他专利引用,也未引用其他专利);(2)原始专利(被其他专利引用,未引用其他专利);(3)终端专利(未被其他专利引用,引用其他专利);(4)中间专利(被其他专利引用,也引用其他专利)。

SPC 算法提出了一种确定专利发展路径2)的方法,以全面了解复杂的专利引用网络及其技术发展历史。该算法减少了原专利引用网络中的弧,只保留了原专利引用网络中的权重较高的弧。SPC 算法的核心思想是,链接到选定弧的专利可以作为高价值专利进行评估;此外,位于各种开发路径聚集位置的专利被解释为聚合技术点,其中一项技术是通过聚合具有不同目标或特征的两种或两种以上技术而开发的。因此,根据所有弧的权重选择主路径,这意味着确定权重的方法是最重要的部分。借鉴Batagelj[30]应用搜索SPC 算法确定弧的权重方法,则对于任意一条自源点到汇点的经由连边的路径的形式如下:

在检索到的专利中,选择所有原始专利作为专利发展路径的起点。原始专利是在一项技术的早期发展起来的,因此一直是专利发展道路的起点。然后使用公式(1)~(3),从原始专利延伸到专利开发路径。从一个原始专利开始的每一个弧都被选中,也就是说,这些弧链接到引用专利的专利。基于对每个弧的SPC 的比较来评估弧,并且从原始专利的链接弧中选择SPC 最高的弧。在这个过程中,通常只选择一个弧。如果两个或多个弧的SPC 相同,则可以将其全部保留。位于选定弧末端的专利成为开发路径另一弧的新起点,即通过基于SPC 评估与最近添加的专利相关联的弧,将位于弧末端的专利添加到开发路径中。最后,当来自每个原专利的所有专利开发路径都到达终点,即最近申请的专利时,该算法终止。

2.2 技术特征的专利表述

专利数据包含丰富的信息,其格式较为固定且能反映出技术的发展;专利的引用信息既可以反映技术的创新程度[32],也可以追踪技术知识扩散的路径[33]。专利数据广泛应用在颠覆性技术识别与预测的研究中[34],因此,本研究采用专利数据对颠覆性技术的识别方法进行研究,聚焦于颠覆性技术的技术特征,因此使用专利的后向引用和前向引用表征颠覆性技术的特性。其中,专利后向引用是指研究对象所引用的其他专利,而前向引用是指研究对象被其他专利引用。

专利的前向引用可视为一项专利影响的指示性指标,较多的前向引用表明该专利可能具有广泛的影响,因为它影响了各个领域的后续创新[35]。现有研究通过对比专利之间引用信息来表示专利的创新性,以此来区分新、旧发明之间的差别[36]。颠覆性技术的创新性和转轨性特征,也是就其与之前和现有技术之间的相对比较而言。专利的后向引用可视为一项专利创新的指示性指标,如果一项专利引用了一组狭窄技术的专利,则其独创程度较低,而引用广泛领域的专利则其创新性较高[37]。此外,一项技术后向引用的专利不是它所处的类别时,这种模式表明发明建立在不同于该技术所应用的技术范式的基础上[36]。本研究尝试采用专利后向引用专利与自身专利的相似或差异程度来表征颠覆性技术的技术特征。颠覆性技术开始出现时,由于其与现有技术相比不具备优势,其对于后续技术发展的影响比较小;当颠覆性技术成为主流技术以后,会出现众多效仿者,其对于后续技术的影响力也越来越大。因此,颠覆性技术越成功,它的技术影响力越大,它的前向引用扩散的程度也就越高。

根据以上推理,本研究定义两个变量:(1)专利吸收率,即后向引用专利中的国际专利分类号(IPC)的个数与研究对象本身IPC 分类号个数的比值,用来表示研究对象的创新程度;(2)专利扩散率,即前向引用专利中IPC 分类号的个数与研究对象本身IPC 分类号个数的比值,用来表示研究对象的扩散应用程度。通过计算某一专利的IPC 分类号的个数与其所有后向引用专利的IPC 分类号的平均个数的相似度,得出一个专利吸收率,即;计算某一专利的IPC 分类号的个数与其所有前向引用专利的IPC 分类号的平均个数的相似度,得出专利扩散率。因此得到以下公式:

3 智能语音行业颠覆性技术识别与分析

在《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》中,“智能”与“智慧”出现的频率高达57 次,这表明以人工智能为代表的新一代信息技术将成为我国“十四五”期间推动经济高质量发展、建设创新型国家的重要技术保障。此外,根据Gartner[38]发布的2020 年AI技术成熟度曲线,智能语音识别技术步入了生产高峰期,意味着智能语音识别技术将被广泛应用。由于国家的政策导向以及研究的聚集,智能语音领域更容易迭代出颠覆性技术,具有良好的代表性,因此,本研究聚焦于智能语音这一当下广受瞩目的人工智能细分领域,构建识别智能语音行业颠覆性技术的流程(见图2)。

图2 智能语音行业颠覆性技术识别流程

3.1 数据来源

本研究基于Tranfield 等[39]提出的专利检索两阶段方法来检索和筛选智能语音专利,以提高专利搜集的科学性与准确性。首先,使用USPTO数据库检索智能语音技术专利,检索公式为:TACD:("artificial intelligence speech*" OR "Intelligent voice*" OR "speech recognition*" OR "natural language processing" OR " speech synthesis *" OR "NLP*" OR "TTS")and APD:[*to 20201231]。去除外观设计专利和简单同族专利数后,发现智能语音行业1970—2020 年间累计申请专利2 134 件,形成了初始专利集。其次,为了剔除与智能语音行业无关的专利,将IPC 分类号限制为G10L15/22、G06F3/16、G06N3/08、G10L15/26、G06N20/00、G10L15/00、G10L15/18 和G06F17/28。进一步地,通过检视专利文献构建非相关主题的关键词词典,具体包括machine translation、MT、image segmentation、object detection、phrase detection、reading tutor、phonemic transcription、voice dialing、vision、interventions、graphics、character、emoji。最后,基于IPC 分类号、非相关主题关键词以及专利文献阅读等方式进行反复筛选,筛选出1 985 件专利进行分析。具体过程如图3 所示。

图3 专利数据清洗流程

3.2 智能语音技术的发展阶段

根据华西计算机团队[40]对智能语音技术发展阶段的划分(即技术的萌芽期、成长期、成熟期),来解释智能语音技术的发展阶段。首先,依照技术的3 个发展阶段将专利为:1970—1997 年、1998—2008 年和2009—2020 年,依次建立专利引用矩阵;然后将专利引用矩阵导入Pajek 软件中,使用其内嵌的SPC 算法,利用式(1)~(3)计算出每一条弧的权重,并选择权重最高的弧绘制出每一阶段的技术发展路径。

3.2.1 萌芽阶段(1970—1989 年)

图4 显示了萌芽期语音识别技术的发展路径,也就是萌芽期语音识别领域中的主要专利。早期发展中,通过对语音的模式和特征设置参数,并基于大量词汇进行连续语音识别。例如专利US3946157A通过分析语音来识别因素,从而识别单词;US407460 从连续语音中识别单词。随着语音识别技术的发展,语音识别技术分为了声学模型发展和外部降噪两方面。声学模型可以理解为帮助计算机认知每个音素单元的声学特征[41],在萌芽阶段其发展主要依靠统计模型,如专利US4759068 构建了马尔可夫模型,继而US5033087A 提出以马尔可夫模型为基础的连续语音识别,随后US5832430A 提出了基于隐马尔可夫模型(hidden Markov model,HMM)同时检测和验证词汇单词的识别方法。降噪方面,主要的专利是US5097510A 降噪处理和US498732 高噪音环境下的帧比较方法。与此同时,语音装置得到发展,并且与语音识别统计模型相结合,声学模型生成方法(US5799277)和非参数语音识别模型(US6224636)由此提出。

从图4 还可以看到,对于语音识别的声学模型构建研究较为集中。在萌芽阶段,语音识别方法基本上是采用传统的模式识别策略,还应用了矢量量化和隐马尔可夫模型理论,隐马尔可夫模型的应用使得语音识别获得了突破,开始从基于简单的模板匹配方法转向基于概率统计建模的方法,为未来智能语音的发展奠定了基础。

图4 萌芽期智能语音专利网络

3.2.2 成长阶段(1998—2008 年)

语音识别技术经过萌芽期,隐马尔可夫模型、高斯混合模型等声学模型逐步建立,进入了语音识别的概率统计建模阶段。图5 显示,在隐马尔可夫模型、高斯混合模型发展的同时,神经网络技术也在智能语音领域中稳步发展,例如专利US5179624A就已经使用神经网络技术和模糊逻辑进行语音识别。在这一阶段还出现了语音增强技术以及构建知识库的方法,如微软公司在2003 年提出了多传感语音增强方法和装置(US7447630B2)移除语音信号中噪声,同年还提出了矢量图形的标记语言和对象模型(US7486294B2);IBM 公司在2006 年申请了专利US8554560B2,技术主要涉及话音活动监测系统和方法,包括语音编码、免提电话语音识别等众多语音处理工作;同时可训练的语音合成发放提出,适合嵌入式设备应用。

图5 成长期智能语音专利网络

随着互联网技术的发展,智能语音识别在客户端和服务器系统的分布式语音识别技术(US6615172B2)的基础上,使用基于统计和语义的处理组合进一步来理解用户的话语含义(US7392185),对于语音的识别也逐步转入到对用户语义的理解,还可以在线匹配答案呈现给用户;同时语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自动性和自适应性,例如专利US5905789A 和US20020059068 等。此外,深度学习技术的介入,极大地促进了语音识别技术的进步和应用的广泛发展,大大提高了语音识别精度;语音识别技术在手机和家电等嵌入式设备中得到了大量应用,用于语音输入以及语音控制。

3.2.3 成熟阶段(2009 年至今)

这一阶段,智能语音技术发展呈现出百花齐放的特点,神经网络在智能语音领域的研究较为集中(见图6)。神经网络运用在语音识别中,例如递归神经网络(US10474753B2)、双向反复性神经网络(US10984780B2)等。阿里巴巴集团在前馈序列记忆神经网络(feedforward sequential memory networks,FSMN)的基础上提出了深层的前馈序列记忆神经网 络(deep feedforward sequential memory networks,DFSMN),并将DFSMN 与低帧率(lower frame rate,LFR)相结合用于加速模型的训练和测试,使得基于LFR-DFSMN 的声学模型可以被应用到实时的语音识别系统中。

图6 成熟期智能语音专利网络

语音识别发展至今,主流算法模型已经从模板匹配阶段转变为深度神经网络(DNN)阶段。在深度神经网络算法下,考虑到训练过程中大量数据的使用使得计算量巨大,对于应用企业而言,采用本地计算方式的算力门槛过高,而在当下的智能时代,日渐普及的云计算环境提升了AI 语音识别运算效率的同时也降低了企业的入市门槛,因此大大促进了AI 语音的技术发展;同时,由于深度神经网络的介入,语音识别的准确性高达98%,且已在多场合应用。进入成熟期,智能语音技术的自动化程度越来越高,基于专利US20030023440A1 的动态分段技术,进一步发展出多模块的语音处理方式。专利US20130262107A1 将智能语音处理技术分为语音转化模块、自然语言处理模块、语义引擎模块、数据库查找模块等,整合各个模块功能,推动智能语音进一步发展;US20140316768A1 通过语音识别终端把采集到的语音片段进行模数转换后进行传送和决策,然后通过通信网络将语音数据上传至云端进行语音识别,最后反馈结果至语音识别终端,在此过程中,云计算可以完成语音数据库和语言数据库的训练,最高效输出反馈结果,提高AI 语音识别技术的准确率。

在这一阶段,语音识别方法、装置以及声纹识别方法、装置专利也大量涌现。其中,语音识别方法和装置方面,微软公司在2012 年提出的专利US9244984B2 对查询、会话和搜索作出个性化改进,可满足用户对交互个性化的需求;百度公司在2013年提出的自动语音识别方法和系统(US9697821B2),可以提高对生僻词语的语音的识别准确率。声纹识别方法和装置方面,平安科技(深圳)有限公司在2017 年提出的声纹识别方法及装置(US10629209B2)涉及生物特征的身份识别技术领域,提供一种声纹识别方法及装置,可提高大量语音识别请求的处理效率,缩短处理时间。

根据上述分析,智能语音技术的发展可以从3个角度分析。从计算能力来看,芯片处理能力的大幅提升、图形处理器(GPU)的大量应用、云服务的普及还有硬件价格的快速下降共同为人工智能计算能力的提升提供了重要支撑;从算法框架来看,目前主流语音识别模型已经以深度神经网络为主导,神经网络的出现及普及为语音识别准确率的提升起到了重要作用;从计算数据来看,更加贴近真实使用场景的语料库也为语音识别技术提供了更加有效的训练素材,从而大幅提升了AI 语音识别产品及服务的使用体验。

3.3 技术颠覆性分析模型

依据上述3 个阶段发展路径,语音识别领域最重要的技术主题包括:深度神经网络、语音增强(speech enhancement)、卷积神经网络(convolutional neural network)、循环神经网络(recurrent neural network)、支持向量机(support vector machine)和强化学习(reinforcement learning)。这6 个技术主题主要专利情况如表2 所示,对于每一个技术主题下的专利,使用其专利引用数量、专利被引用数量、前向引用专利的IPC 分类号、后向引用专利的IPC分类号以及自身专利的IPC 分类号5 个指标进行颠覆性潜力分析,求出每一个指标平均数如表3 所示。

表2 智能语音领域六大技术主题专利

表3 智能语音领域六大技术主题各项指标测算

运用公式(4)(5)计算每个技术主题下的专利的吸收率和扩散率,结果如表4 所示。综合考虑表3 和表4,从而确定每个技术主题的创新性、扩散性以及转轨性,最终确定每项技术主题的技术颠覆性潜力,如图7 所示。可见,强化学习和神经网络技术是同时具备高创新性、扩散性和转轨性的技术领域,为智能语音领域的颠覆性技术。其中,神经网络起源于对生物神经元的研究,运用在智能语音领域中可以对智能语音识别的精确度带来显著的提升,其颠覆了概率统计建模阶段的隐马尔可夫模型、高斯混合模型等声学模型,成为主流声学模型,足以表明神经网络的高创新性和转轨性;神经网络技术在语音识别领域的应用,可以有效缓解噪声环境下语音识别准确度不高的问题,助力智能语音设备为用户带来较好的消费体验。2009 年,Hinton 等[42]将深度神经网络应用于语音的声学建模,这是智能语音史上的里程碑,为后续的技术发展奠定了坚实的基础。2011 年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型,在大词汇量连续语音识别任务上获得了显著的性能提升效果,大大降低了语音识别错误率,自此语音识别进入DNN-HMM 时代。2013 年,科大讯飞股份有限公司构建的深度神经网络极大地减少了神经网络的参数个数,减少了模型所需的存储空间并且加快了模型的训练速度,同时也提高语音识别系统最终识别的解码速度,从而在实际运用中有更好的实时性。由此可见,智能语音领域未来的发展方向主要是端到端的神经网络算法。

图7 智能语音领域六大技术主题颠覆性测度

表4 智能语音领域六大技术主题专利吸收率及扩散率

由图7 可知,强化学习技术的专利扩散率较高,极具颠覆性,对未来技术的发展极具影响力。强化学习的思想源于心理学,是多学科交叉融合的产物,这体现出其具有良好的创新性,应用在智能语音领域中可使智能语音展现出转轨性,随着互联网技术的发展,应用、终端和场景带来了大量应用数据,更为应用于语音识别的机器学习、深度学习带来了技术突破。语音识别技术的爆发是源于大数据,数据量越多,语音识别算法的准确性越高,语音识别的识别准确率相应越高。其次,语音识别技术需要丰富的场景土壤来培养快速的复杂场景处理能力。在消费级用户需求方面,在语音识别技术发展的开端,消费者对语音识别技术就建立了高预期——希望利用新技术提升生活体验,将高准确率的语音识别技术创造性地融入日常场景中;在专业级用户需求方面,司法、医疗、教育、电信、交通等领域企业级用户需要语音识别系统在实际业务应用中表现出功能可靠性和稳定性,因此,这些专业级用户在选择语音识别产品时会通过严格的招投标选择最具实力和行业经验的AI 语音识别产品和服务供应商。

4 结论和展望

4.1 研究结论

围绕颠覆性技术识别这个问题,本研究基于现有颠覆性技术研究,扬弃了过往使用单一指标来进行颠覆性技术识别的方式,重新修正了颠覆性技术特征,综合考虑专利的各项指标,利用更加科学、系统的体系以较好地识别出颠覆性技术,并以颠覆性技术自身特点为基础,结合专利信息中的技术发展历史来更好地表征颠覆性技术的自身特点,从而提升颠覆性技术识别的精准度;同时从专利视角切入,运用SPC 算法筛选了智能语音技术领域中的核心专利,分析识别出强化学习和神经网络技术是颠覆性技术,而端到端的神经网络算法是该领域未来发展的方向。

4.2 研究局限和未来展望

本研究在进行技术主路径研究时严重依赖于技术主题的检索数据库和技术特点,如果数据库不全、数据查全率不够,可能会导致路径的缺失。此外,专利引文来源主要来源于发明人引用的专利文献和非专利文献,以及审查员在专利审查过程中添加的专利文献和非专利文献,鉴于发明人会本能地回避相同或者相似的已有专利技术,导致发明人引用的专利文献与专利申请的相关程度远低于审查员添加的专利引文,而随着颠覆性创新环境变得越来越复杂和多样化,人工智能技术快速发展和不断更迭,未来有必要用动态的眼光进行深入探索,结合已经处于智能语音技术前沿的企业所面临的技术发展状况进行案例分析,检验专利路径发展的准确性,并在查找专利引文应用的关键路径时,利用文本挖掘技术从专利文本中抽取关键词或者技术术语,结合专利引文分析共同构建技术演化图,完善查找技术发展主路径的方法。

注释:

1)弧即两个节点之间的连线。

2)专利引文网络中的关键路径。

猜你喜欢

语音专利神经网络
专利
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
发明与专利
基于MQ3与MP3的价廉物美的酒驾语音提醒器
基于神经网络的中小学生情感分析
对方正在输入……
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定