APP下载

基于异构数据的颠覆性技术识别研究

2022-07-05马永红孔令凯林超然杨晓萌倪惠莉

现代情报 2022年7期
关键词:文本挖掘

马永红 孔令凯 林超然 杨晓萌 倪惠莉

摘要:[目的/意义]颠覆性技术研发作为国家战略,如何准确识别颠覆性技术,对于国家和企业把握技术先机,抢占技术制高点意义重大。[方法/过程]本文结合专利文献数据,利用LDA主题模型实现数据降维,提取技术主题,从技术主题成长性、融合性、创新性、突破性4个特征识别候选颠覆性技术;在此基础上,结合网页新闻数据,测算候选颠覆性技术主题与网页新闻数据主题之间的匹配度,分析技术的市场属性,准确识别颠覆性技术。[结果/结论]本文以智能制造装备领域为例,通过实证研究得到“智能数字控制”及“智能数据采集系统”是智能制造装备领域的颠覆性技术。

关键词:异构数据;文本挖掘;颠覆性技术;技术识别

DOI:10.3969/j.issn.1008-0821.2022.07.008

〔中圖分类号〕G255.53〔文献标识码〕A〔文章编号〕1008-0821(2022)07-0092-13

Research on the Identification of Disruptive Technologies

Based on Heterogeneous Data

——An Example in the Field of Intelligent Manufacturing EquipmentMa YonghongKong Lingkai Lin ChaoranYang XiaomengNi Huili

(School of Economics and Management,Harbin Engineering University,Harbin 150001,China)

Abstract:[Purpose/Significance]Disruptive technology research and development as a national strategy,how to accurately identify it is of great significance for the country and enterprises to grasp the technological first opportunity and seize the technological high ground.[Method/Process]The study patent data,using the LDA topic model to achieve data dimensionality reduction and extracting technology topics.And screened candidate disruptive technologies based on four characteristics:growth,convergence,innovation,and breakthrough of the technology topic.On this basis,the match between candidate disruptive technology topics and web news data topics was measured in conjunction with the web news data.The market attributes of the technology were analysed to identify disruptive technologies comprehensively.[Results/Conclusions]This paper took the field of intelligent manufacturing equipment as an example.Through empirical research,the study found that“intelligent digital control”and“intelligent data acquisition system”are disruptive technologies in the field of intelligent manufacturing equipment.

Key words:heterogeneous data;text mining;disruptive technologies;technology identification

技术创新是经济发展第一动力,而颠覆性技术作为技术创新的重要内容,其对以往的技术和市场具有较强的破坏力。颠覆性技术是打破原有技术生命周期,构建新的技术轨道,以意想不到的方式取代现有主流技术的技术[1],它能够实现社会技术体系的跃迁,改变技术产品性能,变革原有技术性能标准,对于军事、科技、产业等具有变革性的意义。世界各国普遍重视颠覆性技术研发,并设计专门的组织或研发计划,旨在促进颠覆性技术发展,例如:美国国防高级研究技术局(DARPA)、日本的颠覆性技术创新计划(ImPACT)。中国也高度关注颠覆性技术研发,中国的《国家创新驱动发展战略纲要》《科技部办公厅关于开展颠覆性技术研发方向建议征集工作的通知》等文件明确提出发展颠覆性技术,将颠覆性技术摆在国家战略位置。而颠覆性技术发展具有高度不确定性,研发过程漫长,如何在复杂的技术环境中及早准确识别颠覆性技术,对于加快颠覆性技术研发,掌握国际竞争发展先机具有重要意义。

1相关工作概述

对于如何识别颠覆性技术,国内外学者已经取得丰富研究成果,其中专家经验、专利数据、科技论文、市场用户数据、政策法规是颠覆性技术识别常用的数据源。早期主要采用专家经验及知识识别颠覆性技术,而依靠专家经验的识别方法包含:调查问卷法[2-3]、专家访谈[4]、理论分析[5]、技术路线图[6]等。专家知识和经验的利用,能够准确识别特定领域颠覆性技术,但专家资源稀缺,且应用范围较窄,难以满足颠覆性技术识别需求。

为解决该问题,学者采用专利文献数据及科技论文识别颠覆性技术。专利文献包含大量技术信息,学者综合专利申请数量[7]、专利引用量[8]、科学关联度[9]、专利权利要求数[9]、IPC数量[10]、专利发展路径[11]、专利引用知识突变[12]、专利引文相似度[13]等专利外部属性识别颠覆性技术,然而基于专利外部属性的颠覆性技术识别方法,难以充分挖掘专利文献信息,技术宽泛,细粒度不足,并且专利引用具有滞后性,无法及时识别颠覆性技术。为解决以上问题,学者深入专利内部,将文本挖掘及深度学习方法应用于颠覆性技术识别,以技术属性集相似度[14]、技术主题突变[15-16]挖掘专利文献内部信息,以此完成颠覆性技术识别。目前,基于专利内部信息识别颠覆性技术的研究还比较少。科技论文同样包含技术信息,部分学者将科技论文用于颠覆性技术识别,结合科技论文数量变化[11]、科技论文被引量[17]、科技论文关键词网络[18]、知识主题突变[19]等指标识别潜在颠覆性技术。除了从“技术属性”层面识别颠覆性技术,也有学者基于市场用户需求数据、商业报告数据,分析技术功能变化[20]、技术发展轨迹[21]、技术成熟度[22]、技术市场潜力[23]、消费者偏好[24]、产品功能变化[21]、客户满意度[25],进而探究技术对于市场的颠覆程度,以此完成颠覆性技术识别。该类颠覆性技术识别方法,考虑了市场及用户数据,更贴近市场需求,但该识别方法对技术本身挖掘不充分,忽视技术知识结构,识别结果较为片面。

为了提升颠覆性技术识别准确性及全面性,本研究基于专利文献,引入文本挖掘技术,获取技术知识结构信息,结合颠覆性技术特征,从技术属性层面识别候选颠覆性技术,并结合网页新闻数据,探究候选颠覆性技术的市场影响,分析技术的市场属性,进而确定颠覆性技术。颠覆性技术整个识别过程,综合专利文献及网页新闻数据,从技术属性及市场属性两个角度识别颠覆性技术,能够提高识别结果的准确性及全面性。

2颠覆性技术特征分析

颠覆性技术源于技术融合或创新活动中产生的重大技术范式变革,实现技术性能突破,带来全新的功能属性,满足主流客户需求,取代现有主流技术。本文将其特征归纳为4个方面。

1)成长性:颠覆性技术沿着“利基市场—中间市场—主流市场”的路径演进[26],颠覆性技术早期在主流市场需求的性能维度上比主流技术产品低劣[1],只能服务利基市场或边缘市场,但通过后期的技术改进与创新,技术产品性能不断提升,具备高性能、低成本优势[27],最终成长为市场主流技术。因此,技术成长性是颠覆性技术的重要特征之一。

2)融合性:颠覆性技术可以是技术融合的产物[28],未来大部分颠覆性技术将来源于不同领域的技术融合[29]。跨越不同知识结构或不相关领域的技术不断交叉、嵌入,组合新颖的知识元素,打破以往知识结构对技术轨道的约束[30],为颠覆性技术的产生奠定基础。因此,融合性是其重要特征[10]。

3)创新性:颠覆性技术不是对现有技术的进一步改进,而是更大程度的创新[31],该技术可以提供全新功能、不连续的技术标准以及新的所有制形式,同时可以改变市场标准和消费者期望[32],实现产品或服务技术特征以及功能属性的革新。因此,创新性是颠覆性技术显著特征之一。

4)突破性:颠覆性技术可以由科学知识突变或科学原理变化产生,也可以由技术集成创新产生,该类技术具有重大的突破性[2],能够替代原有的技术,实现技术性能突破,改变因技术研发局限性造成的产业市场落后状况,满足主流市场技术需求,实现市场突破[33]。因此,突破性是颠覆性技术所具有的特征之一。

3颠覆性技术识别框架

3.1异构数据收集及预处理

异构数据是指来源和结构不同的数据,相对于单一数据集,异构数据使不同数据特征融合成为可能。颠覆性技术识别过程中,为提高颠覆性技术识别准确性及全面性,本文综合使用专利文献及网页新闻两种异构数据。专利文献记录技术创新、工艺优化,蕴含丰富的技术知识结构信息;网络新闻数据是市场不同主体对技术的客观描述,反映市场主体对技术的态度、应用以及评述,可用于分析技术的市场属性[34]。因此,本文将专利文献及网页新闻两种异构数据作为颠覆性技术识别的数据源。

1)专利数据收集及预处理

德温特数据库作为世界知名专利数据库,已经收集多个国家和地区的专利文献,专利信息覆盖全面,且数据库不断更新,为技术情报分析提供了可能。因此,本文选择德温特数据库收集专利文献数据。为全面检索专利文献,本文结合关键词及IPC分类号,制定检索表达式,收集专利文献数据。NLTK术语库是著名的自然语言处理库,具有词性分类、词干提取、词性标记等功能,为50多种语料庫和词汇资源提供使用界面[35],为此,本文将其引入专利数据处理,实现词干提取及词性还原,并结合停用词表,剔除无关词语,保证数据的有效性。

2)网页新闻数据收集及预处理

网页新闻数据量庞大,人工收集数据工作量巨大,且难以全面获取新闻数据。为此,本文采用网络爬虫技术实现网页新闻数据收集。而维特比(Viterbi)算法通过寻找动态规划最大概率路径,找出词频的最大切分组合,具有良好的分词效果[36],对此,本文将其应用于网页新闻数据分词。

3.2文本数据聚类模块

LDA(Latent Dirichlet Allocation)主题模型作为典型无监督学习,能够挖掘文档隐藏语义信息,处理海量文本文档,降低无效信息影响,实现专利文献及网页新闻数据的高效聚类,因此,LDA模型作为本文主题聚类的首选。LDA主题模型最早由Blei D M等提出[37],其假设每篇文档由特定概率的主题组成,而主题又由特定概率的特征词组成,形成“文档—主题—特征词”的三层贝叶斯概率模型。LDA模型提取效果直接由主题数量决定,为精准确定主题参数,本文结合困惑度(perplexity)及“肘形”理论确定模型参数。困惑度表示所训练模型中特定文档属于哪个主题的不确定性[37],其中困惑度计算如式(1)~(3)所示;而“肘形”是困惑度曲线的拐点,该拐点与上一节点差值最大,而与后一节点的差值最小,而“肘形”对应的主题数为模型的最优主题数[38]。

3.3颠覆性技术主题识别模块

根据颠覆性技术的成长性、融合性、创新性以及突破性,本文采用专利申请量以及技术强度判断技术成长性;采用技术主题IPC分类号、接近中心性判断技术融合性;测度技术主题有效规模及约束度探究技术创新性;基于技术异常检测判断技术的突破性,结合以上4个维度从技术属性层面识别候选颠覆性技术,并结合网页新闻数据,探究候选颠覆性技术主题的市场属性,最终完成颠覆性技术识别。识别流程如图1所示。

1)技术成长性及融合性测度

“成长性”是指颠覆性技术能够逐步替代原有技术,变革技术知识结构,最终成为市场主流技术。为体现技术成长性,本文采用专利申请数量以及技术主题强度变化测度技术成长性。技术主题强度能够反映各时期内技术的热门度,技术主题强度越高表示技术主题影响力越强。技术主题强度计算公式为:

“融合性”作为颠覆性技术基本特征之一,本文从技术主题接近中心性以及技术主题IPC分类号种类两个维度分析技术主题融合性。接近中心性表示某技术主题与其他技术主题的接近程度,如式(6)所示,接近中心性越高,技术主题融合性越强[40]。为测度技术主题接近中心性变化趋势,本文基于专利文献时间属性,构建不同年份下技术主题共现网络,以此测算不同年份技术主题接近中心性;此外,统计技术主题内部不同类型的IPC分类号,若技术主题内IPC分类号种类增加,则技术主题融合性增强。

“创新性”是颠覆性技术基本属性之一。颠覆性技术能够提供新的产品或技术功能,改变原有技术范式,具备较强创新性。技术主题共现网络中结构洞占据者能够获取非重复异质信息,技术创新可能性较高,因此,本文采用结构洞指标测度技术主题的创新性。有效规模(ES)、约束度(H)是结构洞指数典型指标,有效规模是技术节点的个体网络规模减去网络冗余度,有效规模与技术节点结构洞数量呈正比,如式(9)所示。约束度表示约束性多大程度集中在某个节点上,如式(10)所示。

颠覆性技术能够突破现有技术桎梏,改变原有技术轨道。为分析技术主题是否具有突破可能性,本文采用技术异常检测,探究技术突破的可能性。技术异常检测是一种技术突破形式,异常技术是对已建立规则、主流技术的革新[42]。技术异常检测包含局部异常因子(LOF)、K均值等方法,而K均值异常检测能够应用于不同类型数据,因此,K均值技术异常检测作为本文首选。其计算公式如式(11)所示:

3)技术主题匹配度测算

专利文献挖掘能够深入技术本身,获取技术知识结构信息,但难以分析技术的市场属性,导致技术分析结果片面。社会网络新闻数据包含技术应用、技术需求、潜在技术机会等重要技术信息[34,43],网络新闻技术信息的报道,是技术事件转移的重要信号,表明市场不同主体的关注,对于分析技术市场应用,技术产生的社会经济效益、潜在竞争力、商业机会具有重要价值[44]。部分学者已将网页新闻用于评估技术潜在竞争力、市场认可度,论证网络新闻数据用于分析技术市场属性的可行性[34]。对此,本研究将网页新闻数据引入,结合主题匹配度测算方法,探究待选颠覆性技术的市场属性,提升技术识别的准确性及全面性。

主题匹配度测算包含词共现匹配、余弦夹角向量匹配等方法,该类方法从词频角度测度主题匹配度,尚未考虑主题内特征词的词义信息。为准确测算技术主题匹配度,本文基于语义相似度Sim(kwi,kwj),形成特征词相似度矩阵F,如式(12)所示,取矩阵中相似度排名前50%元素的均值作为主题匹配度[45]。

4智能制造装备领域颠覆性技术识别案例

制造业是国民经济的主体,是立国之本、兴国之器。制造系统的智能化是制造业新的发展方向,制约国家竞争力的提升,是各国关注的焦点。智能制造装备领域具有科技创新能力强、产业关联度高等特征,极易产生颠覆性技术。因此,本文选择智能制造装备领域作为研究对象,利用专利文献以及网页新闻数据,识别智能制造装备领域颠覆性技术。

4.1智能制造装备领域数据收集及主题提取

4.1.1智能制造装备领域数据收集

1)智能制造装备领域专利文献数据收集

智能制造装备产业作为战略性新兴产业,根据《战略性新兴产业重点产品和服务指导目录》获取智能制造装备领域技术关键词,结合IPC分类号,制定智能制造装备领域专利数据检索表达式,TI=(Intelligent numerical control machine or industrial robots manufacturing or additive manufacturing or intelligent sensing or intelligent control equipment or intelligent measurement or assembly equipment or intelligent logistics or storage equipment) AND IP=( B62D* OR B23P* OR B23Q* OR B24B* OR B23D* OR B23F* OR B23B* OR B23C* OR B23G* OR H02N* OR B23K* OR F16J* OR H04R* OR B64G* OR G08B* OR G11B* OR G06E* OR G06F* OR G08C* OR H01F* OR G05B* OR G01B* OR G02B* OR A24B* OR B02C* OR C03B* OR C25C* OR G08G* OR H02K* OR F16C* OR E01D* OR B60B),檢索时间跨度为1963—2021年,检索日期为2021年9月25日,基于德温特数据库共得到25 564条专利文献,删除无效数据,剩余23 581条专利,绘制各年份部分国家(地区)的专利申请情况,结果如图2所示。

由图2可知,德国最早申请智能制造装备领域相关专利,并保持较强研发态势。此外,中国(CN)及中国香港(HK(China))、中国台湾地区(TW(China))、世界知识产权组织(WO)、美国(US)、韩国(KR)、日本(JP)、英国(GB)、欧洲专利局(EP)等国家、地区或组织的专利申请数量也不断增加。在本文收集的专利文献中,中国(CN)最早图2各年份部分国家及地区专利申请情况

于1997年申请智能制造装备领域相关专利,相比其他国家及地区,起步较晚,但中国及地区专利申请数量不断增加。

2)智能制造装备领域网页新闻数据收集

网页新闻数据庞大,人工收集工作量巨大,且面临数据收集不全面问题。为此,本研究借助Python软件,采用爬虫技术收集智能制造装备领域网页新闻数据。其中,智能制造装备领域网页新闻检索关键词为“智能制造技术”“智能制造装备”“智能制造装备技术”“高档数控机床”“工业机器人”“增材制造装备”“智能传感与控制装备”“智能检测与装配装备”“智能物流与仓储装备”,通过收集共得到7 218条新闻数据,去除冗余文本及无效文本,剩余6 694条新闻数据,如图3所示,时间跨度为2012—2021年。

4.1.2专利文献及网页新闻数据预处理

1)专利文献数据预处理

为保证智能制造装备领域专利文献技术主题提取效果,本研究删除长度小于2和长度大于15的单词,并实现智能制造装备领域专利文献的词性还原及词干提取;根据NLTK术语库自带停用词表,并结合LDA主题模型计算结果反复调整停用词表,剔除无效词语。专利文献数据预处理后,抽样得到:“Telescopic”“Bolt”“Monitoring”“Medium”“Grid”等词语,从抽样结果可知,数据预处理后得到的词语专业,说明智能制造装备领域专利文献数据预处理有效。

2)网页新闻数据预处理

针对智能制造装备领域网页新闻数据,采用维特比算法实现文本分词,但文本中存在部分无效词语,影响文本信息的挖掘。哈工大停用词库以及百度停用词库是开源的停用词表[46],收录了比较全面的停用词,是目前最常用的停用词库,本文将其引入,过滤无效词语,降低无效词对本研究的影响。

4.1.3智能制造装备领域技术主题提取

LDA模型的主题参数直接决定智能制造装备领域技术主题提取的准确性,为保障智能制造装备领域专利文献及网页新闻数据聚类效果,本研究综合困惑度及肘形确定LDA模型主题参数。其中,专利文献以及网页新闻LDA主题模型困惑度及肘形如图4所示。

综合不同主题数下模型困惑度及肘形,如图4所示,得到智能制造装备领域专利文献LDA模型最优主题数为87,而智能制造装备领域网页新闻数据LDA模型最优主题数为72。其中,专利文献聚类结果中两个主题由数字构成,本研究将其剔除,剩余85个技术主题;由智能制造装备领域网页新闻数据LDA模型得到72个主题,其中与智能制造装备领域相关的主题共28个,剩余44个主题与智能制造装备领域关联性不强,将其剔除。每篇文档由一定概率的主题组成,为准确提取文档信息,本文借鉴Mann G S等的研究[47],认为若主题分布概率大于0.1,则认为文档属于该主题,进而删除文档中主题分布概率低于0.1的主题。

根据专利文献及网页新闻数据LDA模型提取结果,分别展示不同数据源下前5个主题的特征词及其概率分布,结果如表1所示。

4.2智能制造装备领域候选颠覆性技术识别

基于智能制造裝备领域专利文献以及LDA模型提取结果,本研究从成长性、融合性、创新性、突破性4个维度分析技术自身知识属性,识别候选颠覆性技术。

4.2.1智能制造装备领域技术主题成长性测度

颠覆性技术实现技术性能突破,不断发展,最终成为主流技术,该发展过程中技术创新主体逐渐多样化,专利申请数量不断增加。因此,本研究结合专利文献的时间属性,统计技术主题专利申请数量及技术主题强度,绘制不同时间段各技术主题专利申请数量及主题强度变化。由于2000年前专利数量较少,信息不丰富,因此,本文仅展示2000年以后的统计结果,结果如图5和图6所示。

图5及图6显示智能制造装备领域大部分技术主题专利申请数量以及主题强度呈现上升趋势,尤其2015年后,随着智能传感器、人工智能、智能算法、大数据采集技术、存储技术等的不断成熟,智能制造装备领域内技术复杂度凸显,装备性能得以优化,成为不同国家或地区关注的重点,专利申请量及主题强度不断提升。但从智能制造装备领域技术主题强度变化趋势上看,Topic79、Topic76、Topic72、Topic54、Topic25、Topic3 6个技术主题2000—2012年变化不明显,尚未出现增强或减弱的趋势,因此,本文后续研究将该类技术主题删除,保障颠覆性技术识别的准确性。

4.2.2智能制造装备领域技术主题融合性测度

基于技术主题共现强度,构建智能制造装备领域技术主题共现网络,测算技术主题接近中心性,利用接近中心性探究技术主题的融合程度。为动态观测技术主题融合性变化,本文以时间为切片,分别构建1966—2021年内55个技术主题共现网络,并展示2020年智能制造装备领域技术主题共现网络,如图7所示。

通过构建不同年份下技术主题共现网络,得到技术主题接近中心性变化趋势。由于2000年前各技术主题共现强度较弱,接近中心性不显著,因此仅展示2000年后技术主题的接近中心性变化趋势,如图8所示。为保持数据一致性,下文同样仅展示2000年后智能制造装备领域的数据。此外,本文统计不同技术主题内部IPC分类号,多维度分析技术主题融合性,结果如图9所示。

图8中智能制造装备领域部分技术主题接近中心性不断增加,不同类型的技术主题关联密切,融合度上升,该类技术主题共23个,主要包含Topic86、Topic84、Topic83、Topic74等。此外,观测23个技术主题内部IPC分类号种类,其中Topic21、Topic28、Topic43、Topic56、Topic59、Topic73、Topic84 7个技术主题的IPC号种类均超过200,技术主题涉及领域广泛,包含不同类型的技术,技术融合性明显。

4.2.3智能制造装备领域技术主题创新性测度

颠覆性技术改变原有技术范式,实现技术结构变革,技术创新性明显。本文利用结构洞指数测度具有创新性的技术主题,结构洞指数越高,技术主题获取非冗余信息能力越强,实现技术创新可能性越高。本文采用有效规模及约束度指标测算技术主题结构洞。基于技术主题成长性及融合性分析,得到23个技术主题,结合构建的技术主题共现网络,其有效规模及约束度指数变化情况如图10、图11所示。

由图10可知,Topic22、Topic55、Topic62 3个技术主题有效规模变化不明显,而Topic19有效规模呈下降趋势,非冗余信息获取能力低于其他类型的技术主题,拥有结构洞数量较少,技术主题创新性不强,本文将该4个技术主题删除;由图11可知,各技术主题约束度不断下降,技术主题网络能力较强,对其他技术主题的依赖程度逐渐减小。

通过技术主题成长性、融合性以及创新性筛选,得到19个技术主题,结合技术主题特征词及概率,对19个技术主题进行命名,结果如表2所示。表2技术主题命名

主题号IDTopic5太阳能电池电流与电压控制技术Topic12智能协议转化装置Topic17智能手机传感器技术Topic21智能数字控制Topic28机器人智能传感控制技术Topic35智能辅助技术Topic43智能软件Topic44智能装配技术Topic46三维参数绘图技术Topic56电机控制与连接技术Topic59导轨安装技术Topic60耐高温隔热与散热材料Topic65信号智能处理技术Topic69机器人识别扫描系统Topic73无线传感器网络芯片技术Topic74驱动器控制系统Topic83智能信息存储Topic84智能数据采集系统Topic86原材料处理方法

4.2.4智能制造装备领域技术主题突破性测度

技术异常检测是另一种技术突破形式,通常认为异常点可能表示对已建立规则、主流趋势和模式的革新和打破,具备技术突破的可能性[48-49]。本文采用K均值算法检测技术异常点,分析智能制造装备领域技术主题的异常,检测结果如图12所示。

通过智能制造装备领域技术主题异常检测可知,Topic21(智能数字控制)、Topic84(智能数据采集系统)两个技术主题与其他类型技术主题距离较远,属于智能制造装备领域异常点,具有实现技术突破的可能性。因此,本文认为“智能数字控制”以及“智能数据采集系统”两项技术是智能制造装备领域的候选颠覆性技术。

4.3主题匹配性分析

4.3.1网页新闻数据主题命名

网页新闻数据LDA主题模型共提取72个主题,删除无关主题及低强度主题44个,剩余28个主题与智能制造装备领域相关。根据智能制造装备网页新闻数据LDA主题模型特征词及概率分布,对提取的智能制造装备领域网页新闻数据主题进行命名,结果如表3所示。表3智能制造装备领域网页新闻数据主题命名

NO.IDNO.ID1智能建筑设计15智能系统2航空航天发动机16智能制造业3科技成果转化17智能物流4智能家居18燃料电池5脑机19智能制造平台6智能服务20新能源电池7增材制造21人工智能汽车8高铁列车22智能终端9智能机器人23物联网传感器10制造装备设计24工业机器人11工业互联网25增材制造药物125G网络芯片26人工智能13数字經济27智能交通14智能农机28发动机设计

4.3.2主题匹配结果

根据28个网页新闻数据主题以及两个候选颠覆性技术主题各自包含的特征词,并结合式(12)、式(13),测算候选颠覆性技术主题与智能制造装备领域网页新闻主题之间的匹配度,探究候选颠覆性技术的市场属性,更准确识别智能制造装备领域颠覆性技术。其中,主题匹配度如图13所示。

由图13可知,“智能数字控制”“智能数据采集系统”两项候选颠覆性技术与智能家居、智能服务、智能系统、人工智能汽车、智能交通、发动机设计6个网页新闻数据主题实现匹配,表明“智

能数字控制”“智能数据采集系统”已被市场中多个主体所关注,潜在竞争力较高。其中,智能系统、智能家居两个主题与两项候选颠覆性技术主题匹配度最高,表明“智能数字控制”“智能数据采集系统”对于智能系统以及智能家居影响力最强,技术作用显著。

基于以上研究结果,本文认为“智能数字控制”及“智能数据采集系统”两项技术是智能制造装备领域的颠覆性技术。“智能数字控制”与传统的控制技术不同,智能控制技术更强调设备的自动化和智能化,融合机械技术、计算机技术以及控制技术,改变了传统机械制造模式,实现高效率制动控制;此外,智能数字控制技术显著提升产品质量及生产精度,弥补机械精细化加工领域传统机械制造模式“粗放”缺点。“智能数据采集系统”能够完成海量规模数据的采集,有效处理智能制造各环节数据,将数据转化为知识,有利于问题的分析,避免问题的重复发生。由于智能数据采集系统所具有的高效便捷特性以及良好的可扩展性,智能数据采集系统已经得到越来越多国内企业及客户的支持,成为多个企业研究和开发的重点。

5效果评估

为评估论文提出方法的有效性,本文采用基于离群专利的颠覆性技术识别方法[9],识别智能制造装备领域颠覆性技术,并对比结果。由于篇幅限制,本文未展示识别过程。根据该方法,筛选得到智能制造装备领域离群专利7 745条,涵盖15种技术组合,并综合科学关联度、技术影响潜力等多个指标评估技术组合,运用孔多塞投票法识别颠覆性技术。最终得到智能数字控制、电机控制与连接技术、无线传感器网络芯片技术、智能信息存储、智能数据采集系统属于智能制造装备领域的颠覆性技术。该方法最终的识别结果包含本研究的识别结果,识别结果相对宽泛,主要原因在于当技术组合得分相近时,该方法主观性较强,且该方法尚未考虑技术的市场属性,影响识别结果的准确性。而本文提出的方法,综合专利文献及网页新闻两种异构数据,识别过程客观,考虑技术的市场属性,能显著提升颠覆性技术识别的准确性。

6研究结论

本文利用专利文献及网页新闻数据,提取不同类型的主题,从成长性、突破性、创新性及融合性4个维度识别候选颠覆性技术主题,并结合网页新闻数据,探究候选颠覆性技术的市场属性,最终完成颠覆性技术识别。本研究结合不同数据源,利用文本挖掘方法准确地识别颠覆性技术,对于加快颠覆性技术研发具有重要的参考价值。

智能制造装备领域颠覆性技术识别案例中,利用LDA模型从专利文献中提取87个技术主题,其中“智能数字控制”以及“智能数据采集系统”两个技术主题符合颠覆性技术成长性、融合性、创新性以及突破性特征;结合网页新闻数据主题,得到“智能数字控制”“智能数据采集系统”与多个网页新闻主题匹配,两种技术已被市场所接受,技术影响力较强,能够改变原有生产方式,属于智能制造装备领域颠覆性技术。

案例研究结合专利文献及网页新闻两种异构数据识别颠覆性技术,研究结论清晰明确,说明综合专利数据以及网页新闻数据能够有效识别颠覆性技术。但限于篇幅,本研究对智能制造装备领域网页新闻数据挖掘不充分,技术对市场的影响体现不足。未来研究将结合深度学习模型,深入分析技术与市场之间的关系,充分体现技术的市场属性。

参考文献

[1]Bower J L,Christensen C M.Disruptive Technologies:Catching the Wave[J].The Journal of Product Innovation Management,1995,28(2):155.

[2]孫永福,王礼恒,孙棕檀,等.引发产业变革的颠覆性技术内涵与遴选研究[J].中国工程科学,2017,19(5):9-16.

[3]Collins R W,Hevner A R,Linger R C.Evaluating a Disruptive Innovation:Function Extraction Technology in Software Development[C]//2011 44th Hawaii International Conference on System Sciences,2011.

[4]Hang C C,Chen J,Yu D.An Assessment Framework for Disruptive Innovation[J].IEEE Engineering Management Review,2013,41(4):109-118.

[5]Sainio L M,Puumalainen K.Evaluating Technology Disruptiveness in a Strategic Corporate Context:A Case Study[J].Technological Forecasting and Social Change,2007,74(8):1315-1333.

[6]Zhang Y,Robinson D,Porter A L,et al.Technology Roadmapping for Competitive Technical Intelligence[J].Technological Forecasting and Social Change,2016,110(9):175-186.

[7]Buchanan B,Corken R.A Toolkit for the Systematic Analysis of Patent Data to Assess a Potentially Disruptive Technology[J].Intellectual Property Office United Kingdom,2010.

[8]栾春娟,程昉.技术的市场潜力测度与预测——基于技术颠覆潜力与技术成熟度综合指标[J].科学学研究,2016,34(12):1761-1768,1816.

[9]罗素平,寇翠翠,金金,等.基于离群专利的颠覆性技术预测——以中药专利为例[J].情报理论与实践,2019,42(7):165-170.

[10]李乾瑞,郭俊芳,黄颖,等.基于专利计量的颠覆性技术识别方法研究[J].科学学研究,2021,39(7):1166-1175.

[11]Momeni A,Rost K.Identification and Monitoring of Possible Disruptive Technologies By Patent-development Paths and Topic Modeling[J].Technological Forecasting and Social Change,2016,(104):16-29.

[12]张金柱,张晓林.利用引用科学知识突变识别突破性创新[J].情报学报,2014,33(3):259-266.

[13]于光辉,宁钟,李昊夫.基于专利和Bass模型的颠覆性技术识别方法研究[J].科学学研究,2021,39(8):1467-1473,1536.

[14]黄鲁成,成雨,吴菲菲,等.关于颠覆性技术识别框架的探索[J].科学学研究,2015,33(5):654-664.

[15]李乾瑞,郭俊芳,黄颖,等.基于突变-融合视角的颠覆性技术主题演化研究[J].科学学研究,2021,39(12):2129-2139.

[16]刘忠宝,康嘉琦,张静.基于主题突变检测的颠覆性技术识别——以无人机技术领域为例[J].科技导报,2020,38(20):97-105.

[17]Pilkington A.Exploring the Disruptive Nature of Disruptive Technology[C]//IEEE International Conference on Industrial Engineering &Engineering Management,2009.

[18]Dotsika F,Watkins A.Identifying Potentially Disruptive Trends By Means of Keyword Network Analysis[J].Technological Forecasting & Social Change,2017,119:114-127.

[19]白光祖,郑玉荣,吴新年,等.基于文献知识关联的颠覆性技术预见方法研究与实证[J].情报杂志,2017,36(9):38-44.

[20]Diab S,Kanyaru J,Zantout H.Disruptive Innovation:A Dedicated Forecasting Framework[M].Agent and Multi-Agent Systems:Technologies and Applications,2015.

[21]Keller A,Hüsig S.Ex-ante Identification of Disruptive Innovations in the Software Industry Applied to Web Applications:The Case of Microsofts vs.Googles Office Applications[J].Technological Forecasting & Social Change,2009,76(8):1044-1054.

[22]Ganguly A,Nilchiani R,Farr J V.Defining a Set of Metrics to Evaluate the Potential Disruptiveness of a Technology[J].Engineering Management Journal;EMJ,2010,22(1):34-44.

[23]Linton J D.Forecasting the Market Diffusion of Disruptive and Discontinuous Innovation[J].Engineering Management IEEE Transactions On,2002,49(4):365-374.

[24]Klenner P,Hüsig S, Dowling M.Ex-ante Evaluation of Disruptive Susceptibility in Established Value Networks—When are Markets Ready for Disruptive Innovations?[J].Research Policy,2013,42(4):914-927.

[25]Benzidia S,Luca R M,Boiko S.Disruptive Innovation,Business Models,and Encroachment Strategies:Buyers Perspective on Electric and Hybrid Vehicle Technology[J].Technological Forecasting and Social Change,2021,165:120520.

[26]劉安蓉,李莉,曹晓阳,等.颠覆性技术概念的战略内涵及政策启示[J].中国工程科学,2018,20(6):7-13.

[27]Paap J,Katz R.Anticipating Disruptive Innovation[J].IEEE Engineering Management Review,2004,32(4):74-85.

[28]Yu D,Chang C H.A Reflective Review of Disruptive Innovation Theory[C]//PICMET08-2008 Portland International Conference on Management of Engineering & Technology.IEEE,2008.

[29]栾恩杰,孙棕檀,李辉,等.国防颠覆性技术在航天领域的发展应用研究[J].中国工程科学,2017,19(5):74-78.

[30]刘玉梅,温馨,孟翔飞.基于技术轨道跃迁的突破性技术预测方法及应用研究[J].情报杂志,2021,40(11):39-45,15.

[31]黄鲁成,蒋林杉,吴菲菲.萌芽期颠覆性技术识别研究[J].科技进步与对策,2019,36(1):10-17.

[32]Nagy D,Schuessler J,Dubinsky A.Defining and Identifying Disruptive Innovations[J].Industrial Marketing Management,2016,57:119-126.

[33]张佳维,董瑜.颠覆性技术识别指标的研究进展[J].情报理论与实践,2020,43(6):194-199,193.

[34]Thorleuchter D,Poel D.Weak Signal Identification with Semantic Web Mining[J].Expert Systems with Applications,2013,40(12):4978-4985.

[35]Bird S,Klein E,Loper E.Natural Language Processing with Python:Analyzing Text with the Natural Language Toolkit[M].OReilly Media,Inc,2009.

[36]Viterbi A J.Viterbi Algorithm[J].Scholarpedia,2009,4(1):6246.

[37]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

[38]趙蓉英,戴祎璠,王旭.基于LDA模型与ATM模型的学者影响力评价研究——以我国核物理学科为例[J].情报科学,2019,37(6):3-9.

[39]Salton G,Buckley C.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing & Management,1988,24(5):513-523.

[40]李盛竹,蒋婧秋.企业“互联网+”信息技术融合应用能力的识别研究——基于社会网络分析视角[J].现代情报,2016,36(5):98-103.

[41]刘俊婉,龙志昕,王菲菲.基于LDA主题模型与链路预测的新兴主题关联机会发现研究[J].数据分析与知识发现,2019,3(1):104-117.

[42]翟东升,郭程,张杰,等.采用异常检测的技术机会识别方法研究[J].现代图书情报技术,2016,(10):81-90.

[43]Rotolo D,Hicks D,Martin B R.What is an Emerging Technology?[J].Research Policy,2015,44(10):1827-1843.

[44]Alkemade F,Suurs R A A.Patterns of Expectations for Emerging Sustainable Technologies[J].Technological Forecasting and Social Change,2012,79(3):448-456.

[45]李纲,余辉,毛进.基于多层语义相似的技术供需文本匹配模型研究[J].数据分析与知识发现,2021,5(12):1-16,25-36.

[46]毕达天,楚启环,曹冉.基于文本挖掘的消费者差评意愿的影响因素研究[J].情报理论与实践,2020,43(10):137-143.

[47]Mann G S,Mimno D,McCallum A.Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries.New York:ACMPress,2006.

[48]伊惠芳,刘细文,龙艺璇.技术创新全视角下技术机会发现研究进展[J].图书情报工作,2021,65(7):132-142.

[49]Chandola V,Banerjee A,Kumar V.Anomaly Detection:A Survey[J].Acm Computing Surveys,2009,41(3):1-58.

(责任编辑:郭沫含)

猜你喜欢

文本挖掘
基于贝叶斯分类器的中文垃圾短信辨识
基于潜在特征的汽车评论要素挖掘
基于评论信息的淘宝服装类评分体系优化
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
基于文献的中西医结合治疗脑梗死药物使用情况分析
基于改进Hadoop云平台的海量文本数据挖掘
慧眼识璞玉,妙手炼浑金
文本观点挖掘和情感分析的研究