APP下载

基于向量空间的专利设计知识创新性评估算法*

2017-07-31于丽娅王自勤璩晶磊姚雪梅

组合机床与自动化加工技术 2017年7期
关键词:余弦创新性向量

于丽娅,王自勤,璩晶磊,姚雪梅

(1.贵州大学 a.现代制造技术教育部重点实验室;b.机械工程学院,贵阳 550025;2.中国科学院成都计算机应用研究所,成都 610041)



基于向量空间的专利设计知识创新性评估算法*

于丽娅1a,1b,王自勤1a,璩晶磊2,姚雪梅1a

(1.贵州大学 a.现代制造技术教育部重点实验室;b.机械工程学院,贵阳 550025;2.中国科学院成都计算机应用研究所,成都 610041)

为利用专利中的设计知识辅助创新设计,通过分析专利设计知识的特点,以专利文献中的动名词短语进行创新层次特征抽取。通过引入向量空间的余弦相似度原理,设计了基于向量空间的专利设计知识创新性评估算法,实现专利设计知识的量化评估辅助设计者创新设计。以自锁功能创新设计为例,验证了提出的专利创新性评估方法的有效性以及实用性。

专利设计知识;向量空间;相似度;创新设计

0 引言

作为知识的载体,专利包含大量的新原理、新技术等创新知识,对产品的创新设计具有重要的参考和启发价值[1]。世界知识产权组织的一项统计指出,专利覆盖了全球研究成果的90%~95%,其中80%并未记载在其它文献中,因此挖掘专利中丰富的知识帮助设计人员进行快速有效的创新设计受到了越来越多的关注[2-3]。

根据专利法规定,发明专利必然包含新知识,但由于专利采用的设计原理和结构不同,导致不同专利设计知识的新颖性不同,从而影响对后续创新设计的启发和指导作用。针对专利的创新性及相似度评价,近年来研究人员开展了大量卓有成效的研究工作。文献[4]通过引入信息熵的概念,提出了专利设计知识的新颖度和相容度的量化计算方法。文献[5]基于技术特征效果、常规试验能力等因素为重要的判别点构造了专利创造性判断模型。随着利用文本挖掘,自然语言理解等技术的发展,利用现代信息处理技术识别专利创新程度的研究越来越多[6-8],文献[9]依据专利文献各要素的特点,建立结构树的根节点、父子节点和叶子节点的关系并应用于专利文献相似度计算。文献[10]选取训练集的专利特征,通过计算专利特征的文本相似度,并设定相似水平阀值来确定一定数量专利的创新度。文献[11]重新构建利于计算机提取的专利评价指标评价专利创新层次,解决了S-曲线部分指标难以定量获取的问题。文献[12]提出专利集成的概念,并分析专利集成中专利技术相关性的内涵,提出基于文本挖掘的PS+PC分析体系。文献[13]以专利名称、摘要、权利要求和说明书的4要素加权相似度作为专利相似度的计算方法。

现有的研究对专利技术的文本内容进行了挖掘并进行创新性评估,但未综合考虑获取和利用专利的有效设计知识辅助设计者创新。本文以专利文献中的动名词短语进行专利创新性特征提取,并引入向量空间的余弦相似度原理,提出专利设计知识创新性的定量计算方法,从而选择创新性较高的专利设计知识用于辅助创新设计。

1 向量空间余弦相似度

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小[14]。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

图1 二维向量空间

在如图1所示二维向量空间中,向量A坐标为(a1,b1),向量B为(a2,b2),余弦定理表示为如式(1)的形式:

(1)

专利通常包含大量的文本篇幅,需要将专利文本转化表示为计算机能够识别的形式,当前向量空间模型(VectorSpaceModel,VSM)被认为最简便和高效的处理方法之一。专利文本在向量空间模型中会被分割拆解为m(通常m小于专利文本文字规模)个特征,经过特征抽取、特征分解,得到最利于表达专利文本的k个(k≤m)特征向量。通过选取最能代表专利文本创新层次的特征,基于空间向量余弦相似度方法度量单个专利与其它专利之间的相似度,评估专利文本的创新性,从而选择创新性较高的专利知识辅助创新设计。

2 专利设计知识创新性评估

专利文献中包含描述产品创新性的技术原理或结构特征,动词可以更好的反应产品的技术原理设计知识,而产品结构特征的提取的关键是名词短语[15]。专利文献、设计知识与创新设计三者之间的关系如图2所示。基于上述研究,选取专利文献中的动名词短语代表专利文献的技术原理以及结构特征。

图2 专利、设计知识、创新知识的关系

设第i篇专利的知识向量为Vi,Wi/j为矢量Vi特征项,且Wi/jVi,第k篇专利的知识向量为Vk,则第i篇专利相对于第k篇专利的相对向量空间余弦相似度cos(θ)i/k为:

(2)

式(2)中n为知识向量特征总数。若所有专利文献的总量为m,根据相对向量空间余弦度可以得到第i篇专利相对与其它专利文献的向量空间余弦相似度Ri为:

(3)

式(3)中Ri为[0,1]之间的实数,理论上Ri越趋近于0,该篇专利方案的创新层次越高,考虑到机械领域存在着约定俗成的词汇表达以及常用的机械零件词汇,如“齿轮”与“啮合”等,Ri很难趋近于0,因此需设定合理的阀值划分专利方案的创新层次,课题组研究阅读机械领域相关专利后,设定划分专利创新层次的阀值如表1所示。

表1 专利创新性评估阈值

在表1中,位于Ⅰ类区间的专利文本专利知识与其他专利文本专利知识相似度处于较低水平,包含较多开创性知识,在预处理阶段全部保留,评估结果按Ri值从小到大排列,创新层次高的专利具有更高的推荐级;位于Ⅱ类区间专利文本相似度上升,专利包含更多针对以往专利的完善性知识,具有一定的参考价值。而Ⅲ类区间专利文本创新层次较低,在预处理阶段予以舍弃。本文基于VSM表征专利文本,该模型通过特征替代专利动名词短语词集,文中使用文档频率法抽取专利文本特征。专利知识创新性评估流程如图3所示。

图3 创新性评估流程图

根据创新性评估流程图,其详细计算过程如下:

(1)从专利数据库选取满足某一功能需求的专利方案m个;

(2)从选取的m个专利方案中抽取技术原理以及结构设计知识特征向量,并设定特征向量集合纬度,形成m个特征向量;

(3)由式(2)计算第i篇专利方案与第k篇专利方案的空间向量余弦相似度;并重复此步骤直至第i篇专利方案与其余的m-1个专利方案的空间向量空间余弦相似度计算完成;

(4)由式(3)计算第i篇专利在选取的所有专利方案的全局向量空间余弦相似度;确定全局向量空间余弦相似度区间;

(5)重复步骤3以及步骤4计算选取的各专利方案的向量空间余弦相似度,根据创新区间判断专利创新性,最后将计算结果并存入相应数据库。

3 试验分析

3.1 设计知识提取

为了验证本文提出的挖掘过程在专利创新性评估的有效性以及实用性,针对自锁功能需求设计了试验。设计知识词汇数量过多将会引入不相关或者弱相关的干扰,一般来说,经过停用词处理后,如语气助词“的”、“地”,组成词语“属于”、“包含”等,词频排序靠前的词汇与专利知识的相关性最强,本文选取前15个和前20个词汇分别提取原理和结构知识。为了分析专利数量对创新评估的影响,以功能自锁为关键词从中国国家专利局下载相关专利构成专利集合Dj(j为试验次数),基于集合D上设置四组试验,各都面向自锁同一功能需求。

试验1:随机下载15篇以自锁为关键词的专利文献,评估每篇专利创新性,此时D1包含元素数量为15;

试验2:对于试验1结果中创新性处于强区间的专利文献,新下载15篇与其申报时间相近的专利文献,评估每篇专利的创新性,此时D2包含的元素数量为30;

试验3:对于试验1结果中创新性处于强区间的专利文献,新下载15篇与其申报时间差别较大的专利文献,评估每篇专利的创新性,此时D3包含的元素数量为30;

试验4:将专利集合D2与D3专利文献取交集后评估每篇专利的创新性,此时D4包含元素数量为45;

根据上述试验设置,提取的部分专利的原理知识及结构知识如表2所示。

3.2 创新性评估

根据式3计算出120条专利设计知识创新性评估值,其中表2所列专利相应的创新评估结果如表3所示。

表2 自锁专利设计知识

表3 专利创新性评估值

3.3 试验分析

(1)当专利数量样本集较小时,各专利评估值相对较低,仅有专利CN205104841U被评估为弱创新专利,这是因为该专利创新所使用的机械机构以及机械结构之间的运动方式如滑轮、夹板等与样本集中部分专利差异不大。

(2)试验1中评估为强创新的专利文献其评估值受专利数据集数量的影响较小。专利集D数量的增多引起强创新性专利评估值增大,但从总体来看,强创新性的专利受D的影响较小,而弱创新性的评估值排序变动更大。特别地,因为设计知识的独特性以及随着专利集合的增长,强创新性专利的评估值有降低的趋势。

(3)虽然一般类型创新性专利文献其创新设计知识并不弱,但随着专利集合的增长,类似的创新知识开始出现,如CN105397823A、CN105293363A专利都使用了涡轮蜗杆结构。但两个专利所采用的磁铁自锁形式在其它专利中较少出现。

(4)弱创新性专利并不一定毫无创新。如CN105401870A专利通过弹簧元件实现自锁,而弹簧在实现自锁功能时使用非常普遍。专利CN204984077U通过卡扣与孔、槽之间夹持达到自锁目的,创新性也较低。

通过以上分析,随着专利数量集合的增大,较强创新性类型专利评估值较为稳定,而一般创新性专利评估值及弱创新性专利评估值会不同程度的增大,通过创新性评估过程能够筛选出设计知识较新的强创新性专利,不仅减小了知识挖掘过程的挖掘时间和计算机内存消耗,还能给设计者提供更具有启发式的设计知识。

4 结论

为评估专利文献的创新性,通过分析专利设计知识的特点,基于专利文献中的动名词短语进行创新层次特征抽取,并利用余弦相似度原理,设计了基于向量空间的专利设计知识创新性评估算法,实现了专利设计知识的量化评估辅助设计者创新设计。如何进一步考虑专利文献的语言表达特点和语义信息,构建具有更多语义信息的专利设计知识向量;如何改进专利设计知识创新性的数学方法,以进一步提高专利设计知识提取精度和效率,是下一步的研究重点。

[1] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J].Scientometrics, 2012, 90 (2) : 515-529.

[2] 成思源,王瑞,杨雪荣,等.基于TRIZ的专利规避创新设计[J].包装工程,2014,35(22):68-72.

[3] KANG J,LEE H J,MOON Y H. Systematic monitoring of competitors’patents using 2-dimensional hybrid similarity method[C]. Proceedings of the 2011 ACM Symposium on Research in Applied Computation. ACM,2011: 252-254.

[4] 邱清盈,薛驰,冯培恩,等.专利设计知识的创新性评估方法及其在创新设计中的应用[J].机械工程学报,2012,48(11):39-45.

[5] 黄国群.我国专利创造性判定中的整体性评审与模型构造研究[J].上海财经大学学报,2015,17(3):105-113.

[6] 陈忆群,周如旗,朱蔚恒,等.挖掘专利知识实现关键词自动抽取[J].计算机研究与发展,2016,53(8):1740-1752.

[7] 许琦,顾新建.一种基于Subject-Action-Object三元组的知识基因提取方法[J].浙江大学学报(工学版),2013,47(3):385-399.

[8] 吕欢欢,宋伟东,杨睿.基于领域本体的综合加权语义相似度算法研究[J].计算机工程与设计,2013,34(12):4209-4213.

[9] 王秀红,袁艳,赵志程,等.专利文献的结构树模型及其在相似度计算中的应用[J].情报理论与实践,2015,38(3):107-111.

[10] 邱清盈,薛驰,冀瑜,等.基于专利知识的机械产品辅助创新系统[J].计算机集成制造系统,2013,19(2):354-361.

[11] 马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(2):465-471.

[12] 张端阳,肖国华,李文燕.面向专利集成的专利技术相关性测度方法研究[J].情报杂志,2014,33(11):54-61.

[13] 彭继东,谭宗颖.一种基于文本挖掘的专利相似度测量方法及其应用[J]. 情报理论与实践,2010,47 (10): 114-118.

[14] 巩敦卫,陈健,孙晓燕.新的基于相似度估计个体适应值的交互式遗传算法[J].控制理论与应用,2013,30 (5):558-566.

[15] 张惠,邱清盈,冯培恩,等.异类产品专利激发设计灵感的方法[J].计算机集成制造系统,2010,16(3):484-490.

(编辑 李秀敏)

Novelty Evaluation Algorithm of Patent Design Knowledge Based on Vector Space

YU Li-ya1a,1b, WANG Zi-qin1a, QU Jing-lei2, YAO Xue-mei1a

(1a.Key Laboratory of Advanced Manufacturing Technology, Ministry of Education;b.School of Mechanical Engineering, GuiZhou Unversity, GuiYang 550025, China; 2.Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu 610041, China)

In order to make use of the design knowledge to assist the innovation design, by analyzing the characteristics of the patent design knowledge, this paper uses the verb noun phrase in the patent document to carry on the innovation level feature extraction. By introducing the principle of cosine similarity of vector space, a knowledge innovation evaluation algorithm is designed proposed based on vector space. Taking the innovative design of self locking function as an example, the validity and practicability of the proposed method are verified.

patent design knowledge; vector space; similarity; innovative design

1001-2265(2017)07-0123-03

10.13462/j.cnki.mmtamt.2017.07.029

2016-10-18;

2016-11-17

国家自然科学基金(51475097);工信部智能制造示范项目(工信部联装[2016]213号);贵州省重大基础研究(黔科合JZ字[2014] 2001);贵州省科学技术基金(黔科合J字[2010]2095)

于丽娅(1982—),女,贵阳人,贵州大学讲师,博士研究生,研究方向为智能制造,(E-mail)lyyu@gzu.edu.cn。

TH16;TG506

A

猜你喜欢

余弦创新性向量
向量的分解
旋转变压器接线故障分析法的研究
建筑设计中色彩对外立面的创新性应用思考
谈高中作文教学的实用性和创新性
聚焦“向量与三角”创新题
流动几何的创新性
两个含余弦函数的三角母不等式及其推论
实施正、余弦函数代换破解一类代数问题
向量垂直在解析几何中的应用
分数阶余弦变换的卷积定理