APP下载

浅谈Patentics智能语义检索技巧

2020-05-29章文飞

科技视界 2020年11期
关键词:号码分类号排序

章文飞

摘 要

Patentics语义检索目前在专利审查实践中运用越来越广泛,本文从选库、常用检索字段、算符和人工干预介绍了Patentics的检索技巧。

关键词

Patentics语义检索;字段;算符;关键词;人工干预

中图分类号: G252.7;G306                  文献标识码: A

DOI:10.19694/j.cnki.issn2095-2457.2020.11.018

0 前言

Patentics是基于大数据下的机器学习的智能语义检索工具,其通过超大规模智能计算和机器学习,自动去理解海量专利文献的内容,并根据专利文本内容进行智能语义检索,将检索结果按照关联度进行由高到低的排序,极大地提高了检索效率。本文从选库、常用检索字段、算符和人工干预介绍了Patentics的检索技巧。

1 数据库的选择

采用Patentics检索,选对数据库很重要。Patentics包括中国(CN)、美国(US)、欧专局(EP)、日本(JP)、韩国(KR)、印度(IN)以及世界知识产权组织的PCT(WO)等多个国家和地区的数据库,文献量达千万级。

我们在选库时,考虑到Patentics的檢索原理,优先选择在全文库检索,全文库信息齐全且量大,适合进行语义模型训练,而摘要库内容少,只能作为备选数据库。

检索中国专利文献时,只需要勾选“中国发明实用(CNAPP)”库,“中国发明实用(CNAPP)”库其实是中国申请库,所有的发明和实用新型的申请文本都在这个库里,由于申请文本和授权文本的说明书内容基本一致,“中国发明实用(CNAPP)”库就必然包括“中国发明授权(CNPAT)”的文献内容,若两个库都勾选,检索结果中会出现重复文件,造成目标文件在海量文献中排序靠后。同理,为了避免文献重复,在欧洲、日本、韩国等数据库进行专利检索时,也仅需单独勾选欧洲申请、日本申请、韩国申请。

但美国需要勾选“美国申请(USAPP)”库和“美国授权(USPAT)”库,这是为什么呢?因为美国从2001年3月15号之后才开始公开美国的申请版本,之前是不公开的。如果仅勾选“美国申请(USAPP)”库,会造成2001年之前的申请版本漏检;但如果仅勾选“美国授权(USPAT)”库,会造成近年申请但未授权的文献或者被驳回的文献的漏检。

因此,选择数据库时注意:优先选择全文库,文摘库作为备选;中文库和英文库要分开检索;单库检索要优于多库检索;检索中国专利文献时,只需要勾选“中国发明实用(CNAPP)”库;欧洲、日本、韩国还有中国台湾,仅需勾选申请库;美国是特例,既要勾选“美国申请(USAPP)”库,还要勾选“美国授权(USPAT)”库。

2 常用检索字段和算符

2.1 “R/”和“RDI/”

“R/”为Patentics系统默认的检索字段,是Rerank的缩写,也就是重排序的意思。“R/”命令后可以输入文字内容或者专利号码,例如“R/专利号码”或者“R/文本(一段话)”。输入专利号码时,系统会自动提取该篇专利的全文文本进行语义检索。

Patentics还提供“RDI/”命令,后可跟专利号码,含义是检索该专利申请日前公开的最接近专利文献。与“R/”相比,“RDI/”对检索的专利文献的时间有了限定。

单独使用“R/”命令或“RDI/”命令时,系统会对全库进行语义重排序,但只会给出最相关的400篇专利文献,因为系统在给出检索结果时,已将更相关的放在了最前面,排名400以后的相关度会越来越低,因此会有默认的截断。但如果检索人员想查看更多的信息,可以使用“CTOP/”命令限定要查看的专利数量,例如“CTOP/1000”,查看最相关的1000篇。

在检索时,通常采用常用检索字段“R/”和“RDI/”进行初步检索,将系列申请、抵触申请以及明显的新颖性或创造性对比文件查找出来。

2.2 “R / and DI /”

字段组合“R/ and DI/”,“R/”的用法与上述相同,“DI /”后可以跟专利号码或者日期。当其使用方式为“R/专利号码and  DI/专利号码”时,其作用与“RDI/专利号码”相同,其中“DI/”取检索结果中公开日在该专利申请日之前。

一般在进行追踪检索或对具有优先权的PCT申请进行检索时,会采用“R/公开号(或中国申请号)and DI/日期”进行检索,特别是对具有优先权的申请进行检索时,“DI/”后面跟具体的日期,可以排除时间上不可用的大量文献。

2.3 “B /”和“ A / ”

“B/关键词”,其用于全文关键词检索。常用方式为“RDI/ and B/”,例如“RDI/cn103522482  and  B/冰箱”,还可“RDI/cn103522 482  and  B/((冰箱 or 冷柜)and 发泡 )”。

“A/关键词”,用于检索标题、摘要或权利要求中含有的关键词。“A/”用法与上述类似,也可根据需要采用“RDI/”与“TTL/”、“ABST/”或“ACLM/”搭配检索,例如“RDI/  and ACLM/ 关键词”。

2.4 临近算符“adj/x”和“adjn/x”

邻近算符不能与()配合使用,需在双引号中使用。

“adj/x”,为区分位置的临近算符,使用方式为:B/”过滤 adj/3 发泡”,表示过滤和发泡间相距小于等于3个字,且过滤在发泡之前。

“adjn/x”,为不区分位置的临近算符,使用方式为:B /”过滤 adjn/3 发泡”,表示过滤和发泡间相距小于等于3个字,过滤和发泡的前后位置不作区分,仅支持两个词的临近运算。

2.5 同在算符“nw/x”和“np/x”

同在算符也不能与()配合使用,也是需在双引号中使用。

“nw/x”,为区分位置的句同在算符,使用方式为:/”过滤 nw/3 发泡”,表示过滤和发泡出现在同一句子里,相隔不超过3个词,且过滤在发泡之前;

“np/x”,为区分位置的段同在算符,使用方式为:/”过滤 np/3 发泡”,表示过滤和发泡出现在同一段,相隔不超过3个词,且过滤在发泡之前。

3 人工干预

在仅使用“RDI/专利号码”对全库语义排序检索效果不佳时,需要进行人工干预。人工干预的方式常见的有两种,采用关键词和/或分类号。

3.1 关键词干预

关键词干预的检索式为“RDI/专利号and B/关键词”,其含义为先用B/关键词检索出一个结果集,然后再对这个检索结果集按照RDI/专利号的涵义进行语义排序。

采用关键词干预时,可遵循“先检准,再检全”,优先采用发明点关键词干预,其次采用改进基础、目的、技术领域的关键词干预;尽量避免采用常见的部件名称关键词进行干预,陷入海量对比文件浏览中;特殊领域,不确定的詞组表达可采用单字或词根进行干预,再交给语义来排序;尽量选取命名单一的关键词(如专业术语)进行人工干预,避免使用名称不易准确表达、也难以扩展全面的关键词;关键词干预效果不理想时,可对关键词进行替换,若还不理想,可再将代表不同部件的多个关键词“and”;可以多个干预字段联合使用,例如:RDI/ and B/词1  and AIM/词2。

3.2 分类号干预

分类号干预的检索为:“RDI/专利号and IPC/分类号”,其含义为先用IPC/分类号检索出一个结果集,然后再对这个检索结果集按照RDI/专利号的涵义进行语义排序。

采用IPC分类号干预,也可遵循“先检准再检全”的规则,先用准确的分类号如小组分类号进行检索,若无合适对比文件,则采用大组分类号进行检索,再无合适对比文件,则可以采用小类分类号进行检索。不用担心采用小类分类号检索范围太大,有语义排序,能将最相关的前400篇文献推出来。上述用小组、大组以及小类分类号检索时,是可以结合关键词一起检索的,如:“R/公开号and B/关键词and IPC/分类号”。

3.3 文本改写干预

文本改写干预主要是对“R/文本内容”中的文本内容进行改写,也就是通过排序标准进行人工干预。

文本改写的目的主要是缩小排序范围、提升语义匹配度,在改写时要选择与发明点相关度高的部分进行改写,删除干扰信息、冗余信息,增加关键语段、关键词语(同义词或近义词),改写时对晦涩文字进行常规描述的改写,最好用具体的下位词语表达,不要用上位概念。

4 结语

本文从选库、常用检索字段、算符和人工干预介绍了Patentics语义检索的检索技巧:在选择数据库时,根据各国数据库的特点进行选库,再通过常用检索字段“R/”和“RDI/”进行初步检索,再采用“RDI/专利号码+关键词/分类号等”进行人工干预,进行关键词干预时可以运用邻进算符、同在算符,若还没有找到合适的对比文件,最后还可通过“R/文本改写”实现排序标准的人工干预。

猜你喜欢

号码分类号排序
排序不等式
说号码 知颜色
恐怖排序
一个号码,一个故事
猜出新号码