浅谈Patentics智能语义检索技巧

2020-05-29章文飞

科技视界 2020年11期

关键词：号码分类号排序

章文飞

摘要

Patentics语义检索目前在专利审查实践中运用越来越广泛，本文从选库、常用检索字段、算符和人工干预介绍了Patentics的检索技巧。

关键词

Patentics语义检索;字段;算符;关键词;人工干预

中图分类号： G252.7;G306 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457.2020.11.018

0 前言

Patentics是基于大数据下的机器学习的智能语义检索工具，其通过超大规模智能计算和机器学习，自动去理解海量专利文献的内容，并根据专利文本内容进行智能语义检索，将检索结果按照关联度进行由高到低的排序，极大地提高了检索效率。本文从选库、常用检索字段、算符和人工干预介绍了Patentics的检索技巧。

1 数据库的选择

采用Patentics检索，选对数据库很重要。Patentics包括中国（CN）、美国（US）、欧专局（EP）、日本（JP）、韩国（KR）、印度（IN）以及世界知识产权组织的PCT（WO）等多个国家和地区的数据库，文献量达千万级。

我们在选库时，考虑到Patentics的檢索原理，优先选择在全文库检索，全文库信息齐全且量大，适合进行语义模型训练，而摘要库内容少，只能作为备选数据库。

检索中国专利文献时，只需要勾选“中国发明实用（CNAPP）”库，“中国发明实用（CNAPP）”库其实是中国申请库，所有的发明和实用新型的申请文本都在这个库里，由于申请文本和授权文本的说明书内容基本一致，“中国发明实用（CNAPP）”库就必然包括“中国发明授权（CNPAT）”的文献内容，若两个库都勾选，检索结果中会出现重复文件，造成目标文件在海量文献中排序靠后。同理，为了避免文献重复，在欧洲、日本、韩国等数据库进行专利检索时，也仅需单独勾选欧洲申请、日本申请、韩国申请。

但美国需要勾选“美国申请（USAPP）”库和“美国授权（USPAT）”库，这是为什么呢？因为美国从2001年3月15号之后才开始公开美国的申请版本，之前是不公开的。如果仅勾选“美国申请（USAPP）”库，会造成2001年之前的申请版本漏检;但如果仅勾选“美国授权（USPAT）”库，会造成近年申请但未授权的文献或者被驳回的文献的漏检。

因此，选择数据库时注意：优先选择全文库，文摘库作为备选;中文库和英文库要分开检索;单库检索要优于多库检索;检索中国专利文献时，只需要勾选“中国发明实用（CNAPP）”库;欧洲、日本、韩国还有中国台湾，仅需勾选申请库;美国是特例，既要勾选“美国申请（USAPP）”库，还要勾选“美国授权（USPAT）”库。

2 常用检索字段和算符

2.1 “R/”和“RDI/”

“R/”为Patentics系统默认的检索字段，是Rerank的缩写，也就是重排序的意思。“R/”命令后可以输入文字内容或者专利号码，例如“R/专利号码”或者“R/文本（一段话）”。输入专利号码时，系统会自动提取该篇专利的全文文本进行语义检索。

Patentics还提供“RDI/”命令，后可跟专利号码，含义是检索该专利申请日前公开的最接近专利文献。与“R/”相比，“RDI/”对检索的专利文献的时间有了限定。

单独使用“R/”命令或“RDI/”命令时，系统会对全库进行语义重排序，但只会给出最相关的400篇专利文献，因为系统在给出检索结果时，已将更相关的放在了最前面，排名400以后的相关度会越来越低，因此会有默认的截断。但如果检索人员想查看更多的信息，可以使用“CTOP/”命令限定要查看的专利数量，例如“CTOP/1000”，查看最相关的1000篇。

在检索时，通常采用常用检索字段“R/”和“RDI/”进行初步检索，将系列申请、抵触申请以及明显的新颖性或创造性对比文件查找出来。

2.2 “R / and DI /”

字段组合“R/ and DI/”，“R/”的用法与上述相同，“DI /”后可以跟专利号码或者日期。当其使用方式为“R/专利号码and DI/专利号码”时，其作用与“RDI/专利号码”相同，其中“DI/”取检索结果中公开日在该专利申请日之前。

一般在进行追踪检索或对具有优先权的PCT申请进行检索时，会采用“R/公开号（或中国申请号）and DI/日期”进行检索，特别是对具有优先权的申请进行检索时，“DI/”后面跟具体的日期，可以排除时间上不可用的大量文献。

2.3 “B /”和“ A / ”

“B/关键词”，其用于全文关键词检索。常用方式为“RDI/ and B/”，例如“RDI/cn103522482 and B/冰箱”，还可“RDI/cn103522 482 and B/（（冰箱 or 冷柜）and 发泡）”。

“A/关键词”，用于检索标题、摘要或权利要求中含有的关键词。“A/”用法与上述类似，也可根据需要采用“RDI/”与“TTL/”、“ABST/”或“ACLM/”搭配检索，例如“RDI/ and ACLM/ 关键词”。

2.4 临近算符“adj/x”和“adjn/x”

邻近算符不能与（）配合使用，需在双引号中使用。

“adj/x”，为区分位置的临近算符，使用方式为：B/”过滤 adj/3 发泡”，表示过滤和发泡间相距小于等于3个字，且过滤在发泡之前。

“adjn/x”，为不区分位置的临近算符，使用方式为：B /”过滤 adjn/3 发泡”，表示过滤和发泡间相距小于等于3个字，过滤和发泡的前后位置不作区分，仅支持两个词的临近运算。

2.5 同在算符“nw/x”和“np/x”

同在算符也不能与（）配合使用，也是需在双引号中使用。

“nw/x”，为区分位置的句同在算符，使用方式为：/”过滤 nw/3 发泡”，表示过滤和发泡出现在同一句子里，相隔不超过3个词，且过滤在发泡之前;

“np/x”，为区分位置的段同在算符，使用方式为：/”过滤 np/3 发泡”，表示过滤和发泡出现在同一段，相隔不超过3个词，且过滤在发泡之前。

3 人工干预

在仅使用“RDI/专利号码”对全库语义排序检索效果不佳时，需要进行人工干预。人工干预的方式常见的有两种，采用关键词和/或分类号。

3.1 关键词干预

关键词干预的检索式为“RDI/专利号and B/关键词”，其含义为先用B/关键词检索出一个结果集，然后再对这个检索结果集按照RDI/专利号的涵义进行语义排序。

采用关键词干预时，可遵循“先检准，再检全”，优先采用发明点关键词干预，其次采用改进基础、目的、技术领域的关键词干预;尽量避免采用常见的部件名称关键词进行干预，陷入海量对比文件浏览中;特殊领域，不确定的詞组表达可采用单字或词根进行干预，再交给语义来排序;尽量选取命名单一的关键词（如专业术语）进行人工干预，避免使用名称不易准确表达、也难以扩展全面的关键词;关键词干预效果不理想时，可对关键词进行替换，若还不理想，可再将代表不同部件的多个关键词“and”;可以多个干预字段联合使用，例如：RDI/ and B/词1 and AIM/词2。

3.2 分类号干预

分类号干预的检索为：“RDI/专利号and IPC/分类号”，其含义为先用IPC/分类号检索出一个结果集，然后再对这个检索结果集按照RDI/专利号的涵义进行语义排序。

采用IPC分类号干预，也可遵循“先检准再检全”的规则，先用准确的分类号如小组分类号进行检索，若无合适对比文件，则采用大组分类号进行检索，再无合适对比文件，则可以采用小类分类号进行检索。不用担心采用小类分类号检索范围太大，有语义排序，能将最相关的前400篇文献推出来。上述用小组、大组以及小类分类号检索时，是可以结合关键词一起检索的，如：“R/公开号and B/关键词and IPC/分类号”。

3.3 文本改写干预

文本改写干预主要是对“R/文本内容”中的文本内容进行改写，也就是通过排序标准进行人工干预。

文本改写的目的主要是缩小排序范围、提升语义匹配度，在改写时要选择与发明点相关度高的部分进行改写，删除干扰信息、冗余信息，增加关键语段、关键词语（同义词或近义词），改写时对晦涩文字进行常规描述的改写，最好用具体的下位词语表达，不要用上位概念。

4 结语

本文从选库、常用检索字段、算符和人工干预介绍了Patentics语义检索的检索技巧：在选择数据库时，根据各国数据库的特点进行选库，再通过常用检索字段“R/”和“RDI/”进行初步检索，再采用“RDI/专利号码+关键词/分类号等”进行人工干预，进行关键词干预时可以运用邻进算符、同在算符，若还没有找到合适的对比文件，最后还可通过“R/文本改写”实现排序标准的人工干预。

猜你喜欢

浅谈Patentics智能语义检索技巧

猜你喜欢

杂志排行

科技视界的其它文章