APP下载

基于深度学习的医药专利标签分类方法

2020-06-04李绪夫

计算机时代 2020年5期
关键词:注意力机制深度学习

李绪夫

摘  要: 在大数据时代,医药专利数据的有效收集、整理和挖掘分析对医药行业发展愈发重要。当前文本分类神经网络对医药专利标签的分类准确率不够高,为了有效提升专利标签的分类效果,设计了一种基于注意力机制的双向长短时记忆神经网络分类模型。该模型避免了传统循环神经网络的长期依赖问题,并充分利用全局信息,以实现文本信息的权重分布。

关键词: 深度学习; 专利分类; 长短期记忆网络; 注意力机制

Abstract: In the era of big data, the effective collecting, collating, mining and analysis of medical patent data is becoming more and more important for the development of pharmaceutical industry. The current text classification neural network is not accurate enough for the classification of medical patent labels. In order to improve the effect of patent label classification, a bidirectional long short-time memory neural network classification model based on attention mechanism is designed. The model avoids the long-term dependence of traditional cyclic neural network and makes full use of global information to realize the weight distribution of text information.

Key words: depth learning; patent classification; long short-term memory; attention mechanism

0 引言

人们已经认识到大数据中蕴含着极为丰富的知识和潜在价值,通过对大数据进行深层次的分析和挖掘,可以为各行业和领域提供有效的精准化科学分析和决策支持。在知识产权中,专利作为重要的载体,俨然是一种宝贵的战略资源。因此开展医药专利标签分类方法的研究,对实现大数据在医药方面的实际应用,具有重要的社会效益和经济价值。

多年来,众多学者对此进行了深入的研究。Guibin Chen等人[1]采用卷积神经网络(CNN)和递归神经网络( RNN)的结合模型,以实现对全局和局部文本语义的捕获,在可接受的计算复杂性前提下,对高阶标签相关性进行建模处理。所提模型充分结合了CNN与RNN各自的优势,前者主要用于提取输入文本,并把其映射为全局固定长度的特征向量,后者基于此确定其“初始状态”或先验知识,以实现标签序列的精准预测。诸多学者采用CNN应用于自然语言处理与文本信息的处理已做了大量的研究[2-3]。并且有学者在比较了CNN和RNN在自然语言处理的基础之上,总结出了影响模型性能的一些关键参数,如隐层尺寸、批尺寸[4]。Siwei等人[5]在所设计的模型中引入递归神经网络以实现对文本信息的精准分类,并且不需要人为设计特征。在词表征学习时,应用递归结构来尽可能地捕获上下文信息,与传统的基于窗口的神经网络相比,引入的噪声更小,实验结果显示性能更优。但该模型不能充分提取上下文之间的语义结构信息,存在长期依赖的问题,赵勤鲁等人的文献[6]为解决这个问题,使用长短期记忆网络(LSTM)对文本的词语与词语和句子、句子的特征信息进行提取,提高了分类准确率。为了抓取文本的关键信息,朱星嘉、潘晓英等人的文献[7-8]引用了注意力机制,有效学习了文本特征。为了解决上述文献中存在的问题,本文设计了一种基于注意力机制的双向长短时记忆网络模型。

1 相关研究

1.1 LSTM

RNN是一系列处理序列数据的神经网络的总称。其缺点主要是只能传递短期记忆,在输入长序列数据时,梯度向量的分量会呈指数增长或衰减,即所谓的梯度爆炸或消失问题。

长短期记忆网络是由Hochreiter等[9]提出的一种RNN变体,是为解决梯度爆炸和消失,避免长期依赖问题而设计的。LSTM的特点就在于通过增加各种门控来控制上一单元信息的通过量,并判断当前哪些信息可以传递给下一细胞状态(cell state)。图1所示为LSTM结构。

在RNN的基础上,LSTM引入了“门”结构和记忆细胞。“门”结构包含三个门遗忘门ft、输入门it、输出门ot,cell state则在序列处理过程中长时间携带相关信息,通过控制门实现信息的更新和保留。因此,相比于RNN,LSTM循环结构之间保持一个具有持续性的单元状态。LSTM的公式为:

其中,ht-1表示上一单元的输出结果,xt表示当前时刻的输入,为sigmoid激活函数,?表示点乘操作。式⑸记录了当前时刻记忆单元值,式⑹则表示了隐藏单元输出值。直观地说,遗忘门决定上一步需要丢弃哪部分信息,输入门决定需要更新的信息,输出门则决定下一个隐藏状态输出什么。

1.2 Glove基础

Glove的全称为Global Vectors for Word Representation,由Jeffrey Pennington等[10]提出,它是一個基于全局词频统计的词表征工具,实现词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。 定义:用X表示统计共现矩阵,用Xij表示单词j在单词i的上下文语境中出现的次数。,表示任意单词出现在词i上下文中的次数。最后设为词j出现在词i上下文中的条件概率。

假如词i,j都和词k相关或不相关,则的值接近1。若k和i相关,k与j不相关,则的值大于1,反之的值接近0。该论点揭示了词向量学习的适当起点应该是共现概率的比值,而不是概率本身。用词向量wi、wj、wk通过F(wi,wj,wk)函数计算ratio,也应满足上述规律,才能说明词向量与共现矩阵具有一致性,因而构建函数F(wi,wj,wk)=。

经过一系列的转化得到代价函数进行求解,而在原模式中对所有的共现事件进行了同等的权衡,因此出现了共现关系不平衡问题。所以引入了一种加权函数f(x)来解决问题。公式如下:

模型性能很小程度上取决于截止点,设xmax=100时加权函数图为:

f(x)设计成这种分段函数的含义:共现次数Xij在0~100时,对损失函数的贡献呈现出增长趋势,即呈单调递增;当共现次数Xij达到100时,抵达上界,保持不变。

1.3 注意力机制

注意力机制模拟的就是人脑的注意力模型,例如在观察事物时,视力会聚焦在某些特定部分,而忽略其他不重要的因素。也就是对整体的关注不是均衡的,有一定的权重区分,有利于模型发现重要特征,从而提高分类的精准度。可以将其看成是一个组合函数,通过计算注意力的概率分布,突出某个关键输入对输出的影响。计算公式如下:

hit表示当前时刻的隐层状态,通过一个全连接层经过非线性转换为uit,然后计算uit与上下文向量uw的相似度并通过softmax转换为概率分布,得到隐层输出的权重系数αit,接着通过加权求和得到文本的向量表示C。

2 基于注意力机制的双向长短时记忆网络专利分类模型

基于注意力机制的Bi-LSTM模型结构如图3所示。该模型主要包括预训练词向量、文本特征提取、分类器。关于预训练部分,利用glove方法来训练医药专利的词库,得到其向量表示;模型特征提取部分,采用Bi-LSTM处理文本的整体上下文信息,在此基础上加入Attention机制,使模型对具有不同标签语义贡献度的词汇进行权值分配;关于分类器部分,则选择softmax函数连接在模型的输出端。

2.1 数据预处理

由于项目所提供数据存在各类标签,且由于存在缺省值,导致难以判断数据是否完整。故把专利数据的标签、摘要、权利要求链接后成为一篇专利的数据,在经过去停用词、去特殊字符、词干化之后形成标准化的文本数据。要使得文本信息能作为深度学习等方法的输入数据,需要将其进行词向量化处理。进行基准实验,使用word2vec和glove模型训练医药专利词库,并比较不同词频的分类效果。在对比实验结果中,词频为10的glove模型效果达到了最优,选取该模型训练词向量。

2.2 专利分类模型

传统的LSTM在进行文本分类时,只考虑以前的语义信息,使得文本的部分语义信息丢失,没有充分运用到文本资源。故采取双向LSTM结构,通过前向传递层获取文本上文信息,后向传递层获取文本下文信息,从而在输入层中的每个节点提供输入序列的完整上下文语义信息,进一步优化模型。

计算在t时刻的隐藏状态Ht的公式如下所示。

其中,xit表示在t时刻的输入节点。

引入注意力机制,计算概率权重,即得到文本向量表示时对专利數据中不同词赋予不同的权值,然后与当前时刻的隐藏状态进行乘积运算得到语义编码,计算出文本的特征向量。最后将特征向量输入到softmax分类器中处理分类问题。

2.3 评价指标

本文采用性能评测中经常使用的评价指标即:查准率(Precision)、召回率(Recall)、F1值(F_score)。计算公式如下:

3 实验分析与结论

选取数据源自于欧洲专利局(EPO),EPO拥有世界上最完整的专利文献资源,通过Espacenet,Global patent index,DOCDB三个系统,提供专利文献信息服务。针对人工标引数据量小的问题,本文使用汤森路透的技术标引数据来训练模型,按照8:2的比例对数据进行训练和测试。其中,140581条样本数据作为训练集,35145条样本数据作为验证集。

代码编写使用的是深度学习框架keras,后端是TensorFlow,编程语言是Python。所设计的模型中,Embedding层是词向量层,字典长度为MAX_NB_WORDS+1(MAX_NB_WORDS=100000),全连接嵌入的维度为300,输入序列的长度为2000。模型中加入Dropout以防止过拟合,参数设置丢码率(dropout rate)为0.2;双向LSTM的输出维度设置为128,批处理参数(batch_size)设置为256,训练轮次(epochs)设置为10;优化算法采用Adam算法,损失函数为binary_crossentropy,激活函数选用sigmoid函数。

本文将分类按药品专利类型分为12种,包含新分子实体(NME)、给药装置(DDD)、医药中间体专利(MIP)、衍生物专利(NDT)、晶型专利(NCF)、制剂专利(NFP)、药物组合物(NCP)、用途专利(NUS)、制备方法专利(NSP)、分析方法(NAM)、生物技术(BTN)、生物药(BLA)。

在验证模型的实验中,将F1值为76.94%的三层CNN+noIPC(不考虑IPC属性)模型作为基准实验。本文提出的双向LSTM+attention模型的F1值为79.1%,分别对比其P(查准率)和R(召回率),实验结果如图4所示。

实验将本文模型与CNN算法进行了对比,由此看出Bi-LSTM+Attention模型有效提升了分类效果。Bi-LSTM+Attention模型获取了更全的上下文信息,且强化了关键信息的影响力,对比基准实验,在查准率、召回率、F1值上均有提升。

参考文献(References):

[1] Chen G,Ye D,Xing Z,et al.Ensemble Application ofConvolutional and Recurrent Neural Networks for Multi-label Text Categorization[C]// 2017 International Joint Conference on Neural Networks (IJCNN). IEEE,2017:2377-2383

[2] Kim Y. Convolutional Neural Networks for SentenceClassification[J]. arXiv preprintarXiv:1408.5882,2014.

[3] Hu B,Lu Z,Li H, et al. Convolutional Neural NetworkArchitectures for Matching Natural Language Sentences[J].arXiv:Computation and Language,2015.3:2042-2050

[4] Yin W, Kann K, Mo Y, et al. Comparative Study of CNNand RNN for Natural Language Processing[J]. arXiv preprintarXiv:1702.01923,2017.

[5] Lai S, Xu L, Liu K, et al. Recurrent convolutional neuralnetworks for text classification[C]. national conference on artificial intelligence,2015:2267-2273

[6] 趙勤鲁,蔡晓东,李波,吕璐.基于LSTM-Attention神经网络的文本特征提取方法[J]. 现代电子技术,2018.41(8):167-170

[7] 朱星嘉,李红莲,吕学强,周建设,夏红科.一种改进的Attention-Based LSTM特征选择模型[J].北京信息科技大学学报(自然科学版),2018.33(2):54-59

[8] 潘晓英,赵普,赵倩.基于BLSTM和注意力机制的电商评论情感分类模型[J].计算机与数字工程,2019.47(9):2227-2232

[9] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation,1997.9(8):1735-1780

[10] Pennington J, Socher R, Manning C D, et al. Glove: Global Vectors for Word Representation[C]. empirical methods in natural language processing, 2014:1532-1543

猜你喜欢

注意力机制深度学习
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
InsunKBQA:一个基于知识库的问答系统
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究