APP下载

基于BERT模型的中医文本分类研究

2021-11-08王培王亚文卢苗苗

电脑知识与技术 2021年27期
关键词:文本分类注意力机制深度学习

王培 王亚文 卢苗苗

摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的特征表示,并进行中医临床文本的分类研究。最后通过对中医临床文本分类实验的验证,该模型达到了非常可观的分类效果。

关键词:文本分类;深度学习;中医文本;注意力机制

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2021)27-0013-02

Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.

Key words: text categorization; deep learning; TCM text; attention mechanism

1 引言

文本分类是按照一定的分类规则对文本进行自动划分类别的过程,在很多领域它都有着非常广泛的应用场景[1]。文本分类分为基于传统机器学习的文本分类和基于深度学习的文本分类。文本分类的核心是文本的处理分类,它有着非常广的应用前景。

在中医领域对于文本分类技术的使用和探索从未停止,常被用于中医药文本分类、中医方剂相似度计算等多项任务之中。中医是以古时候的“天人合一”为指导思想,以阴阳五行理论为工具,研究人体生命变化规律的一门学问[2]。中医临床文本承载了名老中医的临床经验,也是为病人临床决策的重要依据。中医临床文本的正确分类对于中医的蓬勃发展有着重要的意义。本文使用Bert模型对中医临床文本进行文本分类研究,该模型的向量表示会随着上下文的不同而变动,解决了传统词向量无法处理的一词多义的问题。通过Bert预训练模型可以生成融合中医深层全局语义的特征表示,并且进行中医临床文本的分类工作,最后输出分类的结果。

2相关研究

文本分类属于人工智能技術领域,是自然处理领域一个重要的应用,也是文本处理中一个很重要的模块。文本分类算法的研究就从未停止,在中医领域的研究者也进行了深入的研究。

顾铮等人[3]将文本分类相关技术运用到中医方剂相似度的计算上,为中医药研究开辟了新的发展道路。王华珍等人[4]使用传统分类算法针对数据库中疾病和症状的相关知识进行文本挖掘研究,并在此基础上构建智能诊疗模型用于智能证型的分类,该模型为中医辅助诊疗决策提供了支持。付钊等人[5]研究了基于语义分块的中医病情分类问题,实现基于TF-IDF特征的随机森林病情分类模型和SVM病情分类模型。陈广等人[6]研究基于关键语义信息的中医肾病病情文本分类问题,使用N-Grams片段的信息熵和关键词提取算法以及文本关键语义信息提取方法应用到中医肾病病情文本分类上。

3 研究方法

语言模型的研究经历了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型训练出来的词向量属于静态的词向量,无法表示一词多义。GPT属于单向语言模型,无法获取一个字或者词的上下文。ELMO为一词多义提供了一个很好的解决方案,会考虑更多的文本信息,基于给定的上下文动态的生成每个词的嵌入。Bert模型是综合ELMO和GPT两者的优势,是一个多层双向Transformer编码器语言模型,Transformer可以并行训练所有的字,不仅计算效率很快,而且通过位置嵌入,模型的语言顺序的理解能力也比较好。BERT模型具有很多特点:真正的双向、解决一词多义、并行运算、泛化能力强等。Bert是一个两阶段模型:第一阶段双向语言模型预训练,预训练过程中,可以学习到每个词对应的上下文信息。第二阶段针对具体的任务进行fine-tine模型,使其学到新特征,因此可以在具体任务上打造一个比较好的效果。

猜你喜欢

文本分类注意力机制深度学习
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
InsunKBQA:一个基于知识库的问答系统
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
文本分类算法在山东女子学院档案管理的应用