基于深度学习的网站类型识别研究

2023-11-10尹杰倪鹏锐

电子设计工程 2023年21期

尹杰，倪鹏锐

（阜阳工业经济学校信息技术系，安徽阜阳 236032）

传统网站分类方式效率低下且易出错，快速且准确地识别出网站类型，有利于令查询过程更为高效[1-2]。

Word2vec[3]无法区分多义词，ELMO[4]和BERT[5]依据词的上下文进行动态编码。ERNIE2.0[6]提出多任务增量学习策略，有效捕获词汇、句法和语义信息。机器学习方法[7]需要构建特征工程，无法保证提取特征的准确性，不适合处理大规模的网站数据。文献[8]针对专利文本分类任务，提出了BERTCNN 模型，CNN 仅能提取局部语义特征。文献[9]提出了基于BERT-BiLSTM 的违法网站检测模型，BiLSTM 模块运算效率低，仅能捕获文本的上下文语义。文献[10]引入均匀词向量卷积模块，提出了基于BERT-AWC 的文本分类模型。文献[11]将自注意力机制融入到BiGRU 和多粒度卷积神经网络。CNN和LSTM 模块无法聚焦于对网站类型识别结果影响较大的关键特征。

文中提出了基于ERNIE2.0-MCNN-BiSRU-AT的网站类型识别模型，利用ERNIE2.0 将网站文本向量化，解决静态词向量无法表示多义词的问题；多特征融合网络同时捕获多个尺度下的文本局部语义和上下文序列融合特征；软注意机制赋予模型识别关键特征的能力。

1 网站类型识别模型

1.1 模型整体结构

基于ERNIE2.0-MCNN-BiSRU-AT 的网站类型识别模型整体结构如图1 所示，主要组成模块有ERNIE2.0 预训练模型、多特征融合网络、软注意力机制和线性分类层。

图1 整体模型结构

其中，ERNIE2.0 负责提取网站文本的动态向量矩阵，将离散的文本转化为机器可处理的数字形式；多特征融合网络采用多个通道的结合CNN 和BiSRU模块对网站文本进行语义特征学习，同时保留原始的上下文信息抽取的通道；对于每个通道输出的分类特征，软注意力机制计算每个特征对网站类型识别结果的关键程度，达到信息聚合的目的，避免无关特征影响识别结果。

1.2 ERNIE2.0预训练模型

ERNIE2.0 模型采用海量数据和相关先验知识持续构建无监督预训练任务，并在多个任务上进行增量学习，捕捉中文语料句子句法和语义方面的特征信息。ERNIE2.0 模型结构如图2 所示。

图2 ERNIE2.0模型结构

ERNIE2.0 模型结构主要由多层Transformer 编码器构成，自注意力机制能够提取句子内部词与词之间的依赖关系，获取句子语法结构特征。Transformer 编码器能够捕获每个token 在文本序列中的上下文信息，并生成上下文语境表征嵌入。对于给定的序列，其起始位置是预定义的分隔符[CLS]；对于输入为多段的任务，不同段之间用预定义的[SEP]分隔。

其中，Trans 表示Transformer 编码器；E=(E1,E2,Ei,…,En)为模型输入向量，Ei表示文本中的第i个词的向量表示，由字向量、位置向量和分割向量相加而成。相关过程如图3 所示。

经过编码器训练后得到符合上下文依赖的动态向量表示T=(T1,T2,Ti,…,Tn)，Ti代表第i个词的语义向量表示，作为多特征融合网络的输入向量。

1.3 多特征融合网络MCNN-BiSRU

多特征融合网络主要组模块为多尺度卷积网络和双向简单循环单元，在多个尺度下捕获文本词和短语级别的上下文序列特征。多尺度卷积网络通过设定不同大小的卷积核，提取多个尺度下网站文本局部语义特征，确保获取特征的多样性，为确保语义特征不丢失，不使用池化技术选取关键特征，具体卷积实现过程如图4 所示。

图4 卷积实现过程

相关计算过程如式（1）所示。

其中，w为卷积核；⊛表示卷积操作；m为窗口大小；Ti:i+m-1表示T中第i到i+m-1 行词向量表示；f代表激活函数，为模型加入非线性因素，由于RELU 函数在训练过程中容易出现神经元坏死现象，导致模型特征学习能力下降，从而影响训练效果，文中采用性能更优的非线性激活函数Swish[12]。Swish 函数具备无上界有下界、平滑、非单调的特性，训练过程中通过Swish 函数获取固定分布，加速模型收敛和提升训练效果。Swish 函数计算过程如式（2）所示。

其中，β为可训练参数。通过多次操作滑动窗口得到局部特征向量C=(c1,c2,…,cn-m+1)，设置卷积核组合大小为(2,3)，得到特征向量C2和C3。

简单循环单元[13](Simple Recurrent Unit,SRU)利用高速跳过连接和简化状态计算以提供更多的并行性，循环过程中当前状态计算摆脱对上一个时间步输出状态的依赖，在任何维度和步骤中进行并行运算，提高了模型并行计算能力，训练效率优于传统LSTM[14]和GRU[15]模块。相关计算过程如式（3）-（6）所示。

其中，符号*表示对应矩阵元素相乘；rt和ft分别代表重置门和遗忘门，负责控制当前步骤状态信息流入下一步时间步骤的程度大小。由式(6)过程可知，ht的计算不再依赖ht-1，能在任何维度和步骤中并行化执行对应元素矩阵乘法。为捕获网站文本完整语义特征，搭建双向简单循环单元(Bidirectional SRU,BiSRU)，提取完整上下文序列特征提高语义特征捕捉的全面性[16]。Ht为前向和后向简单循环单元在t时间步的状态输出和拼接结果，

将原始语义向量表示T和局部特征向量C2、C3分别输入到不同通道的BiSRU，获取BiSRU 模块输出的最后时间状态HL，多个通道分别得到和，拼接组合成向量表示HL。相关计算过程如式（7）所示。

1.4 软注意力层与分类层

将多特征融合网络输出的序列特征向量HL输入到软注意力机制层，计算每个特征对网站类型识别结果的注意力得分，加权求和后得到整体注意力特征表示A。相关计算过程如式（8）-（10）所示。

将注意力特征表示A经线性层映射到分类空间，计算得到分类概率P，最后由Top 函数取得每行最大概率对应标签为网站类型识别结果R，计算过程如式（11）-（12）所示。

2 实验结果分析

2.1 数据集与评价指标

由于目前没有公开标注的网站类型识别标准数据集，为确保实验结果的有效性，使用Scrapy 爬虫框架获取多个门户社交平台上的网站文本数据，对重复数据进行过滤后获取原始网站样本数据。原始样本中存在较多的无任何语义的特殊字符，采用正则表达式进行清洗，仅保留含有语义的文字表述。经处理后得到标准样本数量共16 000 条。采用人工标注的方式将数据样本划分为财经、娱乐、军事、科技、健康、体育、教育和社会共8个类别，按照9∶1的比例随机拆分为训练集和验证集，数据集详情如表1 所示。

表1 数据集详情

为验证文中模型ERNIE2.0-MCNN-BiSRU-AT在网站类型识别任务上的有效性，采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值作为模型评估指标，F1 值为准确率和召回率的整体评价指标，更能反映出模型的综合性能。

2.2 实验环境与模型参数设置

实验环境采用Linux 服务器，显卡型号为GTX3090，显存大小为24 GB；使用深度学习框架Pytorch1.7.1 进行模型编写和训练，采用第三方库如Numpy 等计算模型性能指标和进行文本数据预处理。

模型参数设置如下：BiSRU 模块隐藏层大小为256，层数为2；卷积模块中卷积核大小为(2,3)，特征图数量均为128；软注意力层维度512；损失函数为多分类交叉熵损失函数；序列截断长度为150；批处理大小为32，学习率为1×10-5；训练轮次为6；采用RAdam[17]动态调整学习率大小，加快训练收敛速度和提高模型训练效果。

2.3 实验结果分析

为验证文中模型在网站类型识别任务上的有效性，采用近期性能较优秀的深度学习模型BERTCNN、BERT-BiLSTM、BERT-AWC 和BiGRU-ATCNN 进行实验对比；并设置大量消融实验以验证每个模块对性能的贡献程度。为降低随机数影响模型性能，固定随机数种子，采用10 次冷启动实验结果的平均值作为最终结果。

模型实验评估指标如表2 所示。由表2 可得，ERNIE2.0-MCNN-BiSRU-AT模型F1值达到了95.67%，较BERT-CNN、BERT-BiLSTM、BERT-AWC和BiGRU-AT-CNN 模型分别提高了4.52%、4.24%、3.4%和3.34%，证明了ERNIE2.0 模型、多特征融合网络和软注意力机制三者结合的有效性，能够提升网站类型识别性能。

表2 模型实验结果

为验证ERNIE2.0 提取文本动态向量表示的有效性，采用Word2vec、ELMO 和BERT 词向量模型进行实验对比，由表2 结果可知，ERNIE2.0 用作词嵌入层时，模型F1值最高，达到了94.23%，证明了ERNIE2.0能够融合领域知识动态调整向量表征，解决一词多义问题，提升词的表征能力。Word2vec 模型训练过程缺乏位置信息，每个词由唯一向量表示，无法依据具体上下文语境进行动态学习，因此分类效果较差。

为验证软注意力的有效性，设置ERNIE2.0-MCNN-BiSRU 与ERNIE2.0-MCNN-BiSRU-AT进行实验对比，结果表明加入软注意力机制模块AT 后，模型F1 值提高了1.44%，软注意力通过计算每个特征对网站类型识别结果的注意力得分，赋予关键特征更高权重，加权求和后得到注意力表征，以达到信息筛选的目的，提升模型分类性能。

模型ERNIE2.0-MCNN-BiSRU-AT 和ERNIE 2.0-MCNN-BiLSTM-AT 每个轮次训练时间结果如图5 所示。由图5 结果可知，ERNIE2.0-MCNNBiSRU-AT 模型训练耗时均低于ERNIE2.0-MCNNBiLSTM-AT，说明了BiSRU 模块通过高速跳过连接和状态计算独立化改进，提高了并行运算速度，训练效率优于BiLSTM 模型，同时维持高效的序列建模能力。

图5 模型训练时间

综上所述，ERNIE2.0-MCNN-BiSRU-AT 模型能有效识别出网站类型，是解决海量网站类型分类问题的实用方法。

3 结论

针对网站类型识别任务，提出了基于ERNIE2.0-MCNN-BiSRU-AT 的网站类型识别模型。利用预训练模型ERNIE2.0 提取网站文本的动态向量表示，解决了一词多义问题，效果优于实验对比的其他词向量模型；多特征融合网络同时捕获文本局部语义特征和上下文序列特征，确保获取特征的全面性，软注意力机制赋予模型识别关键特征的能力。在网站文本类型识别数据集上进行实验，识别效果优于实验对比模型，证明了文中模型的有效性。在未来的研究将考虑使用图片和视频等其他模态信息，基于多模态进行网站类型识别，进一步提升识别精度。