基于半监督支持向量机的期刊收稿系统自动分类方法

2018-12-14耿晓军

现代电子技术 2018年24期

关键词：特征向量工作效率

耿晓军

关键词：期刊收稿系统; 自动分类; 专家审稿; 半监督支持向量机; 工作效率; 特征向量

中图分类号： TN957.52+3?34; TP393 文献标识码： A 文章编号： 1004?373X（2018）24?0174?04

An automatic classification method based on semi?supervised support vector

machine for periodical manuscript acceptance system

GENG Xiaojun

（Editorial Department of Modern Electronics Technique， Shaanxi Electronics Magazine Publishing Company， Xian 710032， China）

Abstract： In the current periodical manuscript acceptance system， the manual mode is mainly adopted to distribute the submitted e?mail manuscripts to the review experts in relevant professional fields， so as to complete manuscript review. However， the manual distribution mode is less efficient when facing with a large quantity of manuscripts. In order to solve the above problems and realize automatic distribution of submitted manuscripts， an automatic classification method based on the semi?supervised support vector machine is proposed. A vector space model based on TF/IDF feature weights is put forward to realize eigenvector representation of manuscripts. The semi?supervised support vector machine is used to classify datasets of manuscripts. The validity of the method was verified by analyzing manuscript acceptance instances of a certain journal. The experimental results show that the average F1 of the proposed automatic classification method based on the semi?supervised support vector machine for the periodical manuscript acceptance system is about 68%， which can improve the work efficiency of the periodical manuscript acceptance system while satisfying a certain accuracy condition.

Keywords： periodical manuscript acceptance system; automatic classification; expert review; semi?supervised support vector machine; work efficiency; feature vector

0 引言

在信息技术时代，人们的生活和工作已经越来越依赖互联网，论文投稿系统网络化已经成为了现在的主流趋势[1?2]。但是，随着期刊对论文质量的要求越来越高，所需评审专家的专业领域细化和深化程度也随之提高。期刊编辑需要将作者的投稿分配给最合适的论文评审专家，以便逐渐提升期刊的稿件质量和专业层次。但是当面对大量的稿件时，人工分配方式的效率较低。因此，需要为投稿论文所属学科领域进行计算机自动分类，以便分配到相关专业领域的评审专家手中[3]。

传统的有监督学习方法通过大量的信息标注来提高自然语言处理的性能，取得了较好的效果[4]。但是训练数据的标注需要花费大量的时间和人工成本，在应对大数据任务处理时呈现出了不少问题。例如，没有充足标注语料或者标记资源质量较差的情况。因此，基于半监督学习的自然语言处理技术逐渐成为了研究的热点。半监督学习已经成为近期机器学习领域新兴的重要方向。与有监督学习方法的不同之处在于[5]：半监督学习同时使用标记数据和无标记数据。此外，相比仅利用标记数据的有监督学习方法，半监督学习具有更好的性能。

因此，为了实现投稿论文的自动分配，建立一种基于半监督支持向量机的论文自动分类方法。首先提出了基于TF/IDF特征项权重的向量空间模型来实现论文的特征向量表示，然后采用半监督支持向量机对论文数据集进行分类。通过对某期刊收稿实例的分析，验证了该方法的有效性。提出的方法与传统人工方法相比大幅度提高了期刊收稿系统的工作效率。

1 提出的论文自动分类方法

1.1 论文向量空间表示模型

根据文献[6]中语义检索方法，采用基于TF/IDF特征项权重的向量空间模型来实现论文的特征向量表示。期刊收稿系统中文本词频[sfij]采用式（1）进行初始频率统计，如下：

[sfij=fijmaxf1j，f2j，…，fvj] （1）

式中：[fij]为文本[dj]中词义[si]的原始频率统计;[sfij]为文本[dj]中词义[si]的标准频率;[v]为文本[dj]中词义[si]的总数。逆向文本频率[idfi]由文本数量决定：

[idfi=logNdfi] （2）

式中：[dfi]为词义[si]至少出现一次的文本数量;[N]为期刊收稿系统中文本总数量;[idfi]为词义[si]倒排文本频率。文本词义权重如下：

[wij=sfij×idfi] （3）

式中，[wij]为文本[di]中词义[si]权重。

查询词义权重为：

[wiq=0.5+0.5sfiqmaxsf1q，sf2q，…，sfvq×logNdfi] （4）

式中：[wiq]为查询[q]中词义[si]权重;[sfiq]为查询[q]词义[si]初始频率统计。

1.2 半监督支持向量机设计

目前，研究人员已经将半监督的支持向量机应用到了多个领域的分类任务，其能够有效处理各种机器学习任务。文献[7]提出了一种基于采样的半监督支持向量机，能够有效预测软件中存在的缺陷。文献[8]提出了一种新的分支定向半监督支持向量机方法，能够对自然语言数据集进行文本和情感分类。可以看出，半监督支持向量机在本文分类方面表现出一定的优势。

支持向量机的基本原理模型如图1所示[8]。设定支持向量机的训练样本集为：

[{（xi，yi）|xi∈Rd，yi={-1，1}，i=1，2，…，N}]

式中：[yi]是样本的类别标签;d为样本维数;N是训练样本个数。

作为一种典型的半监督机器学习算法，在半监督学习中训练集可以被看作是有标记数据集和未标注数据集的混合。如果数据样本集是线性可分的，那么可以找到一个满足广义分类最优的超平面，公式如下：

[w?x+b=0] （5）

式中：[w]是一个n维的向量;b是偏移量。分类任务的最优化问题可以用式（6）表示：

[min 12w2s.t.yi（wTxi+b）≥1， i=1，2，…，n] （6）

可以看出，分类间隔最大化（[2w]最大），就是将[2w2]最小化。一般情况下，现实生活中的具体数据不可能是完全线性可分。因此在公式（6）中引入了惩罚系数，得到了拉格朗日变换后的优化问题，如下：

[maxαi=1nαi-12i，j=1nαiαjyiyjxTixjs.t. 0≤αi≤C] （7）

[ i=1nαiyi=0，i=1，2，…，n] （8）

式中，C為引入的误差惩罚因子。通过式（7）求解[αi]，再通过[w=i=1nαiyixi]求出[w]。

对于类别属性不确定的向量，一般采用以下判决函数进行判别：

[f（x）=sgn（w?x+b）=sgni=1nαiyi（xi?x）+b] （9）

对于非线性支持向量机来说，其判决函数为：

[f（x）=sgni=1nαiyiK（xi，x）+b] （10）

式中：K（·，·）表示核函数;[sgn（·）]表示符号函数;n为训练样本的数量。

1.3 分类算法流程

稿件分类算法的输入为待分类的稿件文本，输出为最优的分配类别。基于半监督支持向量机的论文自动分类算法流程如图2所示。

2 实验结果与分析

2.1 实验设置

仿真实验环境配置为：Windows 7操作系统，CPU为I5处理器，4 GB内存，Matlab 2012仿真平台。测试稿件来自某自然科学类杂志社的期刊收稿系统，共随机选取了2 000篇投稿，涉及13个专业方向，其中被标注论文数量为500。[Precision]（查准率）和[Recall]（查全率）是目前文本分类系统中通常采用的性能评估指标 [9?10]，可以对分类方法的性能进行验证分析。两者的计算公式分别为：

[Precision=aa+c] （11）

[Recall=aa+b] （12）

式中：[a]表示判断为属于该类的论文数目中实际属于该类的论文数目;[b]表示判断为属于该类的论文数目中实际不属于该类的论文数目;[c]表示判断为不属于该类的文档数目中实际属于该类的文档数目。

此外，为了更直观地显示分类系统的性能，采用单一的[F1]测试值来评估分类器的性能，如下：

[F1=2?Precision?RecallPrecision+Recall×100%] （13）

2.2 结果分析

应用本文自动分类方法的分类实验结果如图3所示，其中横坐标为训练的未标注论文数量，纵坐标为[F1]值。

从图3可以看出，随着未标注数据的增加，基于半监督支持向量机的[F1]数值也不断提高。此外在13个类别的专业方向上，评估分类结果的平均[F1]值约为68%，也就是说本文提出的基于半监督支持向量机的论文自动分类方法在[Precision]方面和[Recall]方面能够满足实际应用需求。总体而言，通过对某期刊收稿实例的分析，验证了该方法的有效性。

3 结语

本文构建一种基于半监督支持向量机的论文自动分类方法，提出基于TF/IDF特征项权重的向量空间模型来实现论文的特征向量表示，并采用半监督支持向量机对论文数据集进行分类。通过对某期刊收稿实例的分析，验证了该方法的有效性，得出如下结论：

1）验证了提出方法的可行性;

2）提出分类方法的平均F1值结果约为68%;

3）提出方法在满足一定准确度的条件下可以有效提升期刊收稿系统的工作效率;

4）当论文数量过大时，半监督支持向量机的准确率存在一定下降问题，后续将对未标志干扰噪声开展分析。

参考文献

[1] 程维红，任胜利，沈锡宾，等.中国科协科技期刊数字出版及传播力建设[J].中国科技期刊研究，2014，25（3）：340?345.

CHENG Weihong， REN Shengli， SHEN Xibin， et al. Digital publishing and communication construction for science and technology periodicals of China Association for Science and Technology [J]. Chinese journal of scientific and technical periodicals， 2014， 25（3）： 340?345.

[2] 丁洁，耿倩.基于SOA和云技术的论文网络投稿系统初探[J].电子测试，2013（8）：212?213.

DING Jie， GENG Qian. SOA and cloud?based system of papers submission system [J]. Electronic test， 2013（8）： 212?213.

[3] 张付志，李勇.基于标签内特征词的OA期刊站点自动分类方法[J].小型微型计算机系统，2014，35（1）：60?63.

ZHANG Fuzhi， LI Yong. An automatic classification approach for open access journal websites based on terms in tags [J]. Journal of Chinese computer systems， 2014， 35（1）： 60?63.

[4] CHENG L， LIN H， ZHOU F， et al. Enhancing the accuracy of knowledge discovery： a supervised learning method [J]. BMC bioinformatics， 2014， 15（S12）： 1?9.

[5] SUN S， HUSSAIN Z， SHAWE?TAYLOR J. Manifold?preserving graph reduction for sparse semi?supervised learning [J]. Neurocomputing， 2014， 124： 13?21.

[6] 高雪霞，炎士涛.基于WordNet词义消歧的语义检索研究[J].湘潭大学自然科学学报，2017，39（2）：118?121.

GAO Xuexia， YAN Shitao. Research on semantic retrieval of word sense disambiguation based on WordNet [J]. Natural science journal of Xiangtan University， 2017， 39（2）： 118?121.

[7] 廖胜平，徐玲，鄢萌.基于采样的半监督支持向量机软件缺陷预测方法[J].计算机工程与应用，2017，53（14）：161?166.

LIAO Shengping， XU Ling， YAN Meng. software defect prediction using semi?supervised support vector machine with sampling [J]. Computer engineering and applications， 2017， 53（14）： 161?166.

[8] TIAN Y， LUO J. A new branch?and?bound approach to semi?supervised support vector machine [J]. Soft computing， 2017， 21（1）： 245?254.

[9] YIN C， FENG L， MA L. An improved Hoeffding?ID data?stream classification algorithm [J]. Journal of supercomputing， 2016， 72（7）： 2670?2681.

[10] CAO J， HUANG W， ZHAO T， et al. An enhance excavation equipments classification algorithm based on acoustic spectrum dynamic feature [J]. Multidimensional systems & signal processing， 2017， 28（3）： 921?943.

[11] SHEN H， YAN Y， XU S， et al. Evaluation of semi?supervised learning method on action recognition [J]. Multimedia tools & applications， 2015， 74（2）： 523?542.

[12] 如先姑力·阿布都热西提，贺一峰，亚森·艾则孜.基于文本分类的维吾尔文数字取证研[J].现代电子技术，2016，39（10）：9?13.

Ruxianguli Abudurexiti， HE Yifeng， Yasen Aizezi. Research on Uyghur forensics based on text categorization [J]. Modern electronics technique， 2016， 39（10）： 9?13.