基于语义分析在计算机技术文本分类中的应用研究

2016-05-14杜隆胤

现代电子技术 2016年5期

杜隆胤

摘要：基于GPRS的移动互联网分布式文本分类系统没有足够的CPU和RAM资源可以调用，所以难以使用传统的神经网络系统进行文本分类，这与当前的互联网大数据需求存在一定的矛盾。在此使用占用CPU和RAM资源较少的语义分析算法，采用局端与用户端联合运算的方式，使用比较结果字符串替代明文传输的方式减少GPRS链路占用，研究了基于语义分析的计算机文本分类技术。

关键词：语义分析；文本分类；移动互联网；计算机智能

中图分类号： TN919?34 文献标识码： A 文章编号： 1004?373X（2016）05?0147?02

文本分类技术是人工智能的重要组成部分，而语义分析算法是传统的脚本编译算法[1?2]。传统的文本分类算法包括决策树，Rocchio，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，KNN，遗传算法，最大熵，Generalized Instance Set等[3]。将语义分析算法应用在文本分类中[4]是本文研究的重点。

1 需求分析

这里需要一种可以运行在云端的文本分类软件，软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。

1.1 流程分析

本文需求并不要求更智能化的识别方式，而是通过语义分析法，通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析，同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别，业务流程图如图1所示。

1.2 模块分析

传统语义分析算法来自人工输入的特定文本之间的判断，一般语义分析算法只能识别80～120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别，所以本文采用三层识别方法见图2。

P1.1：根据固定关键词，识别超文本标识语言中的标识段数据，并将其剔除。

P1.2：根据自学习关键词，识别自然文本中的关键词，根据词频和关联度进行价值估计。

P1.3：根据自学习关键词，识别自然文本的含义，评估不同文本段之间的相似度，对文本段进行归纳整理。

而本软件的自学习部分（P2）不从传统的人工智能算法中得到关键词字典，而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上，自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系，并不占用GPRS通道。

软件的移动端部分（P3）通过相对固定的关键词字典集合，根据实际分析得到的数据匹配结果进行远端比较，但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后，可以较大程度地实现GPRS链路的数据最小化。

1.3 数据流分析

P1模块输入数据D1.1为P1.1的关键词字典数据，该数据以数据库表的形式保存在数据库中，形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串，如超文本标识语言中的标识字符串等。

P1模块输入数据D1.2为P1.2的关键词字典数据，该字典数据来自自然文本中经常出现的字符串，以及用户易搜索的字符串。这部分字符串来自对海量信息的比较，海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。

P1模块输入数据D1.3为P1.3的关键词字典数据，该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。

因为本文算法不采用无限递归法[7]，而是采用了三层计算的架构，而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1，定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串，不具备人脑识别的功能，但可以在计算机中给自然语言提供镜像，可以让较为模糊的自然语言在计算机中得到识别和模糊对比。

P2有两个输入量，P2.1来自合作搜索引擎的搜索字符串数据，该数据运行在光纤数据干线上，数据量较大，不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串，搜索时间，发生IP，发生IP地域，捆绑账号等。P2.2来自网络随机遍历采集的各种超文本，这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘，所以数据结构较为简单。

2 算法设计

因为篇幅限制，本文仅讨论和展示部分核心代码和算法的设计，较复杂的算法过程不再给出伪码。P1.1是超文本对比算法，超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8]，这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。

本文算法的最主要成果是使用最小的CPU和RAM资源，对自然语言文本进行比较，从而获得更高效的适应当前互联网云服务市场的软件[9]。

2.1 超文本对比函数算法（P1.1局部）

读字典数据表，做对比循环函数。

对比循环函数伪码如下：

OPEN TABLE DICT

DO WHILE DICT NOT EOF

GET DIG_DICT RECORDSET FORM DICT

OPEN TEXTFILE

GET L_DIG_DICT LENTH DIG_DICT

FOR I 0 TO LENTH TEXTFILE

GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT

GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE

NEXT I

LOOP

RETURN SUMSHOW

2.2 数据逻辑网络的实现（P1.2局部）

数据逻辑网络主要是在数据库中使用数据结构实现数据的逻辑网络，每个数据都有若干个上级数据和若干个下级数据[10]。每个单个数据一般不超过15个汉字（32字符）。上级数据和下级数据使用专用字段存储，每个字段使用二维数组的方式进行管理。二维数组包括目标字符串（32字符），响应频率，最后响应时间3项。

为了充分调动数据逻辑网络，采用了全新的遍历算法，对每个记录下的两个二维数组字段进行分别遍历，以对文章内容进行逐一比较和计算。在比较中同时记录其他词语的词频，进一步对两个二维数组字段进行维护和更新。因为篇幅限制，只在本文模型下进行设计分析。

2.3 文本相似度评估算法（P1.3局部）

本文采用的文本相似度评估算法分为两段：

第一段对输入文本进行比较评估，对字典中每个关键词进行词频分析，同时对关键词出现的位置进行[t]检验和[χ2]检验，将结果使用Minmax处理为（0，1）值域。将每个处理结果进行汇总制表。与此同时，将输入文本与每个关键词的关联词进行词频分析，同时对关键词的关联词位置进行[t]检验和[χ2]检验，将结果同样使用Minmax处理为（0，1）值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。

第二段将第一段中形成的两个数据表与系统中存储的数据表进行[t]检验和[χ2]检验，获取检验结果的[P]值。当[P<]0.05时，认为两篇文章具有相似度，且[P]值越小，文章的相似度越高。本文算法经过检验，完全相同的两篇自然语言文章输入系统后，两篇文章的[P]值接近于0，表示本文算法拥有较高的识别性。

3 结语

本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计，在面向对象的设计模型中，本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。

参考文献

[1] 万源.基于语义统计分析的网络舆情挖掘技术研究[D].武汉：武汉理工大学，2012.

[2] 李智星.用于文本分类的简明语义分析技术研究[D].重庆：重庆大学，2011.

[3] 王奕.基于概率潜在语义分析的中文文本分类研究[J].甘肃联合大学学报（自然科学版），2011（4）：55?59.

[4] 钟将，刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用，2012，48（2）：139?142.

[5] 季铎，毕臣，蔡东风.基于类别信息优化的潜在语义分析分类技术[J].中国科学技术大学学报，2015（4）：112?114.

[6] 何兆兴.文本分类相关算法研究[J].计算机工程与应用，2014（3）：59?61.

[7] 刘东华.计算机语义分析算法革新研究[J].计算机工程与应用，2013（4）：41?42.

[8] 刘海东.文本分类与计算机语义分析的关联研究[J].中国科学技术大学学报，2015（2）：167?169.

[9] 蔡虎燕.语义分析算法在文本分类中的应用研究[D].济南：山东大学，2013.