APP下载

基于职业院校数据与指标匹配的编辑距离算法的应用研究

2019-03-08李华君郭晟君

科技创新导报 2019年30期
关键词:相似度数据分析

李华君 郭晟君

摘   要:随着互联网的迅速发展,数据越来越多,分析数据愈发困难。为给山西省职业教育大数据分析与决策平台提供大量且准确的数据,首先要将不同文本中的数据进行整理,其次将数据名称与已经命名好的指标进行匹配,进而实现数据与指标的匹配。基于此,本文采用了编辑距离算法,该算法以单个字符为单位进行编辑距离测算,通过计算从原字符串转换到目标字符串所需插入、删除和替换的数目,得到原字符串与目标字符串的相似度,进行字符串之间的匹配,进而解决了数据与指标匹配的问题。

关键词:数据分析  指标匹配  编辑距离  相似度

中图分类号:G64                                    文献标识码:A                        文章编号:1674-098X(2019)10(c)-0255-02

为给山西省职业教育大数据分析与决策平台提供大量且准确的数据,必须通过调研采集信息或梳理年报等方式提取学校信息,由于学校无指标名称且各个学校信息不同,所以梳理出来的数据名称各式各样,例如:就文本中关于指标“享受国家助学金人次”就有“享受国家助学金人数”、“国家助学金受助学生人数”、“中职学生国家助学金受助人数”、“享受国家助学金学生人数”等4种叫法。对于人工梳理信息,不仅要整理出原始数据,还要将数据填到相应的指标,此外还要进行多次的重复检查工作,大大降低了工作效率。采用编辑距离的算法通过算出指标字符串与数据名称字符串的相似度,将相似度高的数据名称被指标替代,并把数据提取出来,放在相应的指标下,这样就实现了数据与指标的匹配。

1  编辑距离的概念

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同(即相似度越低)。

許可的编辑操作只有三种:插入、删除和替换。

2  编辑距离算法

创建一个矩阵,假设有两个字符串A和B,我们的字符串的长度分别是m和n,矩阵的维度就是(m+1)*(n+1),给矩阵第一行和第一列分别以0开始,以1递增的方式赋值,如表1所示,通过计算规则:

3  数据与指标匹配思想的设计

(1)人工提取内容。

由于数据是在文章中大篇幅存在,目前也没有最准确的提取“内容+数据”的方法,为保证数据的准确性和内容的完整性,由人工按照原文档内容将数据整理成Excel表格,如图2所示(以“资助情况”为例)。

(2)将字符串分为单个字符。

将表2中数据名称每一格的文字提取出来,将单个字符依次按照顺序排列到矩阵中,便于数据名称(原字符串)与指标(目标字符串)匹配。

(3)数据名称与指标匹配。

数据名称(原字符串)与每个指标(目标字符串)通过编辑距离算法进行匹配,计算相似度,相似度越接近1,表示相似度越大,通过对比相似度,数据名称可直接被相似度最高的指标所替代。

(4)数据与指标匹配。

4  实验结果及分析

本文随机选取了几篇职业院校的年报,将同一版块的内容提取出来(以“资助情况”为主要板块),共提取出50个数据名称,按照人工匹配指标的方式和上述方法(编辑距离算法)分别对50个样本进行测试,测试结果如图7所示(每个数据名称不一定都有对应的指标,所以存在数据名称匹配不到指标的情况),实验主要是通过测试编辑距离算法的准确率,得到编辑距离算法是否可大量减少人的工作量的结论。其中准确率计算方法为:

测试的数据名称共有50个,指标共有24个,本文对于相似度的阈值设置为0.65,当前相似度正好为0.65即认为这两个语句相似,相似度越接近1,表示这两个语句越相似。

由实验结果表明,编辑距离算法的准确率可以达到79.5%,充分说明了编辑距离算法可以在匹配指标上应用,可大大减少人的工作量。

5  结语

本文论述了基于职业院校数据与指标匹配的编辑距离算法的应用研究,通过匹配数据名称与指标,进而得到数据与指标的匹配。根据实验结果,得出编辑距离算法在指标匹配上应用的结论,可大量减少人的工作量。但是该算法还有不足之处,由于是对中文语句进行相似度比较,同义近义字可能会导致算法有大的误差,这时仍需要人工进行分辨,也是下一步研究的重点方向。

参考文献

[1] 王芳,王继荣,杨晓东,等.基于中文文本的编辑距离算法的改进[J].青岛大学学报:自然科学版,2017,30(3):60-63.

[2] 邵清,叶琨.基于编辑距离和相似度改进的汉字字符串匹配[J].电子科技,2016,29(9):7-11.

[3] 姜华,韩安琪,王美佳,等.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227.

猜你喜欢

相似度数据分析
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
浅析大数据时代对企业营销模式的影响