程序代码相似度检测方法的设计与实现

2013-10-20全上克杨新锋

微型电脑应用 2013年10期

全上克，杨新锋

0 引言

随着信息技术的高速发展，信息技术与教育教学的结合已经越来越紧密，针对各类程序设计课程，就有统一的程序语言支撑平台来帮助教学，程序语言支撑平台为学生提供了一个综台统一在线练习平台，帮助学生提供编程能力，同时也帮助教师布置程序设计课程的作业和考试，这种利用信息技术实现教学自动化大大提高了教师批改作业和考试的效率[1]。然而也正是因为信息技术的发展，从互联网上获取程序资源也越来越方便和快捷，有些学生可能直接从网上查找相关程序或者从同学那里直接复制程序提交给程序语言支撑平台。教师如果去手工检查每个程序，需要进行两两对比，这样会耗费大量的时间和精力。

从早在20世纪70年代初开始，就有学者研究阻止大规模拷贝程序的技术和软件，出现了一批比较典型的程序源代码剽窃检测系统[2]。从国内外的研究现状可以发现，国内在对程序相似度判别的研究做的非常少，大部分集中在对中文分词和语义的研究上。而国外虽然有很多成熟的系统，也发展结构化度量等成熟的技术，但都是基于文本转换和串匹配算法来实现代码相似度检测的。程序代码的抄袭跟普通文本抄袭还有不同，不同的代码可能实现同样的功能.有些聪明的抄袭者会使用一些技巧对代码进行修改，比如for循环变成while循环、添加很多中间变量，这样会降低串匹配算法的有效性。如何找到一种更合适的方法来检测更智能的抄袭是本文研究的重点[3]。

1 程序代码抄袭描述

由于程序代码不像普通文本那样没有特别的规范，程序代码的修改必须保证代码不像普通文本那样没有特别的规范，程序代码的修改必须保证代码正确运行的前提下才有作用。这就造成了代码抄袭过程中抄袭程度的不同和检测难度级别的不同[4]。

2 代码相似度定义

代码相似度表示一个程序与另外一个程序之间的相似程度，很明显100%相似就是完全相等。两个程序是否存在抄袭关系就是通过代码相似度来进行度量的，相似度越高，抄袭的可能性越大[5]。

使用属性计数法来进行源代码的剽窃检测时，首先对能表示程序特性的度量指标进行统计，生成其特征向量。然后可用向量空间模型的夹角来度量向量之间的相似性[6]。

令P1表示候选程序，其词频向量为P1( w1,w2,...,wn),P2表示检测程序，其词频向量为P2 (x1,x 2,....,xn),其中 wi, xi(1＜= i ＜= N)表示各特征值的词频，则程序段P1和P2之间的相似度Sim (P1,P2)用向量空间模型的余弦公式来度量，代码相似度定义如公式

由公式（1）可知， Sim( P1,P2)越接近 1，说明比较的2个程序P1与P2相似越密切；若等于1，则说明2个程序是同一个程序或完全相同，或者是在没有改变程序结构和标识符个数的情况下拷贝生成的另一个程序；反之亦然，但由于 C语言程序的总体结构相同（使用同样的操作符号和关键字）， Sim(P 1,P 2) =0的情况很难达到。

3 代码相似度检测方法的设计

3.1 属性计数法

1）常用元素的选定

在计算特征向量之间的相似度时，向量中的元素需要谨慎挑选。在挑选一段程序里面的常用属性的时候，应该选取一些具有特征意义的，本文挑选出以下几个属性作为特征向量里面的元素：（1）代码行数；（2）数组个数：统计出程序里定义了多少个数组；（3）自定义变量：统计程序里面不重复出现的自定义变量个数；（4）自定义变量总数：查找程序里面出现的自定义变量总数；（5）关键字：计算一下程序里面出现了多少次关键字；（6）数值常量：常量分为数值常量和字符常量；（7）字符常量：字符常量里面包括单个字符和字符串；（8）运算符。

2）获取元素的方法

在统计程序里面一些元素的时候，我们可以利用Lex，Lex是非常著名的词法分析工具，描述规则采用正则表达式[7]。描述词法分析器的文件*.l，经过lex编译后，生成一个lex.yy.c的文件，然后由C编译器编译生成一个词法分析器。词法分析器，简单来说，其任务就是输入的各种符号，转换成相应的标识符（token），转化后的标识符很容易被后续阶段处理，其过程如图1所示：

图1 Lex工作原理图

这样我们在 Lex下面写出想要抽取元素的规则就行，Lex会生成对应这些规则的C语言代码。

3.2 结构度量法

1）常用程序结构的选定

在抽取程序常用结构的时候，我们同样得找一些具有代表性的结构，比如for循环，while循环，if-else等常用结构，选定的结构为：（1）if-else结构出现的次数；（2）函数个数；（3）for循环个数；（4）while循环个数；（5）do-while循环个数；（6）调用函数次数。

2）获取常用结构的方法

当我们需要从一个程序里抽取常用逻辑结构的时候，我们需要构建C语言语法树，构建好C语言语法树后，从相应的语法树上面抽取逻辑结构，该部分的难点在于如何构建语法树[8]。

在构建语法树的时候，采用了开源代码ucc的方法，利用ucc来将程序生成相应的语法结构。将语法结构存到一个*.txt文件中，然后从这个文件中抽取逻辑结构，可以继续采用Lex来抽取。

3.3 特征向量的生成

总前说述，我们已经能够生成每个程序相应的特征向量P(x1,x2...x14)。x1（代码行数），x2（自定义数组个数），x3 (自定义变量个数)，x4 (自定义变量使用总数)，x5(关键字个数)，x6(数值常量个数)，x7(字符字符串常量个数)，x8(运算符个数)，x9(if-else结构个数)，x10(函数个数)，x11(for循环个数)，x12(while循环个数)，x13(do-while循环个数)，x14(调用函数次数)。