一种面向WEB大数据环境下的信息可信度分析与评估

2017-11-16姚俊萍李晓军李新社封富君

软件 2017年10期

关键词：情报研究信源标准

姚俊萍，李晓军，李新社，封富君

（火箭军工程大学初级指挥学院，陕西西安 714300）

一种面向WEB大数据环境下的信息可信度分析与评估

姚俊萍，李晓军，李新社，封富君

（火箭军工程大学初级指挥学院，陕西西安 714300）

在大数据时代，信息数量的快速增长造成了大量雷同、虚假信息的存在，导致了有效信息选取的困难。针对这个问题，本文研究了信息可信度的评价标准，并以实例的形式进行了可信度的定性和定量分析。本文是针对情报研究学科的需求而进行的初步探索。

WEB；大数据；数据挖掘；信息可信度

0 引言

在大数据时代，随着知识经济主导地位的形成，云计算、物联网和移动互联网等技术的快速发展，信息数量成幂级增长趋势。互联网中的每个个体无时无刻不在产生数据，这就造成了信息数量大、质量差、信息价值低等问题。对于在数据分析工作中扮演重要角色的情报研究工作，“信息超载”是需要面临的一大考验。大量信息的快速出现使情报研究机构所面对的信息远远超出其信息分析处理的能力。并且相对的信息过剩导致有效信息被大量的过剩信息所覆盖，使得情报研究人员在大量信息面前产生低分析决策能力和无形的压迫感，反而降低了工作效率和有效信息使用率。信息可信度分析与评估技术方法的研究可以帮助情报研究人员在大量数据中快速准确地根据需要进行信息的筛选过滤，从而提高信息真伪和质量的甄别能力，提高有效获取信息的能力，提高研究结果的可靠性和准确度。如何从海量多样的数据中快速准确筛选出符合预期的信息，将是科技情报工作面临的一个重大问题，本文是针对情报研究学科的需求而进行的初步探索。

1 文献综述

1.1 信息可信度的概念

信息可信度的概念，来源于大众传播研究领域，一般认为是信息或者信息源被信任的程度。也可以解释为信息的接受者所感受到信息发布者或者是传播介质的一种品质，通常的理解就是不管所传播的内容是什么而可以让接受者无可争论地接受并且信赖[1]。所以，信息可信度也可以叫做可信度感知或评价。

1.2 国内外研究现状

对于信息可信度评价与测量的研究已经引起了国内外学者的关注，但至今没有取得一致性的结论[2-4]。大多偏重于评价的方法和评价的指标体系上，缺少对网络信息可信度评价方面的研究。钟诚[5]等提出一种基于语义环境中的信息可信度计算方法，从信息所含内容本身的可信度和发布信息节点的可信度两个方面来计算信息可信度；朱宁[4]等探讨了用户对网络学术信息的可信度感知和有效获取，从相关性、客观性、准确性、权威性、时效性和可证实性等六个方面进行了定性和定量分析。

通过查阅资料发现[1]-[12]，如何改进信息发布或者传递者的特征以影响信息接受者的态度转变是关于可信度最早的研究。早在1953年美国的实验心理学家与传播研究的杰出人物霍夫兰（C.I. Hovland）和学者韦斯（W. Kelley）在探究可信度这个概念时，他们考虑到了各种因素，最终认为可信度应该具有两种最关键最不可或缺的因素，那就是专业（expertise）和可信赖（trustworthiness）这两种因素。作为实验心理学家他们曾经设计实施了一项实验，将内容相同的信息，由不同的人将消息告诉给给一部分人，这一部分人认为这些信息的可信度是高的，再由另外一部分人告诉另外一些人，这一些人则认为这一消息是不太可信的，也就是消息的可信度较低。最后在研究时发现，得知信息高可信度的人的态度发生了较大的改变。很多学者认为信息的可信度是信息传播者所能让手中不感受到信息源或传播介质的品质，就是不论传播内容是什么，接受者都能毫无条件的去信任。我们也可以理解为信源的权威性，权威高则值得让人信赖，如果一个信源的发布让公众十分相信，没有偏差并且长期值得信赖，那我们就可以认为信源是可信的。

在借鉴国内外相关领域的研究成果和总结了情报研究领域对信息可信度评估的特殊要求后[2-4]，本文定义了三个评价标准：时间、信源以及标题。

2 数据的采集

为了便于研究，我们以案例分析的形式进行一次信息可信度的分析，给定一个主题“网传288所本科高校将转为职业技术学院”，应用网络爬虫在相关网页抓取数据。有一个定义：“网页上如果存在多条结构相同的信息，我们就可以把一条具有类似的结构信息定义为样例”。同理可知多条结构化信息就是多样例。本文计划抓取到所有有关这个内容的信息，就是所有网页上的结构化的信息。主题所涉及的内容较多，涉及的格式较广，如果单一地采用单点数据采集，工作量太大，所以本文主要采用批量翻页数据采集。

2.1 数据的整理和分类

数据的整理分类是数据分析的前期工作，具有重要的意义和作用。数据有两种类型，一种叫连续型变量，例如人的身高、体重等；还有一种叫离散型变量，这种数据类别互不相容是其最大的特点，比如性别、血型，本文研究中所用到的是后者。为了便于后期的数据分析和结果研究，以750条数据为样本对数据进行一个合理的分类。

时间标准时就把时间格式转为“长时间格式”，例如2010年2月14日就表示成20100214的形式。因为数据存在于 Excel表格当中，可以利用表格对数字的排序功能进行排序，把数字也就是时间做升序处理，这样在后期对时间进行指标评价的时候就方便了；信源信息的处理，因为信源是文字信息，所以这次的工作就是先将每个信息的出处都标记出来，把出处相同的信息放在一起，这样对同一出处的信息就可以用同一标准去评价；关键词的处理是首先确定了几个关键词，对每条所抓信取息中包含的关键词个数进行统计，把他们列在 Excel中，也做升序处理以便于处理；最难的一部分就是字符数的统计，由于逐条去数的工作量太大，于是就想编程序去完成字数的统计，最终利用Matlab软件实现了这一工作，统计出字数后，也在表格中做了排序处理。

这是统计字数的程序：

clc

clear

%% 导入数据

[~, ~, raw] = xlsread('C:UsersLouDesktopwcn分析.xlsx','分析','B2:B752');

raw(cellfun(@(x) ~isempty(x) && isnumeric(x)&& isnan(x),raw)) = {''};

cellVectors = raw(:,1);

%% 将导入的数组分配给列变量名称

W = cellVectors(:,1);

%% 清除临时变量

clearvars raw cellVectors;

num = cellfun('length',W);

xlswrite('result',num);

2.2 信息可信度的定性与定量分析

本文计划建立的评价模型是想通过数学的筛选和科学评价指标的优长，并且克服了两者的局限。计划这种模型的功能是能够系统地评价多种定量及定性因素决定的信息可信度。

在这次大数据信息可信度模型建立上，信源标准是第一位的。本次抓取的数据是在百度引擎中得到的，来源广，所以我们根据不同的信源给信息一个评价的标准。将信源网址分为三类，第一知名度高权威性高的（如人民网、央视网、中国教育网，新华网以及地方的教育部门官网等）；第二是知名度高但权威性一般的网站（如百度、新浪、搜狐、腾讯、搜狐等）；第三种是知名度低并且权威性也不高的网站（个人网页的转发、一些推广的广告网页）。我们将来自这三种网页信源的信息分别记 3分，2分，1分。

信息中包含关键词的个数也是评价信息可信度的另一个标准。基于关键词的信息提取或者说是情报获取，已经不鲜为人知，斯诺登曝光的棱镜门中美国政府对民众通话的窃听那就是敏感关键词信息，一旦通话中涉及军事敏感词汇，或者包含政府感兴趣的词汇就会被重点监听。在情报的获取上讲关键词是标示某一个信息中的关键内容的词汇。我们抓取的是关于“288所本科高校转为职业技术学院”的信息，要谈可信，至少信息必须是关于我们关注的方面，标准就是包含我们设定的关键词。当然这也存在问题，关键词的设定是根据我们的目的，如果不具有代表性，那么所得到的结果就太片面了。所以基于信息主题，设定了三个关键词“本科”、“转”、“职业”。评价的指标依然是三类，（1）一个关键词都不包含；（2）含一个或者两个关键词；（3）包含三个关键词。依次的评分也是1、2、3分。

在信息化和自媒体高度发达的今天，在新闻报道学中，追求新闻的及时性是很关键的一个目标，没有这一特性新闻也就无所谓“新”了。然而在信息的传递过程中，在发布的初期可能由于支撑事实的依据不足，发布者也无法及时提供一些证据，这些消息往往会引起人们的热议，但不能使人充分地相信。但随着时间的流逝，这些消息的真假往往会浮出水面，发布者的自证、相关部门的出面、以及热心人的分析，很多的因素足以使普通的受众辨别信息的真假，基于这一显示情况，我们也把信息发布的时间作为一项评价的指标，我们认为发布时间越近的信息越是具有可信性。和上面的指标相同，我们把所搜集的信息的发布时间也分为三个阶段：（1）2010年至2011年为第一阶段；（2）2015年至2016年是第二阶段；（3）2017年以后的信息都属于第三阶段。这样我们按照时间由远到近将这三个阶段依次评为1分、2分、3分。

在网页上抓取的信息可以算是一条条新闻消息了，既然是新闻，在探讨可靠性时自然也不能忽略这些信息的新闻特性。新闻包含的内容一般无外乎于时间、地点、人物、时间及评论或者展望了。除了一般的报道要简明扼要，其他的关于一些大事件的报道我们还是希望看到更为详近的描述，因为细节讲述越详细就越能使读者感兴趣或者相信，读小说或者看电视剧也是这样，追求所谓身临其境就是这个意思。那么细节的描述或者展现要把它量化，文字就可以转化为字符数的多少。

我们利用Matlab软件进行了一个小编程，实现由程序读取电子表格中的文字信息，也就是所抓取的内容一列。记出每一个内容的字数，以量化描述的详细程度，描述详细的就判高分，反之的内容则认为描述不详细得低分。（1）低于23字为1分；（2）24到33为2分；（3）34字以上的评为最高分3分。

就是这样的四个标准或者说条件构成了这个完整的四维的评价模型，为什么在评分时选择了1，2，3这三个数值，那是因为首先它是连续的，并且这三个分值的差距不大，每一条标准都不是百分之百绝对的，所以分差大了误差也就大了，这样就更严谨了。此模型的每一个详细标准都是表程度的逻辑，程度的深浅应当是一个连续的，最后的工作是将四项小的标准的评价得分等权重加和，得出评分较高的信息，再依据现在的已知事实作比较，得出符合事实的有几条，不符合的有几条。再回头看是否这个评价标准成立。如果结果理想就得到了互联网大数据信息可信度的一个缩影分析。

2.3 单个指标与评价结果的相关性

前期我们利用单个指标对信息的可信度做了评价，最后又做等权重加和。可以看出得分较高的信息，当然我们是事后分析知道这个信息的真假，所以我们要看哪些指标与最后的评价结果最贴近，或者是与真实情况相一致。换种说法就是要探究一下我们所建立的评价指标哪一项与结果相关性最高。利用Matlab软件不难编程，得到一个四个指标评价结果与等权重加和的结果的一个相关性数据。

图1 评价结果Fig.1 Evaluation result

clc

clear

A = xlsread('test');

x1_z = min(min(corrcoef(A(:,1),A(:,5))));

x2_z = min(min(corrcoef(A(:,2),A(:,5))));

x3_z = min(min(corrcoef(A(:,3),A(:,5))));

x4_z = min(min(corrcoef(A(:,4),A(:,5))));

x1_z = x1_z/(x1_z + x2_z + x3_z + x4_z);

x2_z = x2_z/(x1_z + x2_z + x3_z + x4_z);

x3_z = x3_z/(x1_z + x2_z + x3_z + x4_z);

x4_z = x4_z/(x1_z + x2_z + x3_z + x4_z);

B = A(:,1)*x1_z + A(:,2)*x2_z + A(:,3)*x3_z +A(:,4)*x4_z;

xlswrite('test2.xls',B)

结果是信源相关的指标得到的结果是 0.6498，时间相关的指标是 0.4302，关键词个数指标是0.5334，字符数相关结果是 0.4108。信源的相关性最高，这说明在所建立的评价标准中，利用信源进行评价是更加客观的。

为了使整个的过程形成一个闭环，本次探究再将得到的相关性进行一个验证，对到的“相关系数”做一个归一化的处理，得到每一个“相关系数”的权重，再与之前的等权重加和进行计算，得到另一个评分。从结果能看出可信度评分有了变化，但是可信度的高低却没有很大的变化，只有少数几个有了几个顺序上的颠倒，但是这对整体的可信度评价并没有产生太大的影响。

2.4 评价结果的讨论

通过数据挖掘，数据分析以及后期的数据相关性的分析验证，以案例的形式完成了一个完整的互联网数据信息可信度的分析。当然本次的研究是属于事后的研究，所分析信息的真假已经清楚。最后的相关性分析结果当然是在已知客观真假的前提下进行的分析，这样得出的结论才是真实的。

图2 相关性验证Fig.2 Correlation validation

这种分析方法就类似于一场歌唱比赛，组委会请来几位专家评委为选手打分，当然专家由于个人喜好或者评价的角度不一样导致评价意见各不相同，每位专家的评价可能与最后总的评价是不一样的，但是总有一个或者几个很靠近综合结果的评价，就是其中一定有相当的“贴近率”，这就是我们在后期的分析中所说的“相关性”。单项的评价标准可能会有偏差，但是当我们找到其中每次都和结果贴近的“专家”时，把他的预期结果作为一个重点关注的对象，那么在以后我们就可以以他的预期来作为判断的一项重要标准。在这次的探究中我们发现信源标准与最后的结果的“相关性”最高，那么在以后我们判断互联网大数据信息的时候就可以看信息的出处是否来自一些权威高，知名度高的网站，当然无论是从数学分析还是从现实来讲这都不是绝对的，只是为我们的判断提供一个侧重点。这更加说明，那几项“相关性”略低的标准就不能作为评价标准只是它的权重可能会轻一些。

3 结束语

通过上述研究可以看出，信息可信度的定性、定量分析中指标的选择和权重的确定是与不同领域的实际需求相适应的，本文是针对情报研究学科的要求进行的初步探索，在权重计算和可信度评估计算等方面还有待进一步探讨研究。

[1] West M. D. Validating a Scale foe the Measurement of Cridibility, A Covariance Structure Modeling Approach.Joumalism Quarterly, 1994, 71(Spring): 68-159.

[2] 陆宝益. 网络信息资源的评价[J]. 情报学报, 2002(1):71-76.

[3] 邓云发. 基于可信度的决策信息评价与选择[J]. 商场现代化, 2009(7): 68-69.

[4] 朱宁, 陈红勤等. 用户网络学术信息资源利用可信度感知的分析与评价[J]. 图书馆, 2010(5): 37-39.

[5] 钟诚, 赵志峰等. 语义环境中信息可信度计算方法研究.情报理论与实践. 2012(35): 103-106.

[6] 王琰. 大数据浪潮中交通广播的生存与发展[J]. 新闻研究导刊, 2016, v. 7; No. 95(11).

[7] 胡文瑞. 步入大数据时代[J]. 中国石油石化, 2013(12):30-30.

[8] 云健, 王春霞. 搜索引擎技术综述[J]. 河西学院学报,2008, 24(2).

[9] 李敏杰. 基于大数据下的寄递物流管理信息系统的研究[D]. 南京邮电大学, 2014.

[10] 姜维. 基于网页更新频率预测的增量爬虫研究[D]. 哈尔滨工业大学, 2011.

[11] 罗刚. 自己动手写爬虫. 北京: 清华大学出版社, 2010. 10.[12] Wisenut. WiseNut Search Engine white paper[M]. 北京: 中国电力出版社, 2001年.

[13] 冯晓硕. 大数据时代信息可信度分析及可信度评估计算.第27届信息可信度分析及可信度评估计算. 2015

[14] 李敏. 基于struts2-hibernate-spring的Java Web系统国际化设计与实现[J]. 软件, 2016(2).LI M. Multi-language System Design and Implementation Based struts2-hibernate-spring[J]. Software, 2016(2).

[15] 次瑞格, 李华, 高灵美. 物业管理系统的开发[J]. 教育教学论坛, 2010, (15): 22.CI R G, LI H, GAO L M. Development of Property Management System[J]. Education Teaching Forum, 2010, (15): 22.

A Kind of Information Credibility Analysis and Evaluation in A WEB Big Data Environment

YAO Jun-ping, LI Xiao-jun, LI Xin-she, FENG Fu-jun
(Rocket Force University of Engineering, Xian 714300, China)

In the big data era, the rapid growth of information caused lots of similar and false information, that resulted the difficulties of the effective information selection. For this, the evaluation standard of information credibility is discussed, information credibility qualitative and quantitative analysis is researched with example. This paper is a preliminary exploration with the need for intelligence research subjects.

: WEB; Big data; Data mining; Information credibility

TP39

10.3969/j.issn.1003-6970.2017.10.027

本文著录格式：姚俊萍，李晓军，李新社，等. 一种面向 WEB大数据环境下的信息可信度分析与评估[J]. 软件，2017，38（10）：140-143

姚俊萍，女，(1978-），副教授，主要研究方向：信息安全；李晓军，男，(1980-），博士研究生，主要研究方向：信息安全；李新社，男，(1965-），副教授，主要研究方向：信息安全；封富君，女，(1978-），讲师，主要研究方向：信息安全。