网络信息筛选

2017-10-21吴娜

科技风 2017年8期

摘要：互联网的飞速发展的今天，如何判断信息的真假，快速准确地查找到用户所感兴趣及更有价值的信息是本文的研究重点。根据砂的筛析试验，对现有的筛选方法进行层层递进，并结合用户对信息的兴趣度，信息的类别等查找用户感兴趣的和真实消息。同时类比爱情模型评分标准观测用户对信息的兴趣度，分数越高表明兴趣度越大及用户感兴趣的模型。

关键词：过滤筛查；认知；信息流；兴趣模型

1 筛析模型

互联网时代的到来，人们每天都接收着数以万计的信息。本文假设初始互联网网络节点都是可信的。信息的分享只需要足够的数据包传输就行了。然而随着互联网的迅速发展，网络节点的可信度有待考虑从而产生了大量的虚假信息，并被广泛传播。为提升真实信息的辨识度，本文借鉴砂的筛析实验对信息的选择同样采取从上到下层层筛选将有害信息及干扰信息的影响降到最小，从而达到降低信息杂质并最大限度的得到最有价值。在信息流传播的过程中，依次通过内容过滤，社会过滤，以及关键词过滤，从小到大，层层筛选。

1.1 内容过滤

通过信息接受者和信息内容的特征人工智能的将两者进行匹配，它是通过信息潜在接受者对信息需求的匹配。基于內容理解的过滤是对获取的网络信息内容进行识别、判断、分类确定其是否为需过滤的目标内容并对已确定的目标内容进行过滤等检测控制的技术。

1.2 社会过滤

通过个体和群体之间的联系进行过滤。其是在存在与目标用户兴趣相似的其他用户的基础下，将其他兴趣相似用户的内容推荐给目标用户。与基于内容的过滤的方式不同，它不需要任何文档内容的信息数据，它基于相似兴趣用户的使用模式而不需要其他任何文档内容的数据包传输。

所谓的兴趣度指用户对信息感兴趣的程度。选择0-10之间的整数，0表示完全没有兴趣，10表示特别感兴趣。把用户感兴趣的信息具体化为其对某一信息的评分向量。通过具体分数的大小协作过滤信息。其具体实现方法是利用系统匹配技术找到当前用户的相似其他邻居用户，然后以邻居评分标准产生相关推荐。

假设有M个用户和N项资源，则一个用户对资源的兴趣可以表示为一个M×N的矩阵R。其中每一项Rmn=r表示用户m对资源n的评分为r，如果Rmn=NULL，则代表用户m对资源n没有评分。

1.3 关键词过滤[ 1 ]

从信息中选取具有二值逻辑的特征变量来描述信息。特征变量之间用逻辑词与、或、非连接。若俩关键词同时包含在过滤文档中则可通过布尔操作生成特征变量的表达式。反之，若两关键词用布尔操作符相关联则表示两者之中有一个包含在过滤文档中。布尔操作就是用一系列的差与和来完成。

假设规则关键字集合为H=（a1，a2，…，an），则扩充后可表示为H=（H（a1），H（a2），…，H（an）），其中H（ai）（i=1，2，…，n）是词典中与具有与a1相同语义的词语集合。增加扩充项就增加了同义词匹配的机会有利于截获同义不同形的相关文本从而提高查全率。

1.4 信息过滤

针对以上几种信息过滤的优缺点及信息可信度，为此我们结合几种过滤方法即对过滤方式的权值求和。即：

N=α*I1+β*I2+γ*I3

其中I1是内容过滤的兴趣预测值，I2是社会过滤内容预测值，I3关键字匹配预测值，其中α+β+γ=1。

其利用内容过濾的优点，使在没有用户或用户很少的情况下，能够向用户推荐信息，同时也考虑社会过滤的优点，当用户数和评价级别数很多时，提高过滤结果的准确度，并结合布尔过滤的优点对关键词的内在联系进行了加强。这样通过这种综合过滤可以提高整个过滤系统的性能。由于几种过滤技术之间没有很强大的内在的依赖性，尤其当某种过滤技术得到改进后，系统整体性能就会提高。另外，此方法具有健壮的扩展性，它综合了传统过滤系统的优点，只需预测时在原来加权项的基础上进行累加，使过滤更准确。此外结合基于价值的过滤，可以使预测时间缩短，实时的反映用户需求[ 2 ]。

2 兴趣信息

互联网时代的到来，用户每天都接收着数以万计的信息。互联网网络节点在初始都是可信的。所以信息的分享只需要足够的数据包传输就行了。然而随着互联网的迅速发展，网络节点的可信度有待考虑从而产生了大量的虚假信息。

英国心理学家、数学家和人际关系专家提出了一个终极恋爱数学模型，让男女推算自己和心仪的对象是否能让爱情开花并结出幸福之果。这个由专家推导的爱情模型是：

爱情=[（F+Ch+P）/2+3（C+I）/10]/[（5-SI）2+2]

其中，Q自己对对方的好感，W对方的魅力，E吸引异性的内分泌物，C本人自信心，D亲密度，H形象。

恋情测试者可对每个指标分别评分，自我形象SI评分为1至5，其它评分为1至10。将相应的值代入后，若总分介于8至10分之间，极有可能热恋；6至7分感情平稳；4至5分感情冷淡；低于4分不大可能有爱情。

基于此，本文用爱情模型来模拟人类对信息兴趣的模型，其中Q是信息的形式及种类，W是用户初次印象，E用户对其求知欲，C信息对用户的重要度，D用户与信息的关联度，H是该地区或国家的的拓扑结构和力量。其评分标准与爱情模型中各项分值相同，若总分介于8至10分之间，用户对该信息兴趣极高；6至7分对该信息兴趣一般；4至5分代表兴趣冷淡；低于4分则代表该信息不会引起人类的注意，即该信息不会传播广泛。

3 评价

互联网的使用根植于社会的各个角落，人们每天接受数以万计的网络信息。因此网络信息深刻的影响人们对社会的认同感。提高信息查找的准确度以及信息传播的真实信刻不容缓。对于信息查找的准确度筛析模型虽然能够结合几种传统模型的优点，但其应用不够灵活，极有可能过滤掉有效信息。而对于兴趣信息的传播，虽然类比了爱情模型，但是爱情模型是非线性的，两者数据处理方法的差异太大。且该模型过于刻板，加权系数皆为整数。

参考文献：

[1] 何静，刘海燕，宫云战.内容过滤中过滤模版的改进技术研究[D].2003，2：28.

[2] 王翠萍.基于用户兴趣度网络信息过滤模型研究[D].2007：30-31.

作者简介：吴娜（1995-），女，汉族，湖北黄冈人，西北民族大学数学与计算机科学学院，2104级本科生，研究方向：数学与应用数学。