APP下载

基于无限深度神经网络的Web大数据协同过滤

2021-11-17张志勇张红良

计算机仿真 2021年9期
关键词:权值神经元神经网络

葛 涵,张志勇,张红良

(北华大学文学院,吉林 吉林 132013)

1 引言

互联网用户快速增长与网络数据规模不断扩大,使人们从信息匮乏时代逐渐步入信息化时代,同时促使了Web社区层出不穷,作为社交网络的关键组成部分,其发展速度持续高涨。Web本意指蜘蛛网与网的意思,在网络中称其为网页。越来越多用户因为兴趣汇集到Web社区中。在满足人们互动需求的同时也带来了信息过载问题,因此,推荐系统应运而生。信息创造者竭尽全力让自己生产的信息在网络中脱颖而出,获得更多关注;同时,用户也通过该系统获取感兴趣的信息。为改善推荐效果,提高用户满意度,数据过滤算法显得尤为重要。

邢长征[1]等人将填补算法与改进的相似度算法相结合实现大数据协同过滤。首先采用填充方法任意填充部分数据,并在预测评分时融入项目属性信息;再利用相似度方法,根据迭代多次后项目评分高低完成最终过滤。陶维成[2]等人提出灰色聚类协同过滤算法。定义推荐系统中用户项目评分矩阵、灰色绝对关联度与相似度等;确定灰色关联聚类协同过滤算法计算步骤;最后将不同算法在规模不同的数据集下进行实验。

上述两种数据过滤算法改善了推荐系统性能,但是依旧存在数据稀疏等问题,导致数据过滤不够全面,进而降低用户体验。为此,本文利用无限深度神经网络算法实现Web大数据的协同过滤。深度神经网络(Deep Neural Network,DNNs)与其学习方法,作为成功的数据分析算法,已经被各行业所熟知。和传统算法相比,深度学习可以自动从数据中获取特征,对形式多变的大数据具有较好的特征提取效果。而协同过滤可以实现基于内容的信息自动分析。将二者相结合可有效改善数据稀疏问题,同时提高算法的可扩展性,解决个性化推荐系统发展与应用瓶颈。

2 无限深度神经网络

2.1 网络拓扑结构

现阶段深度神经网络一般指存在一定深度的前馈网络[3],其特征是相同层次神经元之间不存在任何反馈连接,即没有时间参数属性,因此比较适合处理静态信息。而本文利用的无限深度神经网络则是一种完全互连形式的回复式神经网络,不同神经元可实现反馈连接。同时将此种反馈结构在时间维度中展开,随着时间推移,网络能够“无限深”。其本质属于一个动力学系统,可以对与时间相关的动态数据加以处理,

针对无限神经网络中所有神经元来讲,其包括三种连接方式:神经元和全部外部输入之间的连接、和其余全部神经元的连接、与自身的反馈连接。图1与图2分别展示了存在三个神经元、两个外部输入的网络拓扑结构。

图1 具有三个神经元的网络结构图

图2 存在两个外部输入的网络拓扑图

假设某无限深度网络包含m个外部输入与n个神经元,设定x(t)=(x1(t),x2(t),…,xm(t))T表示网络在t时间点上的外部输入,y(t)=(y1(t),y2(t),…,yn(t))T代表t时间点上n个神经元输出值。因此能够得出,某神经元k在t+1时间上得到的总输入sk(t+1)包括x(t)与y(t)两部分。

假设w属于网络连接权值[4],它是一个n×(n+m)矩阵,可令w=[wU,w1],wU代表各神经元之间连接权值,w1为神经元和网络外部二者的连接权值,则t+1时刻神经元的总输入表示为

s(t+1)=wUy(t)+w1x(t)

(1)

式中,s(t+1)=(s1(t+1),s2(t+1),…,sn(t+1)),则t+1时刻神经元k的输出公式[5]表示为

yk(t+1)=fk(sk(t+1))

(2)

式中,fk代表神经元k的激活函数。

为方便分析,将无限深度神经网络反馈结构在时间维度上进行展开。假定某网络N从t0时间点运行,任意一个网络N均被展开为前窥式网络N*中内一层。N*中所有层都具备n个神经元,并且和该时间点的网络N存在相同的活动值。

针对任意τ≥τ0,网络N中神经元j和τ+1层神经元i之间的连接权值wij被复制为网络N*中τ层神经元j和τ+1层神经元i之间连接权值wij(τ+1)。

随时间推移,N*的深度能够“无限深”,此种状况下将网络称作无限深度网络。

2.2 学习过程

神经网络的计算性能主要通过连接权值进行表现,所以,学习算法[6]即为调整网络权值的方法,利用公式表示为

wnew+wold+Δw

(3)

权值调整目的是为使网络学习到一些知识,帮助完成计算任务。一般将计算任务量化成对性能函数J(w)的优化,所以

wnew=wold+α∇wJ

(4)

式中,α表示学习速度,∇wJ代表性能函数在参数空间内梯度[7]。

通常来讲,以某个学习任务为例,在t时刻,网络中存在外部输入x(t)与目标输出d(t)。利用T(t)描述目标输出是dk(t)的神经元集合。则t时刻网络中神经元k的实际输出和目标输出二者误差计算公式如下

(5)

神经网络在t时刻的性能函数描述为

(6)

设定网络运行的起止时间分别表示为t0与t1,而在时间[t0,t1]区间内,网络整体性能函数表达式为

(7)

对于上述性能函数,必须通过一定方法对其训练,减少误差,提高网络性能。本文利用反向传播算法(Back Propagation,BP)对网络进行训练。该算法的限制条件为网络中所有神经元结点的激活函数一定是可微的,是一种有监督的学习方法。

已知设计好的神经网络中(W,b)为确定的,利用oout(x)代表输出层的最终输出,则神经网络训练过程如下

(8)

由式(8)可知,神经网络将多个结点进行连接,展现了正向传播过程。

如果用作训练神经网络的集合中包括N′个训练样本{(x(1),y(1)),…,(x(N′),y(N′))},则其目标函数表示为

(9)

(10)

经过上述训练,网络隐藏层中所有的输出不再敏感,减少误差,降低网络学习复杂度。

3 Web大数据协同过滤

利用上述训练好的无限深度神经网络分别对Web大数据的权重、梯度以及相似度进行计算,评价各个数据并进行排序,将排序靠后的大数据进行过滤。

3.1 权重

浏览次数可以体现出用户对不同数据的感兴趣程度,假设用户u对Web大数据O的兴趣度数值随O被其他用户浏览次数增而增加,同时又随浏览频率呈现反比下降趋势。则可使用TF-IDF算法,结合浏览次数获取用户对大数据感兴趣程度。

TF-IDF为一种估计字词对于某文件集合中一份文件重要程度的算法。它能够预测K′维空间内目标在某维度上的重要性。假设将推荐系统内任意用户当作一个文档,被用户浏览的大数据为文档中某一词汇,针对词汇出现次数来获得用户对该数据的喜好程度。

(11)

(12)

因此获得用户对数据权重的定义式

(13)

3.2 梯度

用户对不同类型数据浏览次数存在较大差异。浏览次数能够无限增加,同时对于浏览次数为零的数据,用户也不一定不使用,可能是并无使用情况。为通过浏览次数更加科学的体现数据功能,避免海量信息将用户对其它数据的使用情况忽略掉,本文为用户没有浏览的数据定义一个初始值,并引入Sigmoid函数对浏览次数进行标准化处理,获得数据功能梯度。

Sigmoid函数为一个常见的S型函数,其定义式如下

(14)

此函数连续、光滑单调,并且其取值范围为(0,1),同时关于(0,0.5)中心对称,属于一个性能较优的阈值函数。在区间(-∞,0]中表现出现慢后块的非线性增长趋势,且在[0,+∞)区间中的增长态势为先快后慢。

(15)

3.3 相似度

(16)

4 仿真分析

为分析基于无限深度神经网络的Web大数据协同过滤有效性,选取Intel Core i36100,16GB RAM的配置处理器进行仿真。仿真过程中全部程序均利用Matlab实现。采用标准Web数据集作为研究目标,其中包含20000个用户与25000条数据。由于数据规模较大,选取其中20%进行仿真。此外,将文献[1]、文献[2]算法与本文协同过滤算法,通过F-measure评价指标进行性能评价。

F-measure是信息检索领域常用的评价标准,其中包括查全率(Recall)与准确率(Precision),计算公式分别如下

(17)

(18)

公式中,E(u′)与F(u′)分别代表训练与测试集合的过滤列表。

利用三种方法对实验数据进行过滤,再通过推荐系统将过滤后的数据推荐给用户,获得查全率与用户满意度结果分别如图3和4所示。

图3 查全率对比图

图4 用户满意度对比图

由图3和4可知,通过本文方法过滤后的数据查全率较高,这是因为本文通过计算用户兴趣度与功能兴趣度,全面掌握用户喜好,解决数据稀疏问题,提高查全率。此外,在不同数据量下F-measure值也远高于其方法,表明推荐效果良好,证明神经网络模型具有超高性能,可减少过滤误差,满足用户浏览需要。

除上述对比外,对不同方法响应时间进行测试,进一步增强所提方法实验结果的说服力。

图5 不同方法响应时间对比图

从图5中可以看出,本文方法随着邻居数量的增加,系统响应时间并没有明显上升趋势,始终低于其方法。这是由于无限深度神经网络学习过程较为简便,减少计算用户喜好程度的时间,实现高效过滤,进而减少系统响应时间。

5 结论

由于数据规模的不断扩大,传统过滤算法出现数据稀疏等问题。因此,本文利用无限深度神经网络预测用户对数据内容与功能的兴趣度,根据兴趣度高低实现Web大数据过滤。仿真结果表明,该方法查全率高,可改善数据稀疏现象,提高用户满意度。从当前发展来看,利用神经网络技术建立过滤算法来提高推荐系统吞吐量是一个具有重要意义的研究方向,后期将在更大规模数据集中对算法的可拓展性进行测试,使其实现并行化。

猜你喜欢

权值神经元神经网络
基于神经网络的船舶电力系统故障诊断方法
基于人工智能LSTM循环神经网络的学习成绩预测
MIV-PSO-BP神经网络用户热负荷预测
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
这个神经元负责改变我们的习惯
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
研究人员精确定位控制饮酒的神经元
财务风险跟踪评价方法初探
基于洪泛查询的最短路径算法在智能交通系统中的应用