基于随机森林的社交网络用户浏览行为数据去冗方法

2021-03-18朱毓

宁夏师范学院学报 2021年1期

朱毓

(安徽工业职业技术学院信息工程系，安徽铜陵 244000)

随着社交网络规模的不断增大，社交网络用户浏览行为挖掘受到人们的关注，通过分析社交网络用户浏览行为特征，结合优化的推荐算法，评估出社交网络用户浏览行为偏好性，从而进一步促进社交网络的发展.对社交网络用户浏览行为特征的挖掘过程中，受到冗余信息的干扰，导致对社交网络用户浏览行为特征挖掘的冗余度较大，抗干扰性不好，需要构建优化的社交网络用户浏览行为特征挖掘模型，结合优化的数据挖掘和信息融合算法，提高社交网络用户浏览行为检测和推荐能力[1].传统方法中，对社交网络用户浏览行为数据分析方法主要有一种支持数据去冗和扩容的多媒体文件云存储系统[2]、基于聚类的重复数据去冗算法[3]以及基于最大时间阈值与自适应步长的时间相关性感知数据去冗余算法[4]等，其结合相应的优化学习算法，实现社交网络用户浏览行为数据去冗处理，但传统方法在社交网络用户浏览行为数据去冗处理过程中的抗干扰性不好、特征辨识能力不强[5].

针对上述问题，本文提出基于随机森林的社交网络用户浏览行为数据去冗方法，采用随机森林学习算法实现社交网络用户浏览行为数据的收敛性控制优化，实现社交网络用户浏览行为数据去冗，展示了本文方法在提高社交网络用户浏览行为数据去冗能力方面的优越性.

1 社交网络用户浏览行为数据分析

1.1 社交网络用户浏览行为数据挖掘

为了实现基于随机森林的社交网络用户浏览行为数据去冗，首先构建社交网络用户浏览行为数据统计模型[6].

设社交网络用户浏览行为数据的本体信息和关联规则项为p，此时的社交网络用户浏览行为数据的关联规则项特征集为

FZ=p(Z1+Z2+…+Zn)，

(1)

其中，Z1+Z2+…Zn表示社交网络用户浏览行为特征挖掘节点的关联度，为了实现关联度自适应寻优，分割社交网络用户浏览行为数据[7]，设社交网络用户浏览行为特征的分割函数为

(2)

其中，a表示社交网络用户浏览行为特征挖掘的检测阈值，b表示用户浏览行为数据的自动挖掘的偏移系数，xc表示社交网络用户浏览行为特征监测点c的自适应值，实现关联度自适应寻优.以关联度寻优结果为输入，进行用户浏览行为特征分块区域融合，为辨识社交网络用户浏览行为数据的模糊度提供基础[8]，得到社交网络用户浏览行为数据的统计量

(3)

其中，α表示社交网络用户浏览行为数据的模糊度.在STARMA(1,1)网络模型中，得到社交网络用户浏览行为特征在分布结构空间中的行为数据统计结果，社交网络用户浏览行为数据分布集描述为

(4)

实现社交网络用户浏览行为数据统计模型的构建[9].

1.2 社交网络用户浏览行为自相关特征匹配

为了挖掘社交网络用户浏览行为数据的语义关联特征量，采用约束代价因子作为特征泛函[10]模型泛化条件，得到社交网络用户浏览行为数据挖掘的差异度辨识函数为

(5)

其中，β和β*分别表示社交网络用户浏览行为数据挖掘的统计特征量和边缘信息特征分量，K(yi)表示社交网络用户浏览行为数据去冗挖掘的模糊核函数，γ表示社交网络用户浏览行为数据挖掘的推荐门限.

以模糊核函数取值范围为约束条件，得到社交网络用户浏览行为数据的随机离散度特征分量，定义Ci为社交网络用户浏览行为数据在有向图qi中的节点集合，设置

(6)

其中，r表示社交网络用户浏览行为数据挖掘的特征分布长度，k表示辨识度参数，l表示社交网络用户浏览行为数据挖掘的瞬时时间频率，λ表示特征辨识度[11].定义社交网络用户浏览行为数据挖掘的可靠性特征参量为A，则t时刻得到社交网络用户浏览行为数据检测的概率密度函数为

(7)

其中，j表示社交网络用户浏览行为数据挖掘的特征提取结果，根据特征提取结果，挖掘社交网络用户浏览行为推荐的约束参数，结合自相关特征匹配方法，实现自相关特征匹配[12].

2 数据去冗处理优化实现

传统社交网络用户浏览行为数据去冗实现流程如图1所示.

图1 社交网络用户浏览行为数据挖掘去冗实现流程图

本次研究在传统标签式去冗方法的基础上，对加粗部分进行优化.

2.1 冗余信息滤波

采用随机森林学习算法进行社交网络用户浏览行为数据去冗优化时，分析社交网络用户浏览行为数据特征分布的节点与语义相似度特征点的匹配度，在上述研究的基础上，此时的社交网络用户浏览行为数据去冗的随机森林学习过程为

N=1+ln[Pi(t)].

(8)

为了得到社交网络用户浏览行为数据的有向特征分量的收敛控制函数，通过社交网络用户浏览行为数据的特征映射分析结果，进行社交网络用户浏览行为数据去冗，其中，滤波函数H为：

H=u(t)exp[N(t-t0)]，

(9)

其中，u(t)为收敛控制函数，t0为社交网络用户浏览行为去冗时长，以该时长为限制性条件，计算社交网络用户浏览行为数据的冗余节点与关联词的匹配度，得到随机森林学习的特征映射[13]，根据对社交网络用户浏览行为数据的随机森林学习结果，实现数据冗余信息滤波.

2.2 社交网络用户浏览行为数据去冗优化

以上分析结合了匹配滤波检测方法，实现对社交网络用户浏览行为数据冗余滤波处理，但是根据隶属度与非隶属度的相关性关系，社交网络用户浏览行为数据滤波的返回状态w不确定，难以得到冗余信息输出检测序，因此，采用形状相似性特征分析的方法，设社交网络用户浏览行为数据滤出的演化特征量为ξi，根据随机森林学习结果，得到优化的数据滤除目标函数为

(10)

其中，ξi表示最小的关联度信息，根据模糊多属性决策结果，得到社交网络用户浏览行为的冗余滤波的混合核函数，其表达式为

(11)

其中，Kpoly表示社交网络用户浏览行为数据挖掘的偏好核函数，提取社交网络用户浏览行为数据挖掘的本构特征量，得到隶属度集合的决策函数为

Q=Kmin×m(z)，

(12)

其中，m(z)表示社交网络用户浏览行为数据去冗的用户项目评分值.根据上述分析，结合匹配滤波检测方法，实现对社交网络用户浏览行为数据冗余去除.

具体算法流程图如图2所示.

图2 改进算法的实现流程

3 仿真测试分析

为了验证本文方法在实现社交网络用户浏览行为数据去冗的应用性能，进行实验测试分析，采用Matlab实现社交网络用户浏览行为数据去冗的仿真程序设计，在TwitterSentiment Analysis 中采集3000个社交网络用户浏览行为数据，因为森林中任意两棵树之间的相关性越高，错误率越大，所以在训练样本集中进行有放回的采样时，即在尽量保留原数据间相似度的情况下，为了将测试数据集映射到最低维下，使数据间相关性越高，数据分类能力越强，设随机森林学习的迭代次数为60，那么此时对于类别不平衡数据，为了平衡误差，相似度系数要小于0.5，设为0.35，样本大小规模为3000，数据冗余的干扰强度为-20 dB，根据上述参数设定，进行社交网络用户浏览行为数据仿真，得到原始的社交网络用户浏览行为数据如图3所示.

图3 原始社交网络用户浏览行为数据

以图3的数据为测试对象，进行社交网络用户浏览行为数据去冗处理，得到去冗结果如图4所示.

图4 社交网络用户浏览行为数据去冗结果

分析图4得知，以浏览行为数据在实、虚轴的幅值收敛性为去冗效果表现形式，采用本文方法实现社交网络用户浏览行为数据去冗的性能较高，对冗余数据的去冗效果较好.

以输出信噪比为测试指标，测试社交网络用户浏览行为数据去冗的效果，得到对比结果见表1.

表1 社交网络用户浏览行为数据去冗的输出信噪比(单位：dB)

由表1可知，在与文献[2]和文献[3]方法的对比过程中，本文构建社交网络用户浏览行为推荐的约束参数，结合匹配滤波检测方法，对社交网络用户浏览行为信息进行滤波，预先滤除了信噪比较低的信息，其输出信噪比较高，数据去冗效果得到保证.

4 结语

结合优化的数据挖掘和信息融合算法，提高社交网络用户浏览行为检测和推荐能力.本文提出基于随机森林的社交网络用户浏览行为数据去冗方法，根据社交网络用户浏览行为数据的特征提取结果，采用随机森林学习算法对社交网络用户浏览行为数据中的冗余信息进行过滤，并结合形状相似性特征分析方法，实现了社交网络用户浏览行为数据的模糊信息融合，输出峰值信噪比较高，最终去冗性能较好.