APP下载

基于在线评论和改进LDA模型的新闻传播推荐技术研究

2020-10-13张晶晶刘烨

现代电子技术 2020年19期
关键词:在线评论新闻传播

张晶晶 刘烨

摘  要: 通过分析新闻传播推荐技术现状,发现传统技术在相关分析计算时,未处理缺省值,导致推荐结果覆盖率低。为了解决这一问题,提出基于在线评论和改进LDA模型的新闻传播推荐技术。运用余弦距离计算法计算在线评论新闻传播特征关联度,再运用LDA模型设定阈值,用于预测LDA新闻传播主题相似度。完成上述操作后,选择最大相似用户群,并得到用户群特征词权值,再采用协同方法将该值代入到推荐模型当中,生成推荐结果。由此,完成基于在线评论和改进LDA模型的新闻传播推荐技术设计。实验数据集选自DataCastle,将数据集分成训练集和测试集,每次实验都要从测试集中随机抽取10组用户,并选取最后传播的15篇记录作为实验数据,最后,使用提出技术与传统技术测试这10组数据集生成推荐结果的覆盖率。实验结果显示,提出技术的覆盖率更好,且符合设计需求。

关键词: 新闻传播; 在线评论; LDA模型; 推荐结果生成; 相似度预测; 关联度计算

中图分类号: TN911.1?34; TP391.3                 文献标识码: A                   文章编号: 1004?373X(2020)19?0115?03

Abstract: After analyzing the current situation of news propagation recommendation technology, it is found that the traditional technology did not process the default value in correlation analysis and calculation, which leads to low coverage rate of recommendation results. Therefore, the research of news propagation recommendation technology based on online comment and improved LDA (latent Dirichlet allocation) model is put forward. The cosine distance method is used to calculate the news propagation feature correlation degree based on online comment, and then the LDA model is used to set the threshold value for the prediction of topic similarity of LDA news propagation. After completing the above operations, the largest similar user group is selected to get the feature word weight of the user group, and then the weight is introduced into the recommendation model with the coordinative approach for the generation of recommendation results. On the basis of the above, the design of news propagation recommendation technology based on the online comment and improved LDA model is completed. The experimental data sets are selected from DataCastle and divided into training set and test set. In each experiment, 10 groups of users are randomly selected from the test set, and the last?propagated 15 records are selected as the experimental data. The coverage rate of the recommended results generated by the 10 groups of data sets is tested with both the proposed technology and the traditional technology. The experimental results show that the coverage rate of the proposed technology is better and can meet the design requirements.

Keywords: news propagation; online review; LDA model; recommendation result generation; similarity prediction; correlation degree calculation

0  引  言

新闻传播推荐技术属于数据挖掘与信息检索等领域,学术界对于该技术的相关研究主要有主题检测与跟踪项目。跟踪项目是通过识别新闻传播数据流主题得到推荐结果,该技术具有两种功能,可分析多语言文本和语音形式的新闻报道;可完成主题自动跟踪和检测突发性新闻主题等相关任务。

常用的三种推荐技术有:

1) 基于协同过滤模型的推荐技术,这是由Das提出的,先对用户进行聚类,在类内确定目标用户,这样可以有效提高该技术的可扩展性。但该技术存在一个漏洞,在相关分析计算时,无法很好地处理缺省值[1]。

2) 基于内容的新闻传播推荐技术,通过分析用户感兴趣的项目,运用相关算法得到推荐结果,再将相似度较高的项目推荐给用户。但该技术存在一些无法规避的问题,它只能推荐文本,无法推荐音乐和视频。

3) 结合协同过滤模型和内容的一种推荐技术。但该技术有一些固有缺陷,无法精准地筛选出用户感兴趣的新闻主题。

为此,针对上述现状,本文提出基于在线评论和改进LDA模型的新闻传播推荐技术。详细设计过程如下。

1  在线评论新闻传播特征关联度计算

首先获取在线评论新闻传播的突发情况,再计算特征关联度,计算过程如下:

当某一新闻事件发生时,相关特征的轨迹上就会表现出一定程度的突发事件,若这些特征出现在同一新闻主题中,就要遵循以下两个原则:

1) 新闻传播特征、突发事件和突发轨迹具有一定相似性[2]。

2) 新闻传播特征与特征轨迹所在文档的重合度较高。

依据上述两个原则,采用余弦距离计算法求新闻传播特征与突发轨迹的关联度,表达式为:

式中:[fi]表示第[i]个新闻传播特征;[fj]表示第[j]个新闻传播特征所在文档的突发轨迹;[b]表示约束条件,文档重合度为[t]的环境下的特征值[3]。

应用式(1)计算新闻传播特征与突发轨迹的相似性。记[Di]和[Dj]是[fi]和[fj]的文档特征集合,定义[fi]和[fj]的集合最优关系最小值为:

应用式(2),在取得最小值的条件下,得到[fi]和[fj]的集合最优关联度[4?5]。

2  LDA新闻传播主题相似度预测

基于在线评论得到的新闻传播特征关联度可能是稀疏的,为了提高新闻传播特征关联度,提出LDA模型预测,这样可以缩小两个新闻传播主题的相似度,扩大两者的集合范围。

运用LDA模型设定一个阈值,LDA模型框架图如图1所示。

将余弦切换法引入LDA模型当中,用于切换不同的相似度:

式中:[a]表示相似度比重;[T]表示主题评分矩阵相似度;[u]表示评分数量;[v]表示评价个数[6]。运用式(3)得到新闻传播主题评分矩阵的相似度,[a]是用来控制相似度所占比重的。在计算的过程中,若[a]的取值大于0.5,说明得到的相似度矩阵是不可用的,无法完成切换;若[a]的取值为0,说明得到的相似度矩阵是可用的,可以切换不同的新闻传播主题;若[a]的取值为1,说明未求解到合适的相似度矩阵,无法用于新闻传播相似度预测[7]。

3  LDA新闻传播推荐模型

基于在线评论计算新闻传播特征关联度,再根据关联度定义公式,求得关联度值[8]。因新闻传播特征关联度是稀疏的,会影响推荐结果,在LDA模型中引入余弦切换法预测新闻传播主题相似度。最后,为解决上文所说的缺陷,基于在线评论和改进LDA模型构建新闻传播推荐模型[9],建模过程如下。

首先,通过式(1)求得目标用户与其他用户的最优关联度作为相似度,选择目标用户相似度中最大的相似用户群[10]。再将所有的用户兴趣模型看作一个特征词权值矩阵,用于计算目标用户的兴趣度,由此,得到目标用户的潜在推荐模型,如图2所示。

设目标用户相似用户群为[U=v1,v2,…,vi],其中,[U]表示目標用户。设[w]表示任意用户的相似度[11]。运用式(4)计算[U]在推荐模型中的特征词权值:

得到特征词的权值后,采用协同方法构建推荐模型为:

上述变量同式[12](2)。考虑到推荐模型中目标用户在多样性上的需求,在推荐模型中选取最大的特征词[13]。LDA新闻传播推荐模型运行流程如图3所示。

得到LDA新闻传播推荐模型后,用改进的LDA模型生成推荐结果[14]。采用LDA模型中的余弦相似度计算公式,求得推荐模型与新闻传播文本特征的相似度后,会得到两种结果:一种是通过相似度排序得到的;另一种是根据先前的反馈得到的[15]。这两种结果皆可使用。

由此,完成基于在线评论和改进LDA模型的新闻传播推荐技术研究。

4  仿真实验

为测试所提的基于在线评论和改进LDA模型的新闻传播推荐技术设计的合理性,设置对比实验,实验过程如下。

4.1  实验数据

实验中所选取的数据集是DataCastle提供的,该数据集中包含10 000名用户,在本次实验中,随机选取这10 000名用户在3月的新闻浏览记录,记录中包含用户的编号和浏览时间等。数据集详细内容如表1所示。

在实验过程中要统一处理,将数据导入数据库当中,数据提取与推荐结果是使用Java语言编写程序完成的。将推荐结果导入数据库后,要对比用户实际浏览情况,实验指标是采用改进的LDA模型计算得出的。

4.2  实验过程

将选取的数据集分割成两个部分,分别为训练集和测试集,将新闻传播数量大于15篇的用户取出来,作为测试集,剩下的作为训练集。每一次实验都要从测试集中随机抽取10组用户,一组包含400名用户,实验选取这10组用户最后传播的15篇传播记录,将传统的新闻传播推荐技术与基于在线评论和改进LDA模型的新闻传播推荐技术推荐出来的结果相对比,得到所用技术与传统技术的覆盖率,实验次数设置为10次,实验结果取平均值作为最终的实验结果。覆盖率越高,说明该技术的推荐效果越好。

4.3  实验结果

基于在线评论和改进LDA模型的新闻传播推荐技术与传统的新闻传播推荐技术覆盖率对比结果,如图4所示。

由图4可知,使用本文提出的基于在线评论和改进LDA模型的新闻传播推荐技术相比传统的新闻传播推荐技术的覆盖率更高,证明带有LDA模型和在线评论的新闻传播推荐技术的有效性。

5  结  语

通过概述新闻传播技术的现状,提出基于在线评论和改进LDA模型的新闻传播推荐技术。本文选用的LDA模型具有两种个性化推荐功能:一种是自适应导航功能;另一种是自动推荐功能。故选用该模型设计新闻传播推荐技术。基于在线评论和改进LDA模型的新闻传播推荐技术的主要贡献在于:该技术可针对新闻传播列表建立特征数据流集合;可检测不同突发时间的特征和轨迹;可计算出新闻传播特征与突发轨迹的关联度;可以预测突发事件的相似度。

在设计过程中,发现本文技术依然存在以下几个问题:未考虑用户兴趣与时间变化的相关性;未考虑当前时间与未发布时间的误差;用户矩阵的稀疏性仍然是一个很大的问题,这会严重影响本文技术的推荐效率。在后续研究中,要针对上述问题开展进一步研究。

参考文献

[1] 蒋建洪,王珂.基于SA?LDA模型的美食热点发现研究[J].美食研究,2017,34(4):32?37.

[2] 何旭峰,陈岭,陈根才,等.基于LDA主题模型的分布式信息检索集合选择方法[J].中文信息学报,2017,31(3):125?133.

[3] 刘畅,张一珂,张鹏远,等.基于改进主题分布特征的神经网络语言模型[J].电子与信息学报,2018,40(1):219?225.

[4] 许腾腾,黄恒君.一种改进的Supervised?LDA文本模型及其应用[J].计算机工程,2018,44(1):69?73.

[5] 冯勇,屈渤浩,徐红艳,等.融合TF?IDF和LDA的中文FastText短文本分类方法[J].应用科学学报,2019,37(3):378?388.

[6] 郭亚,宫叶云,张奇,等.基于主题模型的微博转发行为预测[J].中文信息学报,2018,32(4):130?136.

[7] 程磊,高茂庭.结合时间加权和LDA聚类的混合推荐算法[J].计算机工程与應用,2019,55(11):160?166.

[8] 卢竹兵,李玉州.基于网络评论情感信任分析的推荐策略[J].计算机科学,2019,46(6):75?79.

[9] 原渊.Mahout策略下矿井监控视频异常行为推荐[J].煤炭技术,2017,36(10):218?220.

[10] 姚凯,涂平,陈宇新,等.基于多源大数据的个性化推荐系统效果研究[J].管理科学,2018,31(5):3?15.

[11] 谢振平,金晨,刘渊.基于建构主义学习理论的个性化知识推荐模型[J].计算机研究与发展,2018,55(1):125?138.

[12] 李树青,庄光光,秦嘉杭,等.借阅场景下图书专业性质量测度方法和图书个性化推荐服务方法[J].图书情报工作,2018,62(11):53?63.

[13] 余永红,高阳,王皓,等.融合用户社会地位和矩阵分解的推荐算法[J].计算机研究与发展,2018,55(1):113?124.

[14] 李裕礞,练绪宝,徐博,等.基于用户隐性反馈行为的下一个购物篮推荐[J].中文信息学报,2017,31(5):215?222.

[15] 丁梦晓,毕强,许鹏程,等.基于用户兴趣度量的知识发现服务精准推荐[J].图书情报工作,2019,63(3):21?29.

猜你喜欢

在线评论新闻传播
在线评论情感属性的动态变化
当传播遇上新技术,媒体人需怎样的新闻坚守?
运用科技手段提升传播力
新闻传播专业硕士产学对接路径重构
消费者个体行为偏好对在线评论真实性的影响机理研究