APP下载

基于社会标签的视频推荐系统的研究

2021-06-16刘天成

电子制作 2021年4期
关键词:浏览量权值标签

刘天成

(上海市川沙中学,上海,201299)

0 引言

在这个信息流动迅速的时代,视频作为人们快速获取信息和娱乐的渠道,被人们所喜爱。随着大量的视频网站的发展,每天用户都有大量的视频可以观看,而其中有些不符合他们的兴趣,有些则是质量偏低。同时,推荐系统的日臻完善,使得帮助用户找到自己想要的视频变得简单,而不需要自己花费大量时间去寻找。

网络的社会化趋势产生了越来越多的社会化标注系统[1],当用户给视频添加过标签后,便可以匹配相似标签来匹配,但其系统还存在可信度低,准确度低等问题。基于通用标签及其上的特定标签的推荐系统便是本文研究的主要系统,而解决系统的问题及对其提出创新便是本文的研究意义。

推荐系统是指对用户的兴趣进行研究后,对其进行个性化推荐,个性化推荐技术,指的是系统智能获取用户的行为数据,进而主动给用户推荐他们感兴趣的信息[2]。这种技术的想法最早出现在1992年,发展至现在,主要的推荐系统有:协同过滤推荐系统,基于内容的推荐系统等。

推荐系统能帮助用户找到自己想看的视频,而本文研究的方法便是基于社会标签的推荐系统,当下的社会标签主要由用户和作者及专家群体来提供,通过匹配标签便能实现推荐,

但其系统也存在明显的缺陷,因为标签是由用户创造和添加的,导致用户可以写出他想表示的标签而非真正符合视频的标签,有些标签甚至会误导视频所包含的真正内容,造成了可信度低,标签数量庞大,不方便匹配等问题,最终会导致系统承受巨大的负担,且会经常出现错误推荐。

1 视频推荐系统概述

■1.1 协同过滤视频推荐系统

协同过滤推荐系统分为基于用户和基于物品,基于用户的协同过滤推荐(UserCF)研究的是用户间的关系,其在视频推荐系统中的作用是匹配兴趣相似的用户,给当前用户推荐他没有见过但另一用户见过的视频。基于物品的协同过滤推荐(ItemCF)是根据用户给物品的评分来匹配物品间的相似度而进行匹配的,其在视频推荐系统中是匹配视频的相似度来进行推荐的,其主要缺点为对于数据量有十分高的要求,缺少数据就会导致推荐不精确。

■1.2 基于社交网络的视频推荐系统

基于社交网络的推荐的核心是把握用户之间的信任关系的度量,起因是学者发现好友的推荐往往会被重视,通过研究人的重要性,人与人之间的交往关系,匹配其相似度来进行推荐。个性化的好友推荐是基于两个特征来研究的:用户间共同好友和用户间的相似性[3]。2017 年,胡云等人提出了一种综合评分和信任关系的社会化推荐算法,解决了用户特征向量的精准构建及信任传递问题[4]。

■1.3 基于标签的视频推荐系统

此系统的基础是社会标签,来源于用户为物品所给出的标签,本文定义该标签为通用标签,其劣势主要为:不精确,较为混乱。在这种标签之上,还有一些特定标签,其来源于专家或作者所给出的标签,这类标签相比通用标签精确度更高,但它也存在一定缺点,比如专家及作者只考虑专业方面却忽视了用户对其的看法,导致标签并不适应大众。

2 基于通用标签的视频推荐系统

■2.1 通用标签的作用

视频因其内容难以由系统概括而在推荐的时候显得尤为困难,系统不能自主判断视频的分类,因此,需要其他人来帮忙给出标签,本章主要研究由用户给出的标签,而此举动包含了两个部分,其一是用户添加标签的行为,另一是对于一个视频的标签,这两方面分别对于用户自身的兴趣研究以及视频的信息概述都有很大的帮助。

■2.2 标签关于自身兴趣的兴趣预测

用户添加标签,可以反应自身的兴趣,用户添加标签的这个举动,表现的是用户对于此视频很关注,也对于视频中的内容很清楚,继而可以推断其对于同一类的视频都会有一定的兴趣,那么继续匹配具有相似标签的视频,便可以形成推荐,大大降低了推荐的难度。进一步根据该行为进行推荐的方法是,根据用户给出的标签进行匹配,匹配相似标签,具体方法如下:

该算法用来计算该标签与用户的关联性,其中,u表示用户,a表示一个特定标签,times 表示被使用的次数,r表示任意标签,all 表示用户所标注过的全部标签,relation的值越大,就说明用户与这个标签的关联性越大,那么就可以籍此继续推荐类似的标签,可以用协同过滤系统进行进一步的匹配,把有相似标签的视频推荐给该用户。

该系统在遇到兴趣面较为广泛却很少添加标签的用户时会显得较为短板,因为此类用户几乎没有自身关于标签的关联性,这也就导致了无法利用上述算法,从而导致推荐无法进行,解决方法是利用后文中的系统互补,两者分情况进行交替使用,便可以解决不同用户的差异所造成的问题。

■2.3 标签关于视频分类的作用

用户给视频添加的标签,可以对于视频的分类产生帮助,当后来看到该视频的用户想添加同样的标签时,那么此标签就基本可以认定为准确的标签,把同一类的标签集合起来,再去根据用户的兴趣推荐,形成的一个循环,就是另一个通用标签的作用。这个是主要的标签系统的作用,在一个视频下有足够的通用标签后,这个视频就可以进行分类,分类后,系统就只需要匹配标签之间的关系就可以成功地给用户进行推荐。

这个系统的主要两个问题为:第一个问题,需要大量的数据量和浏览量,若是没有这些浏览量,视频的分类就极为不清晰,会导致无效推荐,而本文提出的解决方法就是与前文的系统结合,对于不流行,浏览量小的视频主要利用前一个系统进行对于用户本身兴趣的研究并给他推荐视频,对于浏览量多的视频,就主要使用后者,这样的好处不仅仅可以互补两个系统,同时,因为被分类的视频主要是一些较为流行的视频,也可以有一定的质量保证。第二个问题,用户的标签过于随意,不够准确,或是太过于繁杂,这个问题普遍存在于标签系统中,而主要的解决方法是利用下文中将提到的特定标签系统,该系统有过滤掉大量的无用标签作用。

3 基于特定标签的视频推荐系统

■3.1 标签群体的区别

此类标签主要由专家或是作者本人来给出,在给出标签之前,系统将把类似的标签集合起来,由专家或作者提出一个简洁明了的标签或是舍弃该标签,例如“搞笑”和“恶搞”最终合并成“娱乐”,这样可以合并大量的类似标签,将最终标签的数量降至10个以内,这10个中有通用标签,也有特定标签,此类标签因为主要由官方提供,所以精确度比较高,但是也存在特定标签也会不够精确的情况,关于标签精确度的问题,可以使用以下算法进行计算:

其中a 表示该标签,i表示该系统下的全部标签,最终的值应在1以内,这个值代表着特定标签所占的百分比,若是特定标签被人们所认可,那么之后便不会再添加更多的通用标签,也就使得特定标签所占的百分比上升,相反,百分比越低,那么就代表着该特定标签的准确度越低,若是这个值低于0.5,基本可以确定该特定标签是有问题的,此时应该降低该标签的权值或是直接对提出标签的那一方提议修改,重新给出一个新的标签。这个值也可以一定程度反应一个标签的权值,但是不够精确,推荐视频的时候,会根据两种标签所占的权值来决定优先级,随后进行推荐。

■3.2 标签优先级问题

此系统属于混合推荐系统,而混合推荐主要有这几个类型:加权型,分级型混合推荐系统,合并型,瀑布型[5]。本文主要利用加权型来解决优先级问题。权的值取决于两种标签的数量,在把通用标签聚集成集合的时候,对于每类相同标签的数量进行计算,列出一个矩阵,其纵坐标为各个标签的种类,横坐标为数量,权值,再利用如下算法:

■3.3 视频质量推荐优化

在根据上文的系统进行加权推荐后,会出现质量参差不齐的问题,有些低质量的视频依然有很高的权值,导致在推荐的时候会推荐一些低质量的视频。主要解决方法是通过浏览量和对于作者进行评估两种方法,第一种方法可以与第三章中的系统合用,从而通过推荐浏览量多或评分高的视频来一定程度上解决视频的质量问题。第二种方法是通过对于一个作者的以往的视频的质量进行评估,可以参考的数据有:浏览量,评分,收藏量等,在浏览量一定的情况下,若是收藏量和评分都较高,那么该作者的评估就很高,在推荐他的视频的时候,就可以适当的增加他视频的权值来使得该作者的视频更容易被推荐,同时,也能带动该作者的知名率,从而使得优质视频得以宣传,形成良性循环,反之,低质视频就会被不断的筛选,降低其权值,使其更不容易被推荐,从而降低其浏览量。

4 总结与展望

本文对基于标签的视频推荐系统的现状进行了概述,对于几个基于标签的推荐系统进行了分析,提出了基于标签的推荐系统,有效解决了视频质量较低的问题。此次研究虽然完善了基于标签的推荐系统的一些缺点,但仍有一些问题仍未解决,例如如何确定三个系统的运行优先级。下一步研究工作本文作者将致力于研究如何推荐给用户高质量的视频以及使得该系统运行更稳定。

猜你喜欢

浏览量权值标签
热议李子柒
游记表述与游客关注度的关系研究
不害怕撕掉标签的人,都活出了真正的漂亮
财务风险跟踪评价方法初探
让衣柜摆脱“杂乱无章”的标签
基于洪泛查询的最短路径算法在智能交通系统中的应用
科学家的标签
科学家的标签
《江南Style》浏览量超20亿
CNZZ报告显示中国网民地域分布差异明显