精准推荐技术的工作逻辑和前沿应用

2022-10-22张铭毅刘亚萍

传媒论坛 2022年16期

汪欣张铭毅刘亚萍

随着信息化步伐的加快，海量化的信息内容和便捷的获取方式正在逐渐改变人们的内容阅读习惯。但是在如此庞大的信息量背后，信息过载带来的信息庞杂和无序经常使得用户无法快速、准确地获取个人最关心的内容，以至于陷入信息焦虑之中。因此如何精准地将内容和用户匹配起来，建立个性化的内容推荐系统，帮助用户快速地找到最关心内容，成为媒体行业亟待解决的问题。个性化的内容推荐越来越成为内容行业的共识。

一、精准推荐工作逻辑

将内容和用户精准匹配的过程主要是将用户和内容看作推荐系统的两端，通过精确的推荐方法，将内容精准匹配用户，获得用户反馈后再进一步完善推荐方法［1］。整个精准推荐的工作逻辑共包含四个步骤（见图1）：

图1 精准推荐技术的工作逻辑图

首先是内容分类和结构化处理。内容文本通常包含着丰富的信息，但它们并非结构化的文本，因此要进行结构化处理并做好分类，确定好备选的推荐内容。其次是用户分类和画像建模。用户是精准匹配的目标，根据用户的反馈和兴趣进行分类和建模，形成全面真实的用户画像。用户的反馈包括主动表现的显性反馈和依据网络痕迹建立的隐性反馈，用户兴趣则包括用户真实的长期兴趣以及随着热点内容不断变化的短期兴趣。再次是推荐引擎选择。如果将内容和用户看作精准匹配的两个端点，推荐引擎就是连接二者的桥梁。它的目标在于将所有备选的内容进行符合用户兴趣的排序，进而依次推荐给用户主体。不同的推荐方式会生成不同的推荐列表，从而直接影响推荐效果。最后是用户终端设计。在完成内容推荐后，还需在用户终端进行设计以全面完成个性匹配过程。用户的终端接口承担着两个方面的工作，一方面，用户的接口需要承载推荐的内容；另一方面，需要收集用户的反馈以进一步精进推荐引擎，促进用户和内容更好地精准匹配。

二、精准推荐技术实现

（一）内容分类处理——推荐技术起点

如何对内容进行分类处理是推荐技术的第一步，目前对内容的处理包括对纯文本内容的处理和对图片、视频内容的处理。

对纯文本的处理主要使用的方法是自然语言处理，其本质在于试图让计算机来分析人类的语言，而这一过程需要输入与存储、统计计算、机器学习等技术，实现文本分析、处理等操作。以自然语言处理在文本情感分析领域内的应用为例，自然语言处理的流程可以分为以下几个步骤［2］：

第一步，文本预处理，由分词和命名体识别组成。在实际应用中很多语气助词和人称代词是不需要关心的，需要建立一个停用词词典，在最终结果中将其过滤以降低对内容提取的影响。命名体识别是一种信息抽取技术，指在从原始的文本信息当中提炼出结构化信息。

第二步，文本情感分析。通过建立情感词典，获取文档中特定词汇的情感值，加以公式计算的方式来核定内容的情感态度［3］。这种方式的优点非常突出，计算简单，结果明确直白。如果词典足够丰富，理论上能获得非常好的分析效果，同时情感词典本身在不断更新和进步，除了文本内容外，网络热词、颜文字、表情包等等都加入了情感词典的分析之中，推动了情感词典分析法的进步。

随着媒体传播形式的日渐丰富，除了文本内容之外，更为关键的是对视频和图片内容的处理，主要运用的方法是视频目标检测方法。该方法是为了解决在每一个视频帧中出现的目标定位和识别问题［4］。对于特殊视频内容的识别是视频目标检测的重要应用领域。随着网络流量的视频化，网络视频内容变得鱼龙混杂，而想要在源头控制视频内容难度较大，通过视频检测的方式建立内容分类过滤系统可能更加有效。尽管针对不同视频所使用的算法有差异，但是工作逻辑大体相同，主要由视频内容描述模型、算法测试库、算法评判标准等组成。

（二）绘制用户画像——推荐技术终点

绘制用户画像指根据使用者的诸多信息抽象出用户模型，关键在于给用户贴上象征不同特征标识的标签［5］。这是推荐技术中的关键一步，为精准匹配技术找到目标用户奠定基础。

在给用户贴标签之前首先要搜集大量的用户行为数据。目前最重要的三种数据来源分别是用户的显性数据、隐性数据和混合数据。［6］

最常见的显性数据为用户注册账号时输入的本人信息。例如当使用者要注册某APP账号时，常被问及自己的身份（如职务、工作等）、居住地址和感兴趣的内容等。但此类信息并不完全准确。导致不准确的原因可能包括用户出于自我保护的心理而故意填写错误的信息。也可能由于部分软件设置问题过多，导致用户随意作答或直接放弃填写。这些因素都会导致显性的用户数据充满噪音，从而影响用户画像的建构。

隐性的用户数据恰恰弥补了这一缺憾。完全不同于显性的数据，隐性数据不需要受众自己专门填写，它重视的是用户的使用行为如信息的搜索、对内容的点赞、评论、拉黑，以及在内容上的停留时间等。在这些数据中隐藏着用户的使用习惯和兴趣爱好。通过对用户一段时间的隐性数据的分析，能够更加全面真实地了解用户。目前，获取用户隐性数据的方式逐步进化到机器学习的阶段，获取到的信息也相对更加客观准确，能够有效降低其他干扰因素的影响。

混合型数据吸纳了显性数据和隐性数据的优点。它能够高效地获得用户的显性信息，再通过用户的隐性数据得到客观准确的用户信息，并不断地进行更新迭代。避免了单纯依赖用户显性数据导致的偏差，同时大幅度提高搜集用户数据的效率。目前主流的精准推荐的方式基本都会采用用户的混合型数据。

完成用户数据搜集的目的是为了绘制用户画像。现实生活里每一个用户的信息都是复杂多样的，用户画像就是要把这些复杂的信息简单化、抽象化。用户画像的本质就是贴标签，其目的就是为了将用户的标签和现实的场景结合起来，因此刻画用户画像一定要有现实意义。用户画像的构建方法有三种,分别是基于统计学习的用户画像构建方法、基于加权关键字的向量空间用户画像构建方法以及基于神经网络的用户画像构建方法。［5］

基于统计学习的方法构建用户画像表示依据用户数据的分布情况、数字特点和相关变量之间的联系性，使用数字统计和数据分析来评估并且解释使用者相关的行为。例如针对短视频APP的使用者，统计他的点击记录、浏览时长、转发、拉黑、点赞、评论等行为数据特点进行分析。统计学习的方式主要是用来调查用户的行为轨迹，但并不具备预测用户未来行为趋势的能力，仅仅能够调查使用者过去的行为。

基于加权关键字的向量空间用户画像构建方法是基于二十世纪四五十年代提出的向量空间模型生成的，其核心是根据文章内容中的每个关键词汇出现的频率，计算对应的权重来产生关于文字内容的特征表达公式。这一方法在许多领域中已经得到了应用，例如，从某软件的用户评论中提取关键词汇和关键信息，利用这些关键词汇加权综合计算得到该用户的特征信息，而在这些关键词汇中通常会隐藏着用户对软件的使用兴趣，以此来建立软件内容和用户之间的联系，从而绘制用户画像。这种方式的优点是计算结果相对准确，可信程度也较高。但是它的缺点也非常明显，如果建立的模型或者运算所使用的公式过于简单，则很难充分地利用好关键词汇中所包含的隐性用户信息。所以对于加权关键字来建立用户模型的方式而言，最重要的是处理好文本特征工程，建立最合适的表达公式。

在大数据时代，面对日益增多且复杂的用户数据如何更好地绘制用户画像是个难题。使用基于神经网络的用户画像构建方法优势在于神经网络的记忆功能特别强大，它可以用来表示用户与内容之间复杂的多变关系。神经网络方法能够模拟人类生理的神经元系统，因此具有了一些独有的特质，包括分布式存储、高容错、并行计算等。由于具备了上述诸多特质，神经网络的用户画像绘制方法在很多领域内得到了广泛的应用。

（三）选择推荐引擎——连接桥梁

将处理好的信息和它最适应的受众连接起来的桥梁就是推荐引擎，因此推荐引擎成了精准匹配流程中的核心部分。传统的方式有基于内容的推荐和协同过滤推荐，但是在大数据时代，为了更好地处理混杂且量大的内容信息，基于深度学习的方法开始流行［1］。

基于内容的推荐是最常见也是用户感知度最高的推荐方式，它主要是根据软件使用者平常的使用习惯以及浏览内容的过往行为进行推荐，计算备选的推荐内容和使用者浏览历史记录内容两者之间的关系和相似程度，进行相似程度的排名，进而得到推荐列表。这种方法通常可以分为两类，一类是计算问题，一类是分类问题。计算问题是指分别抽取使用者的用户行为和预备推荐内容的特征向量，计算二者之间的相似程度。向每一位使用者推荐相似程度最高的内容或大于阈值的内容。分类问题是指以该用户浏览内容的历史记录作为基础数据，将精准匹配的推荐转化为二分法：即喜欢或不喜欢。基于内容的推荐方法的优点是不需要其他人的使用数据而且推荐效率和可信度都比较高。缺点包括分析浅显，无法考虑内容的丰富性对结果的影响；推荐结果缺乏创新，只能根据过去的内容进行推荐，而无法关注到用户可能有兴趣的新内容。

为了弥补上述方法不足，协同过滤推荐应运而生。协同过滤推荐的关键在于用户的评分数据，和被推荐的内容之间没有关系。［7］例如在浏览历史中对所阅读的内容评分相似的软件用户，被默认为在将来的打分中也会高度相似。这样一来就把精准匹配的推荐问题转换为了评分计算的问题。协同过滤推荐也包括多种实现形式，比如基于记忆的推荐方式或者基于模型的推荐方式。

总体而言，协同过滤推荐最重要的优点在于能够使用其他人的经验，能够尽量避免内容分析的不完全性，推荐的个性化、自动化程度也更高，更重要的是能够实现对新用户的推荐。当然，它的缺点也很明显，存在着内容初始推荐效果不好、内容和用户匹配不佳的问题，而且没有考虑用户自身的特点，容易推荐热门内容。

随着大数据时代的到来，数据越来越复杂多样，传统的推荐方法所使用的浅层模型的预测方式开始逐渐落伍，因为此类方式太过依赖人工特征的提取。这样一来很难高效、有价值地学习到深层次的用户和内容的表示。在这种情况下，基于深度学习的推荐方法逐渐被大家所认同。基于深层神经网络所构建起来的内容预测模型能够非常好地表现出新闻内容和读者用户之间的关系，特别是不能用数学方法描述的结构特征。使用深度学习模型进行推荐的范围更广泛，推荐精度也更高。

三、精准推荐技术在新闻推荐领域内的应用

目前精准匹配的个性化推荐已经广泛应用于移动端的新闻推荐和精准广告投放等领域之中，在帮助用户节省搜索时间的同时，也为内容生产端寻求用户提供了便利。

新闻传播是互联网的经典应用，无论在互联网时代还是现在的移动互联网时代，获取新闻资讯都是网民的主要需求。互联网时代下的新闻传播早已经超越了传统媒体的传播速度，与此同时海量的新闻来源也将用户带入新闻焦虑的泥潭之中。在移动互联网时代，随着移动智能终端的普及，随时随地地获取新闻已经成为人们进行新闻阅读的常态。因此新闻推荐系统也正式进入了移动新闻推荐时代。相较于传统PC端的新闻推荐，移动端的新闻推荐限制更多，情况更复杂。移动端的新闻推荐必须考虑不同型号、不同尺寸、不同系统下内容呈现的效果，相应的移动新闻推荐也要符合移动性、实时性、个性化的内容获取特点。

总体而言，移动端的新闻推荐和传统的内容推荐算法底层逻辑相似，但是由于移动新闻推荐受到网络环境和移动设备自身限制的影响，移动端的新闻推荐思路又有着其自身的特征。目前移动端的新闻推荐方法有基于上下文感知的移动新闻推荐、基于社会化网络的移动新闻推荐等。尽管目前新闻推荐方法已经有了扎实的研究和较为成熟的成果，但目前移动端的新闻推荐作为新闻推荐的前沿应用还存在着众多亟须解决的难题，如用户的隐私安全保护、数据收集困难、计算难度大等。