基于Hadoop的视频网站推荐算法研究

2021-06-29张文泽

科学技术创新 2021年17期

张文泽

(长江大学电子信息学院,湖北荆州434000)

随着当今互联网的快速发展，每天会有海量信息产生，互联网用户容易迷失在信息海洋中无法找到目标内容。为了解决这种问题，推荐系统孕育而生。推荐系统是解决在“信息过载”下，用户如何高效获得自己感兴趣目标信息的问题。从工程的角度来推荐系统可以分为两大部分：数据部分和模型部分。数据部分主要指推荐系统所需数据流的工程实现。大数据优于好算法是指基于小数据的推荐效果不如拥有大量可用数据的推荐效果理想。而模型部分指的是推荐模型的相关工程实现，根据应用阶段的不同，可进一步划分。

1 Ha doop平台与系统设计

1.1 Hadoop平台架构

Hadoop是能够对海量数据进行分布式计算处理的框架，它的核心是分布式文件系统（HDFS）和MapReduce。HDFS支持处理超大规模的文件，采用了主从结构模型，通常一个HDFS集群包括一个名称节点和若干个数据节点。名称节点它负责管理文件系统的命名空间以及客户端的访问请求。而数据节点它负责处理文件系统客户端的读写请求。MapReduce它将复杂的并行计算的过程抽象到两个函数:Map和Reduce。通过Map对数据进行分割，然后shuffle过程会对Map的输出进行排序和合并，最后交给Reduce处理。

1.2 批处理大数据架构

批处理大数据架构采用了分布式文件处理系统，MapReduce代替了原来传统文件系统和数据库的存储和处理方式，批处理大数据架构示意图如图1所示。

图1 批处理大数据架构示意图

2 推荐系统

2.1 推荐系统概述

推荐系统在获知“用户信息”“物品信息”“场景信息”的基础上，通过构建好的函数模型，预测用户对候选物品的喜好程度，再根据喜好程度对候选物品进行排序生成TOP-N列表。图2是根据推荐系统的定义，抽象得到的逻辑框架图。

图2 推荐系统逻辑框架图

2.2 协同过滤算法

协同过滤是协同所有的反馈对海量的信息进行过滤，从中筛选出目标用户可能感兴趣信息的推荐过程。按照推荐内容划分，主要有基于用户的协同过滤（UserCF）和基于物品的协同过滤(ItemCF)。UserCF主要是用户相似度的计算，目标用户的相似用户对目标物品的评价是正面的，则可以预测目标用户对物品的评价也是正面的。而ItemCF主要是计算物品的相似度，找到目标用户的历史正反馈的物品，通过与正反馈物品相似度进一步排序和推荐。两者应用场景也有不同，UserCF具有社交特效，不会集中在固定的内容范围。因此适用于新闻推荐等场景。ItemCF更适用于兴趣变化较为稳定的推荐场景，因此用它来推荐视频是更好的选择。