APP下载

基于大数据平台的IPTV智能消息推送关键技术应用研究

2022-04-14沈浩

科学与信息化 2022年7期
关键词:画像标签维度

沈浩

中国移动通信集团上海有限公司 上海 200061

引言

近年来,多元化的多媒体业务成为IPTV平台发展的新热点,极大促进了IPTV在国内的快速成长,同时还可以为家庭及政企用户提供一种人性化的服务。IPTV业务初期,作为宽带业务标配业务,推动宽带业务渗透和发展;在千兆带宽时代,更是成为家庭娱乐业务中心。除了直播业务之外,IPTV业务借助专网网络优势,演化了4K、8K、VR/AR等超高清业务并且积极探索会员、营销、广告、电商、政务服务等众多电视生态业务。IPTV多样化的生态化的多媒体业务,不但可以改善传统电视观众的用户体验,而且对众多互联网用户也十分具有吸引力。根据工信部的统计数据,2021年一季度,全国IPTV用户已达3.25亿,已经具备庞大的用户基础,针对海量IPTV用户数据分析价值潜力无限。但是相比互联网电视(OTT而言),IPTV具有明显的属地化网格化发展格局,每个地区IPTV用户兴趣和行为均有明显差异,如何挖掘地域用户特性并且借助IPTV网络服务优势,建设上海本地业务精细化运营能力,构筑IPTV精准服务能力是关键。

构建IPTV精准服务能力关键在于有效数据的挖掘和用户有效触达。从数据挖掘层面来说,IPTV业务已经构建一套端到端服务体系,从IPTV服务端、传输端再到机顶盒终端硬件,对用户行为数据的关键数据进行了留存,如何对这些用户行为数据进行有效处理和提取成为有效数据挖掘的关键。随着业务分析的深入,数据分析的指标和维度呈指数级增长,如何快速对当前业务问题进行分析,这成了数据爆炸后的“幸福的烦恼”。在有效数据挖掘的基础上,对用户的不同行为偏好进行分析,形成精准的用户画像,从而针对不同用户进一步完善运营策略,可以促使IPTV的业务不断健康的发展。另一方面,目前IPTV已经不同于发展之初的内容和服务极度匮乏,对于用户而言,现在的IPTV内容是海量的,服务是多元化的,如何通过有效的技术手段,使得内容或者服务在用户需要或者感兴趣的时候及时让用户感知,同时又不对用户造成干扰,是十分值得探究的课题。

1 大数据平台

1.1 平台架构

目前,大数据分析平台主流架构有Lambda架构、Hadoop架构和Kappa架构等[1]。本文的大数据平台使用的是Hadoop,Flink等技术对海量数据进行实时计算,对于数据处理时效要求为秒级,其中实时计算技术难点主要为两块,一是实时入库,二是实时计算。IPTV数据平台在数据采集功能上需要保证可以完整的收集到用户访问端到端的所有日志记录数据,同时为实时应用提供实时数据,响应时间上要保证实时性、低延迟在1秒左右;同时对于部署的系统稳定可靠性要求高。如图1所示,数据采集除了对机顶盒用户数据实时采集外,还需对IPTV服务端进行数据挖掘,同时结合互联网开放数据进行同时处理。

图1 大数据平台架构

系统利用Flink流处理框架,对采集的数据进行流式计算,在流数据不断变化的运动过程中实时地进行处理分析,寻找到可能对用户有价值的信息,并把结果输出到业务端,以便业务端系统根据数据分析进行及时的反馈。

1.2 数据透传流程

大数据平台从数据的生产到数据的应用过程主要分三个阶段:数据的产生与收集、传输与分析处理、对外提供服务[2]。

1.2.1 数据采集。

1.2.1.1 采集接口的角度看,数据采集层在实际的过程中,需要考虑到多元化业务的发展需要。也就是要在多种数据格式的情况下,保持对数据源的强力介入,满足对数据采集功能模块的持续建设和优化完善。此外,在业务开展过程中,还需要考虑到包括直播、点播、回看、电子商务、开机广告、自主服务等方面的主要业务形态。

1.2.1.2 从使用方的角度来看,需要在数据采集的时候,构建用户登录、鉴权信息,开通的业务类型,用户在观看视频过程中视频的播放时长,起始时间和结束时间,以及用户的操作行为包括观看访问路径,观看节目编号、节目分类属性信息、增值订购行为等。在完成多个数据来源多样化的不同格式数据的接入并进行合理的数据格式转换及分类处理后,就可以结合实际运营的需求,进行数据的输出供其他模块使用。

1.2.2 数据分析。

1.2.2.1 离线计算的基础上,需要在Hadoop的分布中,不断扩展数据资源,持续投入基础建设,满足在线数据的实时处理和服务要求,如图2所示,为本次数据采集部署架构。也就是说,我们需要在实时数据的基础上保持数据的抖动,提高消息的处理速度,保证最大的响应时间。

图2 数据平台基础架构图

1.2.2.2 需要思考到发送失败的问题,以及实时数据计算的问题等。

1.2.3 数据服务。

1.2.3.1 运营数据服务的视角上看,需要在各种业务数据接入的基础上,保持良好的运营效果,加强全面的数据掌握[3]。其中,主要包含的维度可以分为以下的几点:用户维度,收视排行榜维度,基础产品维度,增值产品维度,首屏及一二级EPG触点访问维度等范畴。另外还需要涉及用户发展的问题包括用户开机活跃率分析的问题,用户播控卡顿、频道切换时长、内容播放响应、语音遥控器操控、服务满意度等多维度分析问题。

1.2.3.2 从个性化数据服务的角度,即智能推荐可以在用户分析的基础上,形成全方位的精确用户画像,对使用用户的观看兴趣和使用习惯进行特征抽象提炼。此时系统就可以结合使用者的兴趣和差异化特质,持续进行内容可视化推荐,不断提升用户的活跃率和增值产品的订购转化率。

2 大数据用户画像

2.1 用户画像概念

精准用户画像研究是为了科学的形容IPTV用户的个性化特征和高效的用户分群的方法。通过在访问的媒体介质属性和访问业务的时间行为上对用户使用习惯进行分析和预测,并对用户群体的行为进行分析总结,对用户的个性化的行为属性和习惯特点进行高度抽象概括,结合精细的大数据分析与用户行为的准确理解,挖掘本平台用户行为特征,为运营提供行之有效的决策信息。

2.2 用户画像的生成

用户画像的生成流程通常为:①IPTV终端机顶盒等植入js日志上报代码,上报电视的设备ID(如MAC地址、串码编号)、访问日志、收视日志、互动日志等到大数据采集机群。②大数据采集模块集群将多来源的日志原始数据存储到大数据计算集群。③数仓模块通过ETL技术将资源库(频道、节目单、点播)、互动库、电视日志等按维度表和事实表的形式入仓存储,供后续画像模块使用。④画像模块从数仓的维表或事实表提取数据,生成画像标签。

最终形成的画像标签体系,用于形容用户具体的特征,从而得到平台的用户画像。

2.3 用户画像分类

2.3.1 在实际应用中,画像标签可以分两类处理方法,一类是基于电视运营经验或者数分人员的假设而形成的规则类标签,一类是基于分类算法等而形成的算法类标签。

2.3.2 算法类标签又有两种生成形式,一种是在基于已提取的规则标签用户映射的基础上再结合各种特征组合来训练得出的分类模型后再预测出的标签从而用来调整强化或无人工干预的自动化标签提取,一种是采用直接的无监督的聚类算法来做用户分群的标签提取。

2.3.3 本系统采用的是分类算法迭代循环自动强化调整规则类标签的设计,即用规则类提取的画像标签作为监督学习的标签,同时在外部特征库中抽取用户特征,或结合部分规则类用户标签来构成用户特征向量,用人工智能算法进行机器学习来形成标签提取模型,在经过规则类画像标签应用的效果验证后,采用该验证后的规则类生成的用户标签映射作为训练样本来继续学习,最终不断提高模型的准确率,从而将用户标签提取模型应用在实际业务中来实现自动化分类。

2.3.4 在实际应用中,在形成用户画像后,可以对外输出不同用户分组,或者根据画像标签对外提供用户查询接口,配合外部推送系统实现对用户在不同场景下的关联业务推送和内容推荐。

图3 用户画像的构建

2.4 大数据消息推送

图4 智能消息系统部署示意图

大数据消息推送系统(IMOS,Intelligence Message Operation System)在用户画像基础上,对用户行为与场景进行联结,利用关键用户特征通过消息的形式主动连接用户,从而快速高效建立用户与物品连接的能力。消息具有能主动对电视全场景触发、主动点对点、千人多面、千人千面触发、可以承载节目信息、活动信息、营销信息等多元化内容,从而能快速响应用户需求,提升平台与用户连接效率,提升物品利用率、付费转化率、用户开机率等关键指标,进而全面改善平台对用户的体验。

2.5 大数据消息推送系统应用

2.5.1 当前运营痛点。传统IPTV平台在用户经营的痛点主要有以下几点:

2.5.1.1 缺乏主动精准连接用户的能力。EPG页面承载内容能力有限,基本为编辑推荐的头部内容,用户离开页面后,平台就无法连接用户。现有情况就只能等待用户到EPG主页来。

2.5.1.2 平台流量不均衡,缺乏流量主动干预手段用户流量分布主要在直播、免费内容等,平台目前缺乏必要手段将用户拉入我们希望发现的内容入口,例如付费内容、特色内容等。

2.5.1.3 物品利用率低,对长尾内容拉动不足。平台有近20万部内容,而用户每月收视过的内容不足5%,但其他内容并非对用户没有吸引力,而是无法被用户发现。

2.5.1.4 缺乏对用户实时行为及时高效反馈的能力。用户需求瞬息万变,电视也是一个多用户维度,现有平台无法识别用户行为变化并且快速做出反应,引导用户收视。例如当用户在不停换台时就应该主动推荐内容给他,而不是等他自己去找。

2.5.1.5 对区隔出来的特征用户缺乏必要手段提升体验面对用户的各个特征分组,无法有效的针对性开展必要的营销和服务,从而提升用户体验。例如未续费用户、有离网风险用户等

2.5.2 消息系统解决方案。针对这些问题,本次搭建的消息系统的解决方案如下:

2.5.2.1 IMOS具有全场景主动推送能力。IMOS可以在EPG页面、直播、点播中主动发起向用户的消息推送,推送内容、活动、付费等,不需要等用户到EPG页面查找。

2.5.2.2 IMOS通过主动推送将用户导入目标内容。IMOS可以根据用户收视特征,根据不同场景向用户主动推送相应内容和业务,并且支持用户一键跳转,可将直播等免费流量拉入点播内容或特色内容中。

2.5.2.3 IMOS与推荐算法结合解决内容利用率问题IMOS可以跟推荐算法结合,根据用户特征和当前收视场景,直接从媒资库里调取节目主动推送给用户,从而提升长尾物品的点击率和利用率。

2.5.2.4 IMOS可以快速生成消息及时响应用户需求IMOS通过对场景的识别和用户特征结合快速判断用户需求,马上可以触发内容推荐、营销付费、关联活动等内容,而不需要编辑专门制作专题内容,大大提升运营效率。

2.5.2.5 IMOS可以针对用户分组推送针对性服务。IMOS具有用户分组,点对点触发的特征,因此对一些特征用户组可以专门编制相关消息进行通知。例如可以专门为未续费用户策划优惠政策推送给他,非该分组用户则无法收到。

3 结束语

综上所述,本文从挖掘出用户的行为特征、分析用户偏好的本意出发,提出了一种基于大数据平台的IPTV智能消息推送技术,使得平台具备了与用户更加紧密的触达能力,具有针对性强、实时反映和能够显示真实消费需求的特点,实际提升了用户开机率、开机时长和平台活跃,更加提升节目的利用率,让购买的节目更加都能产生价值,并且通过精准的业务推荐促进用户付费率提升。另外对于发展广告、电商类业务也带来新的营销手段。

猜你喜欢

画像标签维度
威猛的画像
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
画像
浅论诗中“史”识的四个维度
不害怕撕掉标签的人,都活出了真正的漂亮
画像
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签