APP下载

基于用户画像的智慧水务平台

2021-07-01常兴智

中国新通信 2021年6期
关键词:用户画像

常兴智

【摘要】    随着物联网技术的快速发展,物联网水表不仅要满足硬件技术层面上的更新迭代,其上层应用系统也需要在水表安装使用过程中进行更多维度的数据采集和运维,以此满足目标用户的各类需求。用户画像是建立在一系列属性数据之上的用户模型,基于此模型,我们可以将物联网水表及其关联的用户进行表属性和用户用水行为的归档分析,将得到的用户画像标签体系融入到智慧水务平台中,从而使系统智能化,数据分析具象化。

【关键词】    智慧水务    物联网水表    用户画像

引言

用户画像作为当今互联网行业的热点概念,可以基于大数据技术来分析用户的行为特征,为企业带来可追溯,可分析的用户行为数据。用户画像是对用户各类信息进行具象化和抽象化得出的一个特征数据集合,现有的用户画像理念及应用系统主要从用户的两个属性角度进行分析、刻画,分别为用户的自然属性和行为属性。

用户的自然属性指的是用户的基本信息研究[1]。对于智慧水务平台来说,用户画像的建立需要将用户自身的基本信息结合其所绑定的水表基本属性统一构建为该用户的自然属性。

用户的行为属性指的是现有的系统及数据平台利用各类数据分析及挖掘技术对用户行为进行深入研究。对于智慧水务平台来讲,可以将用户的用水习惯、缴费情况和用户对应水表的采集信息、计量信息及状态信息等进行标签化处理和个性化分析,从而得出该水表用户的水务用户画像。

在智慧水务平台中,我们可以根据以上两种用户及其映射水表的自然属性和行为属性针对性进行数据挖掘,从而对用户从多维度进行特征属性的描述,并对这些特征信息进行统一分析、统计,最终使得每个水务用户能够具象化,对象化,便于后续工作的针对性开展。

一、水务用户画像分析

传统的水务采集统计平台,主要是针对采集信息进行报表统计、查询、分析,用户和水表的档案信息的管理等。基于此类水务数据采集统计系统,随着系统版本的不断迭代、运行时间的日积月累,可以收集到大量的用户用水信息、水表的计量信息及满足用户不同需求的其他统计类信息。上述这些收集到的信息在智慧水务平台的建立过程中,我们称之为元数据。

在元数据基础上,通过数据清洗,特征抽取及分析,可以将对用户进行用户画像的建模。

1.1 用户标签化分类

用户画像建模可以理解为将用户数據进行标签化处理,针对不同角度可以将其分为三类:统计类标签;规则类标签;数据挖掘类标签。在智慧水务平台中,将上述三类标签可结合水务数据定义如下:

(1)统计类标签:对用单个用户,可以统计用户自然属性和表基本属性。用户自然属性包括用户姓名、地址、近一个月用水量、阶梯用水费用等;表基本属性包括表号、表类型、表信号、电池电压、上报周期、阀门状态等;

(2)规则类标签:规则类标签基于水务运维人员对用户用水行为、水表类行对应的状态感知信息、计量信息及事件信息等确定的筛选规则生成的各类标签。例如,在智慧水务平台上对如何定义“大水量用户”时,可以计算该用户在某月时间段内是否日均用量大于所在区域的日均用量,小于水表口径对应的理论用量。

(3)数据挖掘类标签:此类标签多用于统计宏观数据的变化趋势,对用户进行聚类分析,一般在刻画用户画像过程中处于系统运行稳定后,有大量累计数据的情况下,收集各类数据利用机器学习等方法进行数据挖掘。例如,水务用户所用表计是否属于潜在的异常表、用户用水是否存在漏水等现象。

1.2 系统架构模块

在搭建智慧水务用户画像系统过程中,总体大致需要考虑以下几个模块的建设,如图1所示。

(1)水务用户画像:对于智慧水务平台来说,首先我们需要知晓业务流程,明确水务用户画像包含的业务模块、数据表的设计、特征数据的抽取来源等等。

(2)数据指标体系:在智慧水务平台中,可以着重于对用户的自然属性、行为属性和表的状态属性、异常事件上报等信息进行量化统计。

(3)标签数据存储:标签存储在智慧水务平台中至关重要。系统可以利用传统的关系型数据库MySQL、数据仓库Hive及搜索引擎Elasticsearch进行分类存储。如将档案数据、管理类数据等数据量较为稳定的元数据存储到关系型数据库中,便于多表联查;将每日、每月上报的计量信息、状态信息等数据量较大、增长率高的时序信息存储到Elasticsearch中,可使用Graph QL等技术进行多条件匹配查询,使得查询效率更高,查询维度更广等。

(4)标签数据开发:通过对用户标签化分类,系统中可将统计类、规则类、数据挖掘类标签通过动态模型匹配及业务系统的数据抽取进行开发,得出多个用户特征数据。

(5)水务数据对象化:通过上述几个步骤的用户标签数据存储、开发,可以使用多种ORM关系映射工具对水务用户画像数据进行对象化处理,可针对性进行特征数据的标签查询、管理,利用多标签进行数据的多维度整合。

(6)用户画像应用:水务用户画像应用主要可用于水表的状态判断、异常计量的提前预警、用户用水行为的分析等等。智能水表在完成安装后,日常运维必不可少,如何提前发现问题,解决问题对于运维人员意义重大。使用用户画像,可从不同维度对用户进行聚类分析,使得运维决策有据可依。

二、水务用户画像的建立

在建立智慧水务用户画像时,考虑到现有的智能水表主要通讯方式为LoRa自组网和NB-IoT运营商网络通信,针对这两种通讯方式结合传统的水务信息采集平台来说,水务数据对于实时分析计算的要求不算特别强烈。故在建立水务用户画像的过程中,离线计算、数据批处理占据了智慧水务平台的大部分计算业务。与此同时,随着智能水表逐步推广,智能水表数量越来越多,通讯平台上报数据量也日益增大,所以需要对海量的时序信息进行分类存储,定时清洗,针对性抽取,从而满足业务系统中的各类客户需求、运维需求等功能。

在建立水务用户画像的过程中,需要自下向上逐步进行系统业务的开展,通过系统架构模块的确定,逐一进行模块化建设,最终实现平台化建设。下面将逐一进行系统的建立过程。

2.1 水务数据指标

水务数据指标是建立水务用户画像的第一步。水务数据指标的建立主要结合运维人员的日常工作中涉及的各类用户信息、表信息、日常上报信息等。

数据指标的建立以用户为中心,通过用户信息和表信息两个维度进行标签化处理。按照上述章节分别建立统计类标签、规则类标签和数据挖掘类标签。在智慧水务平台中,可将各个标签类型进行组合处理,对水务用户的行为属性、用户自然属性、异常状态等信息进行描述。

(1)用户自然属性的定义为:水务用户的开户日期、用户地址、用户电话、用户类型、历史缴费金额、历史欠费情况、表号、表类型、表厂家、表信号强度、表阀门状态等信息。针对这些信息,可进行标签化分类,按照统计类标签、规则类标签、算法类标签进行归类统计。如开户日期、用户地址、电话、用户类型、历史缴费金额为统计类标签;重要客户、大用量客户、正常用量客户和小用量客户为规则类标签;常住用户、非常住用户等属于算法类标签。

在对标签进行归类的过程中,针对同一类型,还需要进行标签的关系判断、数值判断。如用户身份类别中,常住用户和非常住用户为互斥类型;购水价格偏好类型中,各个层次互斥递增。统计好的标签后续结合标签数据开发可以进行更深入的研究。

(2)用户行为属性:用户行为属性是在业务系统运行过程中,针对用户日常的缴费数据、用水数据等进行的一系列数据挖掘类的属性标签分析,包括近XX日公众号访问次数、最近一次公众号访问日期、高频用户、中频用户、低频用户、大用量用户、中等用量用户、小用量用户等行为标签,得出表1。

(3)异常状态属性:分析归纳水表反向用量、关阀走量、超大用量、日增量大于理论值、近XX日上报失败次数、近XX日开关阀次数、近XX日信号分析、漏水检测、强磁干扰等异常标签,得出表2。

针对上述三个维度对用户信息进行分析,可以依据每个维度中标签种类、标签指标在智慧水务系统中统一命名,作为元数据在数据库中集中维护管理,便于后续的数据开发有序进行。

2.2 标签数据存储

在智慧水务用户画像的平台搭建过程中,如何将不同类型的标签数据、档案数据、流数据等数据类型分门别类地合理化存储影响着整个平台系统的性能、稳定性、可拓展性和时效性。针对不同的存储需求,系统在规划过程中就应当提前分析、合理存储。

目前针对各种数据类型可对存储进行适当选型。Hive、MySQL和Elasticsearch作为三种不同类型的存储,合理调配能够使复杂的业务系统数据逻辑清晰化,数据I/O操作高效有序化。

Hive作为数据仓库管理工具,基于HDFS进行存储查询。在水务用户画像的建立过程中,具体面向用户属性、用户行为和异常状态进行三个维度的事务处理。通过从传统的业务系统中分时采用数据抽取、清洗和转义,将三个维度所需要的有效数据存储到数据仓库中。随着时间线的推移,用户不同维度的数据也会越来越丰富,越来越具体,数据仓库将这些带有时间戳的数据分析并记录,为水务用户画像的建模提供特征数据的支撑。

MySQL作为关系型数据库,可以映射聯查水务用户画像三个维度属性的各类数据,主要存储水务用户画像标签化后的基础元数据及ETL处理后的数据分析集合。元数据管理过程中,将2.1中三个维度的标签主题、名称、一级分类及自定义的互斥二级分类进行统一管理,便于在业务系统中结合其他数据存储进行实时数据和历史数据的填充。

Elasticsearch存储基于开源的搜索引擎,可以提供分布式部署、文档内容分析、全文检索等功能。同时由于其在多条件查询效率上有很大优势,因此对于水务用户的实时用水数据、行为数据分析有很大帮助。在水务用户画像的建立过程中,可将水务用户数据的多标签匹配分析、透视分析、特征查询等数据挖掘方式搭建在Elasticsearch之上。

2.3 标签数据开发

在水务用户画像的建立过程中,针对LoRa和NB-IoT两种通讯方式、通讯功耗、通讯质量进行综合分析,可得出智慧水务平台对离线计算要求较高,而对实时计算需求较低。在上述三个维度的标签体系进行分类和合理化存储后,对这些数据进行量化计算、可视化展示是整个系统研发的重点内容。

标签数据的开发主要依据标签数据的分类和标签数据的计算特性开展。

(1)统计类标签:在智慧水务系统中,指利用统计工具类对水务用户的各项描述信息进行统计。例如,用户的开户日期、用户地址、近30日缴费次数,近半年缴费金额等信息。

以近30日缴费次数为例,该信息一级归类标签为费用统计。对该信息进行细化描述,可对应数据库信息包含缴费时间、缴费金额、缴费方式三个二级子标签。同时在业务系统中,还需要将这些状态进行记录更新,从数据仓库中定时抽取元数据进行分析,将用户的缴费信息保持在最新状态。

(2)规则类标签:在水务系统日常运营过程中,运维人员会针对各项数据进行量化评估,根据数据评估指标、历史经验、数据标准等信息进行规则类标签的分析。例如对用户价值进行标签化处理的过程中,需要根据用户用水性质、水表类型、缴费频率等来综合进行评估,具体可参考表3。

(3)数据挖掘类标签:在水务用户开户使用后,经过一段时间的数据累计,可以通过对微观用户数据和宏观区域数据进行一定的数据挖掘,得到运维人员、水务公司领导等人关注的一些数据领域。如对缴费用户的聚类统计,异常表的预测分析等等。

例如,在对用户累计用量及用量趋势进行统计分析过程中,可以用到K-Means聚类算法。对于给定的水表用户样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大[2]。通过对用户多次回归聚类,最终区分用户簇,并通过数据特征描述每个用户簇的特点。

三、水务用户画像产品化

通过对上述流程的建设,最终可以使水务用户画像的数据结构、存储结构、标签分类等数据支撑和理论支撑能够落地。而基于这些基础业务之上,在应用层,可以为水务公司、水表用户带来如下业务。

3.1 运维数据即时查询

面向运维人员,可根据三个维度的用户标签体系进行运维数据的组合查询。可以精简运维人员的分析决策过程,及时发现问题,解决问题。

目前水表厂家生产的智能水表类型各式各样,从通讯方式区分,有:LoRa水表,NB-IoT水表;从计量方式区分,有:超声波水表、无磁水表、干式光电直读水表、脉冲采样水表等;从用水性质来说,有:工业用水、商业用水、民用水;从水表协议来说,目前每个厂家协议均有不同,需要兼容。

面对如此纷繁复杂的表类型,不仅水务平台需要统一进行所有特性的兼容,而且还要针对每种表的特性进行针对性的异常分析,这无疑给系统开发和运维带来很高的难度。对于上述系统同时兼容不同特性的水表,每個特性都需要着重关注该特性的关注点,开发人员在开发过程中要从不同维度进行考量。

在建立用户画像体系的过程中,面对上述水表通讯、计量和用水性质问题,完全可以将各类问题进行用户画像标签化,通过Hive数据仓库工具将相关数据提取出来,以元数据的形式存储与MySQL中,然后使用Elasticsearch进行标签化处理,用面向对象的思维方式将用户表计运行情况进行具象化描述,从多个维度进行标签数据的运维分析。基于用户画像的运维能够自动匹配,直观的描述出每个用户绑定的表计具体存在哪些问题,让运维更加智能,问题定位更加精准。

3.2 业务大数据统计分析

面向水务公司营业人员、领导等。不仅能提供传统意义上的同比、环比数据,还能即使提供用户的用水行为的定制化分析、缴费行为的量化评估,将用户价值、重要度进行评估。

在上述章节的开发中,已经涉及到对用户的价值如何进行判断,对用户价值标签化的处理等。通过诸如此类的价值模型匹配,可以为决策人员带来业务决策上的数据支撑,便于水务业务向更深层次拓展。

四、结束语

通过在智慧水务平台上搭建用户画像,运维人员、业务人员和决策人员能够从多个维度直观的观察水务平台中用户的各类信息、水表的各种数据。智慧水务平台在运行过程中,随着时间的推移、用户规模的增加,其数据不仅数量上越来越庞大,种类上也越来越丰富,越来越有价值。用户画像的建立,不仅能使得从这些庞大的数据中抽取水务管理、决策人员关注的信息变得高效快捷,也能引导客户为每个水务用户提供专业的运维服务和个性化的业务推广,使智慧水务平台实现真正意义上的智能化、高效化。

参  考  文  献

[1]李映坤.大数据背景下用户画像的统计方法实践研究[D].首都经济贸易大学.2016年

[2]赵莉,候兴哲,胡君,傅宏,孙洪亮.基于改进k-means算法的海量智能用电数据分析[J].电网技术,2014,38(10):2715-2720.

猜你喜欢

用户画像
基于数据分析高校学生自画像的初探
分析用户画像在企业精准营销中的应用方式
基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析
基于大数据技术的广电用户收视行为建模
基于大数据的电商活动页面设计策略研究
用户画像在内容推送中的研究与应用
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销