APP下载

天然气客户聚类模型研发

2021-05-24隋毅杜宗格

油气与新能源 2021年2期
关键词:气量均值增长率

隋毅,杜宗格

(昆仑数智科技有限责任公司)

1 天然气市场竞争形势

天然气具有热值高、清洁、高效等优点,是低碳经济的代表。随着节能减排和环境保护意识的提高,天然气能源日益受到市场的青睐。尤其是“煤改气”工程大范围地推广、天然气发电装机容量不断增加,天然气管网逐步完善,带动了天然气在发电、城市燃气和工业燃料等诸多应用领域的需求爆发,并将维持高速增长趋势,我国天然气市场已进入快速发展阶段。

随着《石油天然气管网运营机制改革实施意见》的发布,天然气销售市场化改革步伐加快,2019年12月9日国家石油天然气管网集团有限公司正式成立,天然气干线管道独立,运销分离,致使天然气行业市场格局发生重大转变。未来将有更多供气商进入终端消费市场,并且可根据自身气源情况扩大销售范围,终端用户也将有更多选择机会,终端消费市场竞争将更加激烈。

天然气产品同质性强,无明显差异,天然气销售企业的市场竞争重心很大程度上是围绕天然气客户资源展开。面对行业发展机遇,天然气销售企业需要主动适应形势变化,将以“客户为中心”的服务理念深入经营管理中,加强客户管理、实现客户细分、开展精准营销、拓宽销售渠道、完善客户服务,进一步提高客户满意度,增强客户黏性。然而这些举措得以落地的前提和基础是全面深入地进行客户洞察。本文基于天然气客户的购气特征,将多维数据整合,建立了天然气客户标签,形成客户画像和 360°视图,同时通过数据挖掘算法,对客户进行科学合理的分群,为实现精准营销和个性化服务提供有效支撑,进一步提升客户精细化管理水平。

2 天然气客户标签设计

客户标签是对客户和业务特征进行分析提炼形成的多维度标记。天然气客户标签设计是以天然气客户为中心,对客户购气特征进行总结归纳,形成客户画像。标签设计的原则是兼顾完整性和代表性。不仅要把客户的差异化特点全部展现出来,以最大程度保证标签完整性,同时也需要有所侧重,突出代表性,建立符合业务需要的客户 360°视图。天然气客户标签部分指标如图1所示。

图1 天然气客户标签设计(部分指标示意)

天然气销售的业务场景蕴含在客户、产品和企业之间的交互行为上。客户是中心,企业通过产品服务于客户。客户与产品的交互体现在客户购买产品、使用产品等环节;客户与企业的交互体现在提报需求、服务反馈等环节。通过分析天然气销售的业务场景,将天然气客户标签总结归纳为三大类:客户基本特征、消费行为特征、计划执行特征。

客户基本特征是客户自身具有的属性,主要分为客户基本信息、财务信用情况和客户状态。客户基本信息是客户固有属性,包括客户名称、行业类型等;财务信用情况是客户在最近一年内履约付款情况,包括预付款余额、是否有欠款等;客户状态是客户交易变化趋势,包括客户贡献价值、客户流失预警等。

消费行为特征是客户购买产品、使用产品所表现出来的行为规律,从时间角度分为近期购气规律、历史购气规律和季节偏好。近期购气规律是客户在最近一年内购气变化的行为规律,包括年购气量、销售价格等;历史购气规律是客户最近三年内购气变化的行为规律,包括年购气量同比增长率、月均购气量同比增长率等;季节偏好是客户在四个季度中购气变化的行为规律,包括四个季度的购气量及其占比情况。

计划执行特征是客户与企业的交互规律,客户购买天然气须及时提交购气计划,企业根据民用保供、调峰及资源调配等情况调整并发布购气计划。计划购气情况包括年计划购气量、月计划符合率等;压减执行情况是客户配合保供政策进行压减购气的实施情况,包括日压减百分比、冬季压减百分比等。

3 天然气客户聚类模型研发

基于客户标签设计实现了天然气客户的多维度分析,但在全面展现每个客户画像的同时也要掌握客户之间的内在关联。通过数据挖掘算法实现客户分群,能够更加深入地洞察各类客群的特征,为营销、销售和服务提供有效的数据支撑[1]。

数据挖掘技术中的聚类分析是科学合理地进行天然气客户细分的理论基础。聚类分析是将一个数据集划分为若干个组,并使同一组内数据对象的相似度尽可能高,而不同组间数据对象的差别性尽可能大的过程。聚类分析算法主要有K-means聚类、层次聚类、两步聚类等,本文选取了在客户细分领域应用最广泛的K-means聚类算法。

K-means聚类算法是一种非监督的聚类算法,在最小化误差函数的基础上将数据划分为预定的 K类[2]。K-means聚类算法的一般步骤如下:

(1)从样本集中选取 K个样本作为初始簇中心;

(2)计算每个样本与各簇中心之间的距离,然后把样本划入最近的簇中;

(3)重新计算每个簇的中心点(取平均值),更新簇中心;

(4)重复步骤 2、3,直到簇中心不再发生变化或者达到某个终止条件;

(5)输出最终的簇中心和K个聚类划分。

下面基于K-means聚类算法实现天然气客户分群过程。

3.1 数据源选取

本文分析的数据来源于某公司的批发客户数据,包括客户基本信息、交易信息、价格信息等。

3.2 数据预处理

本文选用数据挖掘软件SPSS Modeler 16.0对数据进行筛选、清洗和建模。

3.2.1 数据筛选

选取了50%的客户作为分析对象,这些客户数据相对完整,共1 951个客户,650万条记录。

3.2.2 数据清洗和标准化

处理错误或缺失数据,删除重复数据,提高数据质量。由于距离是K-means聚类的基础,它直接影响最终的聚类结果,通常在分析前剔除影响距离正确计算的因素,对连续型变量进行数据标准化处理,去除变量量纲的影响,将有量纲的数值转化为无量纲的数值[3]。SPSS Modeler 16.0在进行聚类分析时可自动将变量进行转化。

3.2.3 构建衍生变量

为了探索各变量对客户分群的影响,基于天然气客户基本信息、交易信息等数据,根据客户标签的设计,构建了78个衍生变量,建立客户宽表。

3.3 基于K-means算法的客户聚类模型

K-means聚类算法需要计算各样本之间的距离及簇的平均值,输入变量优先选择连续型变量。本文构建的78个衍生变量中有59个变量为连续型变量,其中部分变量相关性较强,若全部用于聚类会导致聚类效果较差,因此需要对变量进行降维处理。

主成分分析是目前常用的一种降维方法,它将多个相互关联的数值指标转化为少数几个互不相关的综合指标,即用较少的指标来代替和反映原来较多的信息,这些综合指标代表原来指标的主要成分,通常将特征值大于 1,且累计贡献率大于 70%作为指标筛选的判断标准[4]。

使用SPSS Modeler 16.0软件主成分分析节点进行降维处理,即选取特征值大于1的前11个主成分,其载荷矩阵对应的累计贡献率达到 81.2%,也就是选取包含了全部变量所具有的81.2%信息的前11个主成分。为了更易于对变量进行业务解释,采用最大方差法进行因子旋转,旋转后的因子具有差异化的特征[5]。根据旋转后的贡献度和业务经验最终选择了11个最具代表性的变量作为输入变量,分别是月均购气量、上月购气量环比、月压减百分比均值、本年第二、四季度购气量占比、月计划符合率、预付款余额均值、月均购气量同比增长率以及本年第二、三、四季度购气量同比增长率。其中,月压减百分比均值是月需求量减去月购气量再除以月需求量百分比的平均值;月计划符合率是月购气量符合月计划量的月份占比;月均购气量同比增长率是月均购气量相比上年月均购气量的增长百分比。

本次建模采用轮廓系数作为评价指标。轮廓系数是将数据集的任一对象与本簇中其他对象的相似性,以及该对象与其他簇中对象的相似性进行量化,并将量化后的两种相似性进行比较,获得聚类优劣的评价标准[6]。轮廓系数取值处于[-1,1]范围内,系数小于0,说明聚类效果不佳;系数大于0小于0.5,说明聚类效果一般;系数大于0.5,越接近1表示聚类效果越好[7]。根据轮廓系数值可以确定K的取值。通常K值不会设置过大,可以通过枚举法从2开始设置K值,在每个K值上自动迭代,并计算当前K值对应的轮廓系数,选取最大轮廓系数对应的K值作为最终聚类数目。本文最终选择聚类数目为 4,轮廓系数为0.53的聚类模型。

4 天然气客户聚类结果分析

4.1 客户聚类结果

通过运用聚类模型,天然气客户聚类的分布情况如图2所示,其中聚类2包含客户最多,占46.9%,而聚类3包含客户最少,仅有5.3%。

图2 客户分群占比

执行K-means聚类后结果如表1所示,表中数据为每个簇在各变量中的均值,其中月均购气量和预付款余额均值出于客户数据敏感性考虑,分别以聚类1的均值为参照基准,进行相对标准化转换。

表1 客户聚类分析结果 单位:%

聚类1是高价值购气增长型客户。这类客户的特点是:月均购气量最高;预付款余额均值最高;月均购气量同比增长率较高,第二季度购气量同比增长率最高,第三、四季度购气量同比增长也实现翻番;上月购气量环比较高;月压减百分比均值居中,可压减空间一般;第二季度和第四季度购气量占比居中;月计划符合率一般。

聚类2是稳定购气型客户。这类客户的特点是:月计划符合率最高;月压减百分比均值最低,可压减空间最小;月均购气量较高;月均购气量同比增长率最低,上月购气量环比也略低;第二季度和第四季度购气量占比居中;第二季度购气量同比增长率较高,第三、四季度购气量同比增长率略低;预付款余额均值略低。

聚类3是低价值流失型客户。这类客户的特点是:月均购气量最低;上月购气量环比最低;预付款余额均值最低;月计划符合率最低;月均购气量同比增长率较低,第二季度购气量同比增长率较低,第三及第四季度购气量同比增长率最低且负增长;月压减百分比均值居中,可压减空间一般;第二季度购气量占比最高,第四季度购气量占比最低。

聚类4是冬季补充购气型客户。这类客户的特点是:月均购气量较低;第二季度购气量占比最低,第四季度购气量占比最高;月均购气量同比增长率最高,但第二季度购气量同比增长率最低,第三、四季度购气量同比增长率最高;上月购气量环比最高;月压减百分比均值最高,可压减空间最大;月计划符合率较低;预付款余额均值较高。

4.2 聚类结果应用思路

根据上述聚类结果,天然气行业销售企业可以针对不同类型的客户特征,提供更有针对性的营销和服务,对企业市场开发和提升销售利润具有重要的指导意义。

聚类1的客户月均购气量最高,四个季度购气量较为均衡,预付款余额最多,属于最优质的客户类型。这类客户购气已呈现高增长趋势,为了进一步挖掘其潜在购买力,可适时考虑拓展非气业务,增加单客户收入。对于这类高价值客户,客户经理应该定期拜访,继续维持良好的客户黏性,保持客户的忠诚度。

聚类2的客户数量最多,四个季度购气量也较为均衡,计划购气符合度最高,可压减空间最小,属于最稳定的客户类型。这类客户不仅有利于确保产用平衡,使长输管道运行压力相对平稳,而且有利于天然气计划调度管理,系统控制管网资源,为下游用户用气提供可靠保障。

聚类3的客户月均购气量最低,四个季度购气量不均衡,属于最摇摆的客户类型。各季度购气量同比增长率均偏低,说明该类客户具有潜在的流失风险,在气源充足的情况下,可采取必要的挽留措施,把这类中立摇摆的客户转化为高忠诚度客户,有效减少客户流失,扩展市场份额,增加销售收入。

聚类4的客户明显偏好第四季度购气,第三、四季度购气量同比增长率非常高,同时压减执行情况最好,属于季节性的客户类型。在第三季度调峰压力小,可在第三季度提供充足的购气量,但在第四季度冬季调峰压力大,可优先考虑对其压减,确保调峰保供。

5 结论

本文基于天然气客户标签,分析客户购气规律,通过K-means聚类算法对客户群体进行细分,总体聚类效果较好,各类客群业务特征明显。下一步将持续改进和完善客户聚类模型,按照不同区域、省份、行业、客户类型等维度分别探索和挖掘数据的价值。在历史数据量积累充足的情况下,融入预测性分析,实现更精准的客户洞察。未来结合天然气客户分群结果以及客户标签中单一或多标签组合的综合业务应用,可以形成“一客一策”的市场营销和客户维系策略,有效提升客户体验,为实现企业与客户的共赢带来新的价值增长点。

猜你喜欢

气量均值增长率
做人要有气量,交友要有雅量
气量可以学习吗
王旦的气量
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
浅谈均值不等式的应用
气量三层次
均值不等式的小应用
台2016GDP“成功保1”
美拭目以待的潜力城市