APP下载

基于生命周期的电信诈骗聚类研究

2022-03-23农博文

网络安全技术与应用 2022年2期
关键词:通话号码生命周期

◆农博文

基于生命周期的电信诈骗聚类研究

◆农博文

(中国联通广西分公司 广西 530000)

本文主要描述了中国联通广西分公司为针对电信诈骗,而研究涉案号码的使用行为,发现涉诈特征,根据特征对号码进行监控。由于诈骗手段变化较快,对于涉案号码的行为难以鉴定,因此利用电信市场经营的客户生命周期理论,优化诈骗号码分类模型,最终提高了诈骗号码聚类特征的显著性。

大数据;数据分析;信息安全;电信诈骗

近年来,电信电话诈骗犯罪活动持续高发多发,犯罪行为日趋严峻复杂。围绕电信电话诈骗犯罪,还产生了一系列黑灰产业链,形成大量上下游关联犯罪。同时诈骗金额亦越来越大,造成了恶劣的社会影响,给社会稳定和人民财产安全造成严重危害。诈骗手法、设备日新月异,电信运营商越来越难从单一的诈骗通话特征去辨别诈骗号码。

中国电信广东研究院通过基于信令的电话诈骗行为检测及防范方法[1],对响一声电话、仿冒公检法、仿冒熟人等场景进行信令监控。广东省电信规划设计院有限公司搭建基于移动号码基础特征及通话行为的防范电话诈骗模型,针对诈骗通话行为的前、中、后阶段进行判别及拦截处置[2]。本文探究如何利用大数据聚类算法,有效地对涉案号码每日行为特征进行趋势聚类,提出了过程中遇到的问题以及解决方案。本文在探索涉案号码行为特征时,对其语音行为进行趋势聚类,具体描述后续会介绍。

1 k-means聚类算法

k-means算法是一种基于划分的聚类算法,它以k为参数,把n个数据对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低[3]。首先,随机地选择k个数据对象,每个数据对象代表一个簇中心,即选择k个初始中心;对剩余的每个对象,根据其与各簇中心的相似度(距离),将它赋给与其最相似的簇中心对应的簇;然后重新计算每个簇中所有对象的平均值,作为新的簇中心。不断重复以上这个过程,直到准则函数收敛,也就是簇中心不发生明显的变化。通常采用均方差作为准则函数,即最小化每个点到最近簇中心的距离的平方和:

聚类算法也许是机器学习中“新算法”出现最多、最快的领域,一个重要的原因是聚类不存在客观标准,给定数据集总能从某个角度找到以往算法未覆盖的某种标准从而设计出新算法。k-means算法十分简单易懂而且非常有效,但是合理地确定k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。

2 特征聚类问题

利用k-means算法对时间序列进行分类,参考k-means算法的模糊时间序列预测模型,提出了基于k-means算法的非等分论域划分方法[4]。EMD与k-means时间序列聚类提出一种能够对时间序列进行有效预处理的方法,利用k-means算法对经过上述方法预处理后的序列进行聚类[5]。透视涉案号码在一个月中,每日的使用行为,例如某个涉案号码在某月1至31日主叫通话次数的波动情况。单个号码行为趋势研究,转变向多个号码行为的研究。在此要解决的问题是,需要把有相似趋势的用户聚类,分析聚类中心的趋势特点。研究多个用户在大数据下,趋势聚类的情况。

将每日的行为数据作为特征,假如某月有31天,相当于有31个参数进行观察。31天的时间串联起来形成观察号码在该月的趋势,拥有相同诈骗行为趋势的号码可判断为高危涉诈号码。探索涉案号码每日通话次数的行为特征时,由于用户量过多,用k-means聚类方法将涉案号码分类。经过探索,见图1,中心个数在250-300时离差平方和基本稳定,中心个数达到最佳。

由于聚类中心过多,不利于判别涉案号码的特征,因此需要挖掘优化减少涉案号码聚类中心的方法。

图1 全涉案号码主叫次数聚类中心点最佳数量

3 电信用户生命周期

在电信市场经营中,客户分析以数据挖掘分析为主要手段。根据客户生命周期的规律,可以依次设计客户分析的内容[6-7]。客户生命周期原本用于电信市场经营分析,对不同阶段的客户深层的需求,透过数据对市场营销进行指导[8]。进入阶段客户发现和获取潜在客户,并通过有效渠道提供合适的价值定位以获取客户,成长阶段通过刺激需求的产品组合或服务组合把客户培养成高价值客户,成熟阶段通过刺激需求的产品组合或服务组合把客户培养成高价值客户,衰退阶段通过刺激需求的产品组合或服务组合把客户培养成高价值客户,客户趋向于离网。

图2 客户生命周期概要图

面对多变的诈骗号码行为,利用用户生命周期系统对电信用户进行划分,能更有效地监控诈骗行为。将涉案号码按照发展、提升、稳定/衰退期划分,观察其通话次数在一整月的变化情况。由于诈骗号码对于运营商来说,属于一种拥有特殊行为的客户。只要是客户都遵循用户的生命周期,从诞生到成长,从成长到消亡。所以诈骗涉案号码遵循客户生命周期分割后,是否更能清晰的展示趋势特征,是本文探讨的问题。

4 生命周期系统下k-means聚类结果对比

对发展期、提升期、稳定/衰退期的涉案号码进行聚类探索,如图3(a)、图4(a)、图5(a)可知在聚类中心为3个的时候,离差平方和开始趋于稳定,所以可知当月入网的涉案号码可以分为3类。

发展期的三个聚类中心,见图3(b),第一个分类在2-3日时,主叫次数开始突增,在5日的时候达到峰值,后两天开始急剧减少,该类涉案号码在月初的时候拥有集中大量呼叫行为;第二类在31天中几乎处于静默状态,在15日之间有5次左右的主叫通话;第三类是在12日之前处于静默状态,12-15日的时候主叫次数开始突增。

图3(a) 发展期聚类中心点最佳数量

图3(b) 发展期3类聚类31天趋势

提升期的三个聚类中心,见图4(b),第一个分类在1-10日间有大量的通话主叫,在15日后进入静默状态;第二个分类在1-5日之间有5次左右的主叫通话,其他天处于静默状态;第三类在5日开始,每日都有频繁的主叫通话行为。

图4(a) 提升期聚类中心点最佳数量

图4(b) 提升期3类聚类31天趋势

稳定/衰退期的三个聚类中心,见图5(b),第一个分类在1-10日间有大量的通话主叫,在15日后进入静默状态,这行为与提升期的第一个分类类似;第二个分类在5日开始,每日都有频繁的主叫通话行为,15日后又回到静默状态;第二个分类在5-10日之间有5次左右的主叫通话,其他天处于静默状态。

图5(a) 稳定/衰退期聚类中心点最佳数量

图5(b) 稳定/衰退期3类聚类31天趋势

经过上述探索,发现在发展期、提升期和稳定期的诈骗涉案号码都有不同的通话行为特征。新发展的号码会在当月开户后有大量的主叫行为,一般从5日后开始;提升期和稳定期的诈骗涉案号码在月初1日开始就有急剧的主叫通话行为;提升期的分类中,有着全月主叫通话来回震荡的行为。

5 结束语

经过上诉的研究分析,若需要对涉案号码在当月行为趋势进行分析,最好的方式是利用聚类算法。在探索趋势聚类的过程中,因为趋势数据离散,聚类中心点拟合度不高。为提高拟合度,根据电信用户行为特征,利用客户生命周期体系将用户切割,在各周期中进行聚类,效果良好。该研究探索了客户生命周期理论和聚类方法在电信诈骗领域中的应用,发现处于不同周期的诈骗号码在涉案月中每日时间序列有着不同的行为趋势。后续将对正常用户的使用行为依据本文中的方法进行探索,并与涉案用户的行为进行对比,为诈骗行为监控提供数据上的支撑,精准地捕获涉案号码。

[1]李力卡,张慧嫦. 基于信令的电话诈骗行为检测及防范研究. [D].广东省电信规划设计院有限公司,2016.

[2]程锦红,萧瑶,方雅丽,等. 基于大数据的防范电话诈骗体系架构研究[D].中国电信广东研究院,2020.

[3]韩瑞瑞. K-means聚类算法的研究[D]. 中国石油大学(华东),2020.

[4]王国徽,姚俭. 基于Kmeans算法的模糊时间序列预测模型[J]. 应用泛函分析学报,2015(01):58-65.

[5]刘慧婷,倪志伟. 基于EMD与K-means算法的时间序列聚类[J]. 模式识别与人工智能,2009,22(5):803-808.

[6]邓洁君. 电信客户生命周期价值模型及在客户细分中的应用研究[D]. 四川大学,2007.

[7]周雨欣. 电信客户生命周期特征与营销策略研究[D]. 南京邮电大学,2005.

[8]舒华英,齐佳音. 电信客户全生命周期管理[M]. 北京邮电大学出版社,2004.

猜你喜欢

通话号码生命周期
全生命周期下呼吸机质量控制
微信上小额借款 请务必通话确认
说号码 知颜色
一个号码,一个故事
猜出新号码
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
《戊戌元日与友人通话》
企业生命周期及其管理
这个号码很吉祥