APP下载

通信大数据可视化的研究

2020-03-21

通信电源技术 2020年3期
关键词:信令东盟国家可视化

陈 中

(中国联通广西分公司,广西 南宁 530022)

1 概 述

通信大数据可视化是整合联通集团总部、北海国家高新技术产业开发区、中国互联网络信息中心等多方数据源,汇聚全国各省市及东盟十国的语音通话、上网及域名解析等数据,从内容策划、数据整合与分析、可视化等多个维度精心打造的高质量通信大数据展示产品。

2 研究背景

第13届中国-东盟博览会于2016年9月在广西南宁举办,政府迫切需要为参加博览会的国内外嘉宾展示中国与东盟国家的信息往来。基础设施平台是中国—东盟信息港在职能层面规划的第一大平台。通信大数据可视化项目需要形象展现出基础设施平台中3个重要通信节点在中国与东盟国家交互流程中的核心地位。第一个重要的通信节点是中国联通南宁区域性国家通信业务出入口(简称南宁国际局)。通信大数据通过对中国与东盟的语音呼叫行为的展示,突显南宁国际局在双方语音交互行为方面的重要作用。此外,通信大数据还要从东盟各国和中国各省两个角度对中国与东盟经由南宁国际局的语音行为进行了统计,展现东盟十国与我国各省语音交互的活跃程度。第二个重要节点是南宁国家级互联网骨干互联节点。通信大数据要通过现在和未来进行对比,为参观者展现该节点建成后三大运营商互联网实现本地互联的美好愿景。第三个重要节点是北海国家顶级域名解析系统节点。通信大数据要从解析行为、热门网站等角度为参观者直观地诠释了北海国家顶级域名解析系统节点在网络通信中的重要角色。

3 创新内涵与实践

本次创新内容主要是基于Hadoop的大数据分布式存储,搭建基于hadoop的大型数据仓库,存储采集的各类原始数据,分析用户上网行为及位置轨迹,结合GIS地图或3D建模渲染等方式,通过图形化的界面搭建具有专业水准的可视化应用,传达中国与东盟国家的数据与信息往来[1]。

3.1 基于ECharts的数据可视化展示

整个系统运行在Hadoop集群环境及mysql数据库中,包括用于通信大数据可视化展示结果的前台web;用于采集处理各类多源异构数据源到Hadoop集群中,并更新探索结果供前台页面展示的后台server;用于自主编写数据挖掘程序,集成了python、R等编程语言的环境的前台ui;用于数据挖掘,集成了大量数据处理、数据挖掘算法的后台miner。

前台web展示使用了ECharts,它是百度提供的一个使用JavaScript实现的免费开源可视化库,底层使用矢量图形库ZRender的技术,提供直观,交互丰富,可高度个性化定制的数据可视化图表。

ECharts是由数据驱动,数据的改变直接驱动图表,能够展现千万级的数据量,通过增量渲染技术,基于visualMap的视觉编码,支持不同维度的颜色、大小、透明度、明暗度调整。

本系统中的东盟访问中国的十大热门网站柱状效果图样如图1所示。

图1 东盟访问中国的十大热门网站柱状效果图

3.2 基于Hadoop架构的用户上网行为分析应用

随着移动数据上网业务的日益增长,用户的上网行为也逐渐成为大家关注的焦点。因此,系统通过沉淀海量互联网上网日志到Hadoop集群,分别从用户访问人数、频次、使用流量进行分析,得到中国与东盟国家用户群中使用各类APP应用的排名情况及变化趋势,洞察不同客户群体的个性化差异需求。

联通集团统一DPI系统架构如图2所示。

图2 统一DPI系统架构图

统一DPI系统通过数据采集层、数据解码层、应用 层 完 成LTE系 统Uu、X2、S1、S11、S10、SGs、S6a、S5/S8等接口及防火墙数据的接入和采集,原始XDR进行分析、关联、回填及合成,上层应用系统的一系列功能。

传统架构处理DPI记录存在如下困难。

(1)移动用户上网行为记录是海量数据。当前联通全国每月的上网记录数达到万亿条。为满足查询和分析要求,需要存储3-6个月的历史数据,存储容量达到PB级。同时,移动互联网用户访问流量在快速增长(大约每半年翻一番),由此引发的上网记录数据将进一步猛增。

(2)传统的基于IOE(IBM小型机+Oracle关系数据库+EMC2高端存储)的IT方法无法满足应用的需求:数据量超越了传统关系型数据库可管理的容量上限,并且关系型数据库对如此大量的数据进行查询和分析操作时,性能严重下降,导致系统无法使用。小型机+高端存储+商用关系数据库,投资成本巨大。

本系统满足如上需求,在基于Hadoop/Hbase的分布式架构上提供两大功能:移动用户上网记录查询和分析服务。

(1)上网记录查询。通过在联通移动通信网所有Gn接口链路进行用户上网数据采集、信令和业务解析、合成,生成全网移动用户上网流量详单记录(Flow Detail Record,FDR)。

(2)上网记录分析。通过对用户上网记录数据进行统计,并提供实时和可视化结果,同时对外提供数据接口服务,来满足未来的智能分析需求。

移动用户上网记录集中系统架构如图3所示,用户的所有上网数据进行采集主要通过省分分组域Gn口部署数据采集设备,进行信令和业务解析后入库到采用Hadoop或Hbase的数据库中[2]。

3.3 基于用户手机串号的终端分析

通过对中国与东盟国家用户的手机终端分析能为终端生产和销售产业链提供多维度终端热度排行、忠诚度排行,综合评估不同国家人群终端市场占有率、换机率、用户终端喜好趋势,为电子产品相关企业的研发、生产和销售策略等提供完整的数据决策;为投资行业提供终端品牌价值参考,供其进行投资选择;为公众购买手机终端提供依据。本平台通过联通集团终端DW平台接口将用户五元组数据下发至省经分FTP接口机。终端基础信息接口主要是一些编码信息,包括终端厂商表、终端型号表、终端参数表、终端参数子项表。

主要接口协议与数据口径说明如下。

(1)数据口径:详单中,截止到月末最后一天的用户五元组。例如,2015年12月五元组月全量数据是:提供12月全月语音详单和流量详单中的用户,截止到12月31日23:59:59时,用户最新的五元组。

(2)数据内容:用户五元组。

(3)数据接口:文件接口,TXT文本文件,分省提供。

(4)数据文件生成时间:每月6日。

DIM_IMEI_LABEL是手机IMEI标签表,其主要功能是把所有的IEMI进行打标后呈现。同时,由上述数据观察研究中国与东盟国家在通信行业发展历史现状及未来趋势上的差异。

3.4 基于用户行为与手机信令数据的用户位置分析

图3 移动用户上网记录集中系统架构图

手机信令是用户位置的天然采集器,具有公认的连续性、全覆盖特点。系统基于联通历史和实时手机信令分析数据,并融合第三方多源数据,形成了以手机信令数据为基础的全域人口大数据位置信息。通过手机信令数据可实现居住地或工作地、POI、渗透辐射区、人口监测、人口流动的可视化,方便感知和洞察中国与东盟国家人口往来大数据背后的城市规律。

目前,我们可以通过话单和信令数据清楚知道用户所在的基站,通过查找基站的信息可以大概知道用户所处的范围,但缺陷是只知道归属基站,无法更精准的实现用户定位。因此,首先需要解决的是如何获取用户更为精准的位置信息,有两个发展方面设想,具体如下。

第一,基于MR信息,根据用户与多个基站之间的信号场强来判定用户位置。

传统的MR定位方法是基于信号强度进行定位,利用在MR中的接收信号功率以及导频信道发射功率可以计算出路径损耗,然后通过传播模型计算移动台到小区的距离,通过对多个小区的距离测量计算,最终确定用户位置。该定位方法的精度受信道变化影响较大,在市区等无线环境复杂区域,无法精准定位用户位置。此外,该方案需要从O域获取MR数据,MR数据属于非常态数据,可能需要专门的MR数据采集动作。

第二,基于用户GPS定位数据,可以直接得到用户准确的经纬度信息。

在WCDMA规范中,测量报告具备用户上报位置GPS信息的功能,随着基于用户位置信息的APP应用日趋丰富,如百度地图、嘀嘀打车、微信等,用户已养成打开手机“GPS定位”功能习惯,这为大规模获取用户准确位置信息数据提供基础。

3G网络中已实现用户呼叫记录数据采集,网络质量评估数据充足。目前,在3G网络的RNC中已经采集用户呼叫记录数据。用户呼叫记录数据主要包含用户的信令数据、MR测量报告数据等。其中,MR测量报告包含用户的ECIO、RSCP、位置信息等。呼叫记录数据采集情况如图4所示。

在GN口部署探针,获取手机QQ、微信中的位置信息数据,然后解析得到用户手机号、帐号、经纬度等关键信息。根据用户一段时期内的经纬度信息即可判断出比较精确的常驻地点。该方案的定位准确度最高,但是需要直接获取GN口数据来开发实现。

图4 呼叫记录数据采集情况

4 实施成果

在2016年9月举行的第13届“中国-东盟”博览会期间,通信大数据项目的可视化展示,生动形象的呈现出中国与东盟信息往来的千丝万缕,获得了各方各界人士及国内外嘉宾的高度评价,为推动“一带一路”建设贡献力量。通信大数据可视化,获得由数据中心联盟、中国大数据技术与应用联盟、中国通信企业协会通信网络运营专业委员会颁发的“2015-2016年度大数据优秀案例奖”。

5 结 论

本文结合实例详细介绍了通信大数据可视化,以供参考。

猜你喜欢

信令东盟国家可视化
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
思维可视化
自然资源可视化决策系统
移动信令在交通大数据分析中的应用探索
基于信令分析的TD-LTE无线网络应用研究
论中国与东盟国家合作保护古沉船——以海上丝绸之路沿线古沉船为例
俄将加强同东盟国家军事合作
LTE网络信令采集数据的分析及探讨
东盟两次危机全靠中国伸援手