APP下载

基于大数据的运营商IDC 业务违规转接监控的研究与试点

2020-05-27朱明星段霞光陈晓敏

通信电源技术 2020年6期
关键词:网络流量流量功能

朱明星,段霞光,陈晓敏

(中国联通广州市分公司,广东 广州 510630)

1 研究背景

在业务快速发展的同时,IDC 业务违规风险越来越不可控。随着IDC 业务发展,IDC 网络带宽通过外拉线路延申至其他未知的网络环境中,存在极大带宽转接风险。为满足运维部门和业务部门对网络流量监控、网络应用管理、IDC 业务管控方面的需求,促进IDC 业务健康发展,针对IDC 业务建立了一套基于大数据分析系统。将网络、业务/应用、设备、用户等维度有机结合起来,深入挖掘网络流量、应用、用户行为等方面的特征,实现全网流量的全方位立体化解析,杜绝IDC 违规转接行为,打造“可管、可查、可控”的网络运维管理和业务优化平台[1]。

2 方案总体规划

2.1 总体原则

IDC 流量违规监控大数据分析平台主要由两个部分组成:IDC 内部产生流量分析、IDC 网络范围内IP地址在其他网络产生流量分析[2]。

2.1.1 第一部分主要功能要求

(1)数据采集层:实现IDC 流量采集功能

IDC 流量采集系统主要实现对IDC 机房客户的接入流量进行采集,对IDC 客户流行为数据进行记录和分析。系统具备流行为历史数据存储的功能,以便于对IDC客户的网络流量行为进行历史查询和回溯分析。

(2)数据分析层:实现流量数据挖掘功能

流量数据挖掘系统实现对IDC 机房客户接入流量进行识别,对客户流量流向进行分析,并通过流量行为深度分析和多维数据横向关联分析实现对安全运维、业务热点、业务性能等方面的深度分析。

(3)数据应用层:实现业务监测分析功能

业务监控分析系统实现对全局和具体客户的网络流量和业务状态进行监控分析和图表展示,能够对网络中的异常流量和客户的违规行为进行识别和预警。该系统能够提供形式灵活、操作方便的实时动态分析报表,并能够根据业务管理需求,生成周期性的业务汇总报表。

2.1.2 第二部分功能要求

大数据分析平台与外部移动端手机消息推送服务商后台对接,推送服务商从各大APP 厂家后台获取数据。

2.2 系统架构

图1 为IDC 流量违规大数据分析平台系统功能架构示意图。

(1)数据采集层(IDC 流量采集子系统)

数据采集层采用第三方厂家专有的流数据采集设备。

流数据采集设备基于网络流数据(Flow)采集技术,提供千兆至40G 的网络流量数据实时采集功能。

数据采集层提供:数据采集、数据存储、数据转发和设备配置管理功能。

(2)数据分析层(流量数据挖掘系统)

数据分析层包含:流数据处理引擎、网络流量分析引擎、网络性能分析引擎、网络终端分析引擎、多维关联分析引擎、规则解析引擎、网站应用分析引擎及网络异常告警引擎等。

数据分析层通过属性挖掘、关联分析、行为分析等方式,提供涵盖网络流量、网络性能、网络异常、终端类型及业务热点等各方面的分析内容,从网络运维、网络安全和业务价值等多个角度充分挖掘数据价值。

图1 IDC 流量违规大数据分析监控平台系统功能架构图

(3)数据应用层(业务监测分析系统)

数据应用层提供:流量流向分析、IDC 业务热点分析、假接入真互联分析、网络应用监测、业务实时监控分析、业务实时告警、业务汇总报表、运行状态监控、角色权限管理、系统配置管理及客户配置管理等功能。

数据应用层通过形式灵活、操作方便的动态Web界面,提供多维度可视化的动态报表,关键指标动态预警、流量/安全/终端和业务趋势报表,以及运维和业务优化方案等数据应用功能。

3 IDC 内部流量分析系统功能实现方案及流程

3.1 基本功能实现原理和流程

本平台通过对互联网流量采集,通过流行为分析,获取关键业务指标(KPI),在IPFIX、SFlow、NetFlow等标准的实时流量数据基础上通过专有的韵成Flow,融合大数据分析系统和Web 实时交互平台,可以提供多维度的业务系统性能监测、业务运营数据分析和业务系统优化评估等功能。

3.2 流量数据存储方式

本平台通过扩展的流数据格式(韵成xFlow)存储数据,具体如下。

(1)流量采集设备分析通过分光或镜像方式获取的流量数据,在IPFIX 国际标准上形成自有的PSTR(增强可见性的一种数据类型)数据采集格式。

(2)分布式部署的流量采集设备将xFlow 数据汇总保存在流聚合中心服务器上,进行统一的挖掘分析。

(3)系统不保存用户通信的内容,不对用户数据进行重组;系统存储的数据不涉及用户的商业秘密和隐私数据,确保数据和隐私安全。

3.3 违规转接分析功能实现原理介绍

本平台通过分析网络流量数据,从多个维度分析和判断网络中某个源IP 是否存在NAT 转换,并计算某时间段内,对应IP 地址NAT 转换最大的并发在线主机数量。

本方案针对不同网络场景,通过简单高效的回归算法搜集跨越网络传输层和应用层的特征信息,并通过机器学习功能自适应参数设定,从而提高对假接入真互联行为发现的准确性。

本方案综合搜集了如下特征值,并通过相关算法进行假接入真互联行为的分析和判断:

(1)系统类型(windows,linux,etc);

(2)系统版本号;

(3)IP 包签名(IP_id、扩展头、标记位);

(4)TTL 值;

(5)MSS 值;

(6)TS(TCP 扩展头内的时间戳);

(7)http via(代理转发信息);

(8)http date(应用发出的时间信息);

(9)http useragent(客户端应用信息)。

本方案所采用的主要判断算法简述如下:

第一,IP_ID(identificaion)算法的实现描述。根据RFC791-IP 包格式规范,IP 包扩展属性中有2 字节的identification(简称为IP_ID),Windows 用户的IP_ID 随着用户发送的IP 包数量而线性增加(无论IP 包发送到何处,包括发给自己),Windows 95/98 每发一个IP 包,IP_ID 增 加256,Windows 2000/NT/XP 每 发一个IP 包,IP_ID 增加1。

第二,时间戳算法实现描述。根据RFC 规范,IP报文包含最大40 字节的可选字段,其中0X44 代表时间戳选项,该字段记录数据包传输过程中各个路由器以及本机的时间值。

不同的主机物理时钟偏移不同,网络协议栈时钟与物理时钟存在对应关系;不同的主机发送报文的频率因此与时钟存在一定统计对应关系;通过特定的频谱分析算法,发现不同的网络时钟偏移来确定不同的主机。

第三,应用特征统计实现描述。很多软件都有自己独特的网络连接规律,如windows、暴风影音等软件都有固定的软件更新周期,会每隔固定的时间就会和升级服务器同步一次,如果在一个同步周期发现多次同步信号也能在一定程度上反映共享接入的情况。又如QQ/360 等软件报文中会携带主机特征,通过分析应用软件主机特征是否存在差异,也可以作为主机数判决的依据。

3.4 大数据分析平台内部流量测试结果

通过对IDC 网络出口流量分光监控,将用户流量做采集分析,根据用户网络层、传输层、应用层等不同特征判别用户流量行为是否符合正常的IDC 流量行为。

4 IDC 外部流量分析平台部署及测试

4.1 大数据分析平台部署介绍

大数据分析平台与外部移动端手机消息推送服务商、APP 通过集成推送SDK 实现消息推送,集成了SDK 智能终端,一直维持着和连接服务器集群每分钟一次的心跳,大数据分析平台与外部移动端手机消息推送服务商后台对接,推送服务商从各大APP 厂家后台获取数据。大数据平台提取所有移动终端在WiFi 接入网络的情况下,由符合预先设定IDC 网络内的IP 地址段产生的信息:IP 地址、收集位置信息、服务时间戳。图2 为外部流量大数据分析部署结构图。

图2 外部流量大数据分析部署结构图

4.2 平台测试结果

大数据平台测试广州某二级代理商地址段使用情况:对其中104 个C 的地址进行了检测,共发现有39个IP 地址漫游至其他城市的记录。

5 结论

IDC 业务发展迅猛,用户网络行为也越来越复杂,依靠单一类监管方式去鉴别用户是否存在违规转接行为会存在很大误差。本方案通过大数据手段,将内部流量监控和外部网络使用的IP 地址归属分析结合判别,大大提高了对违规转接行为鉴别精度。本次测试两个大数据分析系统独立运行,没有做进一步深度结合,也是本次部署研究不足之处,后续在平台系统的网络部署中将两台大数据平台融合起来,会使分析结果更加精准。

猜你喜欢

网络流量流量功能
也谈诗的“功能”
基于多元高斯分布的网络流量异常识别方法
99Tcm-MIBI显像在甲状旁腺功能亢进术前诊断中的应用价值
大数据驱动和分析的舰船通信网络流量智能估计
冰墩墩背后的流量密码
基层弄虚作假的“新功能取向”
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
奔驰S级香氛功能介绍
大数据环境下的网络流量非线性预测建模