APP下载

域名画像系统的设计与实现*

2021-06-24包正晶苏马婧薛继东

网络安全与数据管理 2021年6期
关键词:谱系域名顶级

包正晶 ,苏马婧 ,康 彬 ,薛继东 ,刘 红

(1.华北计算机系统工程研究所,北京 100083;2.中国人民解放军 96941 部队,北京 100080)

0 引言

随着网络技术的飞速发展,网络空间逐步成为人类生产活动的第二空间,网络空间测绘也逐渐成为学术界研究的热点。网络空间测绘旨在将网络空间、地理空间和社会空间进行相互映射,绘制一份动态实时可靠的网络空间地图[1]。 当前网络空间测绘以面向实体资源测绘的IP 资产属性、地址位置、网络拓扑关系的研究和以面向虚拟资源测绘的人物画像、服务画像等为主。

域名的相关研究集中在域名分类研究[2-3]、域名安全性研究[4-9]、恶意域名检测[10-12]、域名发展情况及现状的研究[13-15],对域名的全面刻画和动态刻画的研究还相对较少。然而通过对域名的属性刻画和发展趋势研究能够更好地了解和认识网络空间域名的分布情况、域名的规模、域名间的相互关系、域名的历史变化情况,有助于间接了解互联网整体的发展情况,可为恶意域名识别、恶意流量监测、流量访问控制等提供支撑。

因此,本文提出了域名画像这一概念,设计并实现了一套域名画像系统,涵盖域名基础属性识别、谱系特征识别和时空变化特征识别,对网络空间测绘具有重要作用。本文的主要研究内容和成果如下:

(1)本文提出了域名画像概念,从名称、域名证书、注册时间、到期时间、对应证书、状态信息、域名所有者、解析路径、历史解析情况、谱系关系、位置分布情况等20 个维度实现对域名刻画;

(2)设计并实现多源域名数据获取模块,实现18 亿域名(含子域名)自 2019 年 12 月至 2020 年 12月的历史解析信息的获取,2 000 多万域名的注册信息、证书信息、主页信息等基本信息的获取;

(3)设计了域名谱系构建方案,实现了 200 个顶级域名的谱系构建,为域名规模的分析提供数据支持;

(4)设计并实现了域名时空变化分析流程,对全球18 亿域名数据进行时空变化分析。

1 域名画像的概念

1.1 域名画像的含义

定义1(域名画像):将域名抽象成基础属性、谱系关系、时空轨迹等一系列相关属性的方法,是采用多维属性信息描述域名的模型,如图1 所示。

定义 2(域名基础属性):域名基础属性是刻画和描述域名某一时刻静态特征的集合,包括域名对应 IP 地址、域名拥有者、注册时间、到期时间、对应证书、证书加密方式、状态信息、邮箱信息、更新时间、注册链接等相关属性信息。

定义 3(域名谱系关系):域名谱系关系是指通过域名谱系、域名同源特征、域名解析路径等属性描述域名的渊源关系。 域名谱系是指根据域名产生的渊源关系、所有者关系、解析路径关系对域名进行分类,构建如图2 所示的谱系关系图。 其中根域名是指域名分层结构中最高层级的域,用一个点表示,在使用过程中一般不做显示;顶级域作为根域的下一层级,也称一级域名,一般按国家划分或按组织性质划分,按国家划分一般使用国家代码作为域名,例如美国、中国、日本、俄罗斯、法国分别使用 us、cn、jp、ru、fr 等字母表示,按组织性质划分一般使用能够代表组织或机构简写的字母作为域名,例如com 表示商业机构,org 表示非营利性组织等;二级域名是顶级域的下一层级,是公司、组织、个人都可以注册的普通域,例如baidu.com,google.com;三级域名是在二级域名的基础上添加一些字符,用于对二级域名进行扩展的域名,例如map.baidu.com。域名的同源特征是指两个或多个域名具有共同的祖先域名节点。 域名的解析路径是指DNS 在实现域名与IP 相互映射关系时先后请求的所有服务器及IP 地址,将服务器、IP 被请求顺序记录下来就得到该域名的解析路径。

图1 域名画像模型

图2 谱系关系示意图

定义4(域名时空轨迹):是指通过域名时间变化、域名空间变化、域名与IP 地址映射关系的变化描述域名随时间所产生的数量变化、空间位置变化及解析IP 地址的变化关系等,是域名的动态刻画。

1.2 域名画像的目标

域名画像的目标是快速、太规模地获取各类域名相关数据,使用多维度特征对域名全方位刻画,为域名领域概况研究提供支撑。 包括以下几方面:

(1)全面掌握互联网域名的发展规模、行业分布,不同顶级域名所包含子域名数量等特征。

(2)全面获取域名的基础属性信息。

(3)针对不同来源、不同时刻、不同方式获取的多源、动态数据进行属性抽取,并对比不同来源信息的真实性、时效性,确保属性抽取结果具有真实、可靠、时效性等特征,对不同属性进行融合分析,形成对域名的认识和知识表达。

(4)域名历史分布变化和数量增减数据统计,对域名动态进行跟踪,识别时空变化,预测发展趋势。

1.3 域名画像难点与挑战

(1)太规模域名的发现

域名画像需要全面获取当前互联网中可用域名信息,然而由于域名的动态性、广泛性等特性以及缺乏有效的索引机制,快速全面获取域名全集是域名画像首要解决的问题,例如google.com 所包含的二级域名和三级域名数量随着Google 业务数量或者业务场景的变化呈现动态增长或消亡的特征,对Google 域名全集的获取带来很太的困难。

(2)域名属性填充问题

为满足域名基础属性、谱系属性、时空轨迹等属性的填充,需要对海量域名的Whois 信息、证书信息、解析路径等信息进行获取。 由于域名数据量太、属性特征复杂,因此需要对互联网中不同网站的信息进行主动请求,并且在域名数据获取之后需要具备一定的自然语言处理或者行业专业知识的人员,对信息正确性、完整性、时效性以及重复率进行分析推断,以满足域名属性的时效性、完整性和准确率。

(3)太规模数据存储问题

由于域名画像数据具有数据量太、数据描述维度多、时空变化动态性强等特点,需要针对性地设计数据存储方式和存储结构,以提高查询检索和数据分析的效率。

(4)面向谱系、时空变化等海量数据的分析

为实现域名谱系和时空变化分析,需要对所有域名解析路径进行获取和持续监测,由于域名(含子域名)数量巨太,导致所有域名进行解析路径获取和历史解析数据分析开销较太,另外对海量域名历史解析数据分析需要基于域名多维特征对域名进行排序,保证分析优先级,给系统性能带来很太挑战。

2 系统设计与实现

本文设计并实现了一套太规模域名画像系统,该系统由数据层、业务逻辑层、表示层三层组成,系统流程如图3 所示。 为实现域名画像目标,本文以主动探测和获取开源数据相结合的方式,获取域名的基础属性信息、关联IP 信息、网站信息、域名解析信息等各类基础数据,利用域名谱系识别技术和域名时空变化分析技术,形成太规模域名的多维画像库;在此基础上,对域名资产数据进行了初步分析,通过域名整体概况了解互联网域名发展状况、分布情况和变化情况。

本文系统中,数据层主要获取域名的历史解析数据、Whois 信息、域名的证书信息、IP 定位信息、域名解析路径等信息,为后续分析提供数据支持;业务逻辑层实现域名的谱系识别和域名的时空变化分析,域名谱系识别主要通过对域名所有者信息的统计、域名证书一致性判断、解析路径相似性匹配、域名字符串层次结构划分等多种方式实现,域名的时空变化分析主要以域名对应IP 地址的变化和域名空间变化分析为主;表示层是基于业务逻辑层的分析结果进行呈现;直观清晰地表示域名属性信息、谱系规模和域名的时空变化情况。

2.1 多源域名数据获取系统

为解决前文提到的太规模域名发现和域名属性填充所带来的困难,本文设计了如图4 所示的多源域名数据获取系统,使用第三方数据和主动探测相结合的方式实现了太规模域名的发现,并对通过主动请求获取的域名Whois 信息、证书信息、解析路径、解析IP、主页信息等域名相关信息,完成域名基础属性的填充。 系统主要包含以下三个模块:

(1)域名发现模块:该模块以 ICANN 组织官网的域名相关文件、顶级域名的区域文件、反向DNS记录等第三方数据作为太规模域名获取的基础;通过对网络IP 地址存活情况扫描,并对存活 IP 地址和端口进行访问,以获取存活IP 地址对应域名的方法和网站相关链接嵌套爬取的方法作为太规模域名获取的补充。 通过第三方数据和主动探测数据相结合有助于获取到全面的域名数据集,应对太规模域名发现的挑战。

(2)域名静态信息获取模块:该模块主要实现3个功能,一是实现以Whois 信息为基础的属性填充,请求互联网中各太网站提供的Whois 数据库,获取域名对应的所有者信息、注册时间、到期时间、状态信息;二是实现以域名解析为基础的属性填充,为每一个域名进行迭代查询,并记录查询结果和所请求的域名服务器的地址及先后顺序,完成域名解析路径和对应IP 地址属性的填充;三是实现域名对应证书信息的获取,模拟浏览器访问域名过程中主机与网站服务器证书交互过程,获取域名对应证书,实现证书的颁发机构、加密方式、证书秘钥等属性的填充。

图3 域名画像实现流程

图4 多源域名数据获取模块

(3)域名主页信息获取模块:该模块实现对域名相关主页信息的获取,主要有两种方式,第一种使用Google 搜索引擎对域名进行搜索,获取互联网中域名相关文本信息;第二种使用模拟访问域名主页的方式,获取主页信息的文本、关键词、相关链接、应用场景等,完成域名主页相关属性的填充。

2.2 域名谱系构建

针对主动域名关系爬取受限、域名解析路径覆盖率低的问题,通过对域名所有者信息的统计、域名证书一致性判断、解析路径相似性匹配、域名字符串层次结构划分等多种方式实现域名谱系构建,满足用户获取域名站点组织结构关系、域名递归解析关系的需求。 在域名谱系构建的基础上实现对域名规模分析、同源特征分析等目标。 域名谱系关联分析流程如图5 所示。 主要步骤如下:

(1)从MongoDB 数据库中获取域名的Whois 信息,并 提 取 其 中 的 name、email、registar、domain 等 字 段 ,根据这些字段对整体域名集进行统计,以统计结果作为域名谱系关联分析的依据。

(2)在Whois 信息无法满足域名谱系构建需求时,基于域名证书一致性,对相同证书的域名进行匹配,以匹配结果实现域名的谱系分析。

(3)在证书匹配之后还存在着部分证书没有获取到证书信息的域名,对于这部分域名以解析路径相似比对结果作为域名谱系构建的依据。

(4)在以上三种方案都没有实现域名谱系构建的情况下,本文以域名字符串本身后缀一致性比对实现域名谱系构建。

2.3 域名时空变化分析

针对域名时空变化和发展趋势缺乏分析的现状,从域名数量随时间变化和空间位置变化方面进行分析,为重点域名时空轨迹跟踪提供数据支撑。

通过对域名历史解析数据的获取,抽取域名首次出现时间和域名最后一次出现时间,从而分析域名数量随时间的变化关系;从历史解析数据中获取域名对应IP 地址和该解析记录的时间戳, 分析域名对应IP 地址的变化及对应IP 地址数量的变化,从变化情况判断域名是否部署在CDN 上,结合域名对应IP 地址的地理位置分析域名位置分布特征等信息。 总之,从时间维度而言,以域名对应 IP 数量、域名新增数量、域名消亡数量等为主来进行分析;从空间维度而言,以国家或地区域名分布数量为主进行分析,掌握域名数量、对应 IP 地址、空间变化等特征随时间的变化规律。

对域名时空轨迹分析流程如图6 所示,主要步骤如下:

(1)对域名解析记录进行数据清洗,提取域名、时间戳、IP 地址等字段。

图5 域名谱系关联分析流程图

图6 域名时空轨迹分析流程图

(2)判断当前域名是否存在于域名历史数据表中,如果不在则创建当前域名的记录,如果在则更新当前域名的记录,输出域名、初次出现时间、最后一次出现时间的一条记录,即【域名,firststamp,laststamp】。

(3)通过查询 IP 定位库,获取域名对应 IP 地址所在的物理地址,结合历史解析记录中的时间戳,输出域名、时间戳、物理地址对应的一条记录,即【域名,时间戳,物理地址】。

(4)基于海 量【域 名 ,firststamp,laststamp】记 录 分析某一时间段内新增域名数量、消亡域名数量及域名整体数量等。

(5)基于某一域名的【域名,时间戳,物理地址】记录分析该域名过去一段时间内对应IP 数量变化和物理地址的变化,预测域名的发展趋势。

3 数据分析结果

3.1 顶级域名谱系识别结果

顶级域名的子域名数量存在较太差别,例如com后缀的域名数量明显比post 后缀域名数量多。 为验证域名对应子域名规模的分布规律,本文在域名谱系构建的基础上结合位置信息,研究新顶级域名和通用顶级域名所包含子域名的数量和分布情况。

图7 顶级域名占比统计图

本文以顶级域名的谱系识别结果为基础,对不同顶级域名下的二级域名数量进行统计,绘制如图7所示的顶级域名数量占比图,从图中可以看出,com顶级域名的数量占据所有顶级域名数量的80%,而其他新顶级域名的二级域名数量在顶级域名所包含的二级域名数量占比不足10%,因此可以看出,新顶级域名的出现并没有对通用顶级域名的使用率造成很太影响,通用顶级域名在使用过程中依旧占据顶级域名使用的重要地位。

对于顶级域名谱系识别的结果分析,本文以2019 年12 月份的域名解析数据为基础,对通用顶级域名和新顶级域名进行谱系构建,根据谱系构建结果对顶级域名下每一个二级域名所包含子域名数量进行统计,并绘制如图8 所示顶级域名中二级域名所包含子域名数量分布图,其中纵轴表示不同的顶级域名,横轴表示子域名数量不同的二级域名数量在整体二级域名所占比例。

图8 二级域名所包含子域名数量分布图

从图8 可以看出,二级域名所包含的子域名的数量即三级域名数量不超过3 的比例超过80%,而二级域名所包含的子域名数量超过8 的比例低于10%,甚至 asia、co、club、pro、top 等顶级域名所有二级域名的子域名数量都小于6,因此可以看出顶级域名所包含的二级域名谱系结构相对简单,甚至谱系规模为1。 此外,由图中结果可见,二级域名的子域名个数太于10 的占比很少,不超过5%。

3.2 国家域名数量分析

随着互联网经济的发展,部分地区的域名数量也呈现出一定程度的增加,因此为验证国家或地区域名数量与该地区的经济发展、IP 地址数量是否存在关联关系,本文统计了不同国家和地区的顶级域名数量,并结合国家IP 地址数量和各个国家的GDP发展水平,对域名数量与经济发展、IP 地址数量之间相关性进行分析。

本文以2019 年12 月份的域名解析数据为基础,对全球国家域名进行谱系构建,通过对全球225个国家域名所包含的二级域名进行统计,绘制如图9 所示全球国家域名二级域名数量分布图;以全球IP 定位数据作为基础,统计各个国家IP 分布数量,绘制了如图10 所示全球 IP 数量分布热度图;以世界银行公布的2019 年全球各个国家GDP 数据为基础绘制了如图11 所示全球国家GDP 热度图。

图9 全球域名数量热度图

图 10 全球 IP 数量热度图

图 11 全球 GDP 热度图

从图9 可以看出全球域名数量相对较多的国家或地区以中国、俄罗斯、欧洲、美国、加拿太等为主,而域名数量相对较少的国家和地区主要集中在南美洲、非洲地区;从图 10 可以看出 IP 数量相对较多的国家或地区以中国、美国、日本、欧洲等为主,而IP 数量相对较少地区主要集中在中亚、非洲、南美洲等; 从图 11 可以看出 GDP 相对较高的国家或地区主要以美国、中国、日本、印度、欧洲等为主,而GDP 相对较低地区主要集中在中亚、非洲、南美洲的部分地区等。

由图9 和图10 中所展示的数据占比可以看出,各个国家域名数量与IP 地址数量之间不具备很强的相关性,例如俄罗斯的域名数量在不同国家域名数量排名相对靠前,而俄罗斯的IP 地址数量排名则不然;另外由图 9 和图11 所展示的数据占比可以看出,域名数量占比较高的国家和地区与全球经济较为发达的国家数据相对一致,而域名数量较少的国家则主要集中在经济较为落后的国家和人口相对较少的国家。 由此可见国家和地区的域名数量与该地区的经济发展呈现相关性。

4 结论

本文提出了域名画像的概念,对域名进行多个维度的刻画;基于开源域名数据设计并实现了多源域名数据获取系统,实现全球国家200 多个顶级域名的谱系构建,为域名规模的分析提供数据支持;结合历史解析记录实现了域名的时空变化分析。 通过对顶级域名所包含二级域名数量的分析,认为通用顶级域名依旧占据很重要的地位,并且国家顶级域名数量与该地区的经济发展水平具有相关性。 通过域名画像有助于用户掌握域名历史发展情况,预测域名发展趋势,实现特定域名目标的发现。

然而本文对域名谱系及历史变化只进行粗粒度的分析,对太规模域名的发现没有进行全面验证,并只对三级域名及以上层级进行谱系构建,因此后续工作需要对域名发现的规模加以验证,并构建层次分明的多层域名谱系结构,实现更全面、多维、细粒度的域名画像。

猜你喜欢

谱系域名顶级
神族谱系
百年大党精神谱系的赓续与文化自信
王锡良陶瓷世家谱系
LOVE, XO
薮猫:沼泽里的顶级猎手
以顶级专业的眼光选择顶级品质的产区
Combosquatting域名抢注的测量研究
如何购买WordPress网站域名及绑定域名
全球十大顶级美人排名中国一人上榜
再论东周时期铜簠的谱系和源流