APP下载

暗网案件的爬虫取证技术研究

2018-11-02汤艳君安俊霖

中国刑警学院学报 2018年5期
关键词:暗网爬虫域名

汤艳君 安俊霖

(中国刑事警察学院网络犯罪侦查系 辽宁 沈阳 110035)

1 引言

随着网络的普及,用户不仅开始重视对网络信息内容的隐匿保护,也开始重视对网络通信双方的身份和通信模式的隐匿保护。匿名网络使得用户在互联网中个人信息不会被泄露。匿名网络是隐匿了上网者的IP报文信息,以实现保护上网者的个人信息和防止被恶意追踪。

用户寻找互联网上的信息通常会使用必应或百度等搜索引擎,而这类信息称为表面信息(Surface Web),即能被常规搜索引擎爬取的信息。与之相对的即暗网(Dark Web),暗网就是人们无法使用常规搜索引擎找到的虚拟空间[1]。与互联网相比,暗网不仅网址数量多,而且使用简单,仅需洋葱路由器和VPN便可进入其中,更重要的是不会留有任何访问记录。

当前针对暗网监管的研究较少,主要集中在“去匿名技术”、网络流量分析技术、深度挖掘等方面。而针对暗网网络的研究主要为Tor、I2P、HORNET。虽然对于Tor网络内容不能直接进行解密,但能利用网络流量分析技术来追踪到用户的位置。其中网络流量分析技术包括:

(1)网络数据采集:通过架设国外服务器并掌握大量的Tor节点来实现,对一些敏感信息进行跟踪和截获。

(2)匿名网络行为分析:通过识别用户是否在使用Tor浏览器来进行。

现有的相关法律法规和管理政策对暗网进行监管存在很大局限性。其中《中华人民共和国网络安全法》第24条规定:“网络运营者为用户办理网络接入、域名注册服务,办理固定电话、移动电话等入网手续,或者为用户提供信息发布、即使通信等服务,在于用户签订协议或者确认提供服务时,应当要求用户提供真实身份信息。用户不提供真实身份信息的,网络运营者不得为其提供相关服务”[2]。虽然网络安全法规定了入网、域名注册等需要进行实名制,但暗网网络还是能隐藏用户的身份,许多不法分子依然可以通过暗网进行非法交易。

因此,提出利用Python的Selenium浏览器自动化测试框架进入Tor网络,爬取暗网数据,实现对暗网的取证,为打击暗网犯罪的公安工作提供一定的借鉴意义。

2 暗网爬虫的取证方法

2.1 暗网案件的取证思路

与普通的案件不同,暗网是基于计算机互联网技术发展起来的,其犯罪证据必然具备网络、计算机、通信等方面的独有特征[3]。而暗网案件取证需要在互联网取证的方法框架内进行,具体取证思路如下:

(1)获取信息:首先了解清楚取证任务的背景、需求、目的、网络设备和环境。主要包括案件发生的日期、事件、网络拓扑、通信系统、涉案的系统和数据、涉案的人员及案件发生后的操作和处置流程等。

(2)制定方案:在开展取证工作前,需要针对取证工作进行评估并且制定有效的方案。制定取证方案主要包括确定参加取证的人员、取证的目的、时间要求、设备、列出初步的分析和取证计划和预设可能会遇到状况及对应的响应办法等。

(3)收集证据:首先记录收集的证据源的时间、来源、收集方式、证据源的软硬件信息等,然后使用工具或设备收集证据,最后将收集的证据进行有效的保存和哈希值计算,并明确证据的监管保护措施。

(4)数据分析:网络取证的最大特点就是会涉及到多个证据源,其中许多带有时间戳,可以使用一些方法和工具进行证据数据的关联。在理清众多证据源时,需要建立一条有效的时间线,并且从取证的需求或目标入手。

(5)出具报告或者笔录:取证过程和结果通过勘验笔录、证据检查笔录或者检验报告的方式呈现,要保持科学的严谨性和完整性。突出重点和在较高的层次上进行阐述是关键环节,还需要有易于为之辩护的细节作为支撑。

2.2 暗网爬虫的取证原理

匿名通信系统Tor(The Second Generation Onion Router),即第二代洋葱路由系统,由一组洋葱路由器组成(也称之为Tor节点)。它不仅能够提供客户端匿名通信,还可以帮助用户匿名上网和保护用户隐私[4]。

Tor的工作原理,即用户首先运行Tor Server,所使用的电脑就相当于一个Tor节点,经由这个节点第三方能够访问其他节点,用户也能够通过第三方的节点对其他节点进行访问。数据经过所选路径,最终到达Tor节点来访问目标资源。Tor选择的路径是随机的,随机选取路由来传输数据就会无法实现数据追踪。

在针对树形网站爬取数据的过程中,可能会遇到环路链接问题,比如从首页到下面节点,但是下面的链接节点又会链接指向首页,所以需要对链接进行去重。在设计暗网数据爬虫中选择深度优先算法[5],其原理是将输入的主网站的域名作为入口,然后判断是否为同一站点链接,防止爬出站外而导致无限尝试爬取,接着去爬取匹配的所有子域名(例如:子域名_1、子域_2……),再将爬取的子域名_1作为新的入口,继续爬取子域名_1所匹配的所有子域名,直到抓到尽头,如图1所示。

图1 深度优先策略

相关代码如下:

defTargetUrl(self,url):

target_url = []

fort in self.processUrl(url):

ifre.findall(domain_url,t):

target_url.append(t)

fort in target_url:

print(‘ 同一站点的链接为: ’+ t)

self.save(t)

returntarget_url

在分析Tor工作原理和深度优先算法的基础上,提出一种爬取暗网数据的方法:利用基于Python的Selenium浏览器自动化测试框架来实现[6]。当用户操作时,不需要用户关注底层的网络通信协议,只需要一个程序来控制操作过程。设计的爬虫的取证工作流程如图2所示。

图2 暗网爬虫工作流程图

2.3 暗网爬虫的取证结果

本实验的暗网数据爬虫的取证结果,即某暗网真实网页和某暗网下载到本地后还原的网页分别展示如图3和图4(其中真实网页的地址为:http://****.onion/;还原网页的地址为: file:///C:/passport/Onion%20 Identity%20...)。

图3 某暗网真实网页

图4 某暗网的还原网页

实验表明,可以实现对暗网网页内容的客观、有效地爬取,能够完全地还原暗网真实网页内容,将数据保存至本地进行分析和固定。

3 暗网案件取证实例

3.1 案情简介

2018年5月,某市公安局刑警支队根据专案组提供的线索,将涉嫌非法购买枪支和弹药的犯罪嫌疑人李某被捕。经过审查,该男子供认在暗网上购买枪支和弹药,并缴获李某的计算机主机一台。根据市局要求,需要检验李某在暗网网站与涉枪案件有关的资料信息,并查看涉案的即时消息聊天记录。

3.2 暗网案件取证步骤

3.2.1 常规性取证

常规性取证包括系统信息提取、用户痕迹调查、即使通信、邮件客户端解析、Web邮件解析、文本分析、反取证软件检测等[7]。

(1)提取当前存储介质上的操作系统信息、本地用户信息、网络配置、安装软件信息及硬件等信息。这部分分析结果让取证人员对存储介质上安装的操作系统环境有个整体上的认识,方便进一步的调查取证。

(2)查找历史上网痕迹记录,主要对计算机中的浏览器地址栏、浏览器收藏夹、浏览器历史记录、浏览器临时文件和Cookies记录进行查看。浏览器的收藏夹可以反映出用户对哪些网站感兴趣,对案件调查起到辅助分析的作用。Cookies记录用户所访问过的站点和访问的频率,以及最近访问的时间信息等。根据案情,李某必然会搜索相关暗网方面的内容,比如如何进入暗网、如何购买比特币等。

(3)搜索存储介质中的与案件相关文件,如.xls、.jpg、邮件等文件及聊天记录内容。在暗网购买枪支弹药过程中,买卖双方必然会使用聊天工具,调查李某使用聊天工具的聊天记录,可获得涉案枪支的型号、价格、工艺情况等信息。

3.2.2 远程勘验取证

本案的重点是查找和恢复涉及枪支相关网页并进行分析、整理,导出证明案件事实的网页文件。具体取证步骤如下:

(1)配置网络环境。设置国外代理,配置洋葱路由。

(2)检测暗网服务器。为了验证上一步的网络环境配置和确认服务器站点的地址正确与否,需要暗网服务器进行链接确认,保障后续的数据收集工作能够顺利进行。

(3)爬取网络数据。由于各个站点的数据内容和格式不完全相同,需针对特定的站点制定单独的数据爬取规则和方法,并且其中涉及到的其他站点的数据也需要依次爬取和收集,并做好对应的操作记录。首先打开暗网爬虫程序,输入犯罪嫌疑人李某供述的暗网网址,如图5所示,暗网网页真实页面与还原页面分别展示如图6和图7(其中暗网真实网页的地址为:http://****.onion;暗网还原页面的地址为:file:///C:/UK%20guns/UK%20 Guns%20...)。

图5 输入暗网域名地址

图6 暗网真实网页

图7 暗网还原网页

(4)数据分析。对爬取和收集的数据进行数据分析、清洗、筛选,参照取证任务的目标(即李某购买枪支弹药交流信息内容、买卖账目信息、转账记录、交易账号等)进行数据分析研究,对数据进行归类分析和处理。

(5)制作远程勘验检查笔录。根据《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》要求将取证过程和结果通过远程勘验检查笔录的方式呈现。提取的电子数据应突出李某购买枪支弹药交流信息内容、买卖账目信息、转账记录、交易账号等内容。

4 结论

通过对暗网爬虫取证技术的研究,实现了高效爬取暗网目标数据并进行固定,为打击暗网犯罪的公安工作提供一定的借鉴。从应用方面来讲,因为暗网可能随时更改域名和地址,暗网所提供的市场和服务也可能随时会转移或关闭,所以可使用暗网爬虫工具对目标网站进行取证固定,然后进一步对暗网的数据进行还原、挖掘及分析,提高获取数据的证据价值和效率,为打击犯罪提供有力支持。

猜你喜欢

暗网爬虫域名
利用网络爬虫技术验证房地产灰犀牛之说
暗网犯罪的现状及趋势研究
基于Python的网络爬虫和反爬虫技术研究
嗅出“暗网”中隐匿的犯罪信息
暗网
被“暗网”盯上的年轻人
《江苏教育研究》官方网站域名变更公告
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术
顶级域名争夺战:ICANN放出1930个通用顶级域名,申请者有上千家