APP下载

网络“爬虫”行为刑事规制的困境与转向
——以实证案例分析为视角

2022-08-10刘浩

关键词:爬虫计算机信息罪名

刘浩

(东南大学 法学院,江苏 南京211189)

一、司法实践刑事判决实证分析

在当前理论研究中,网络爬虫(web crawlers)通常也被称为网络机器人(web bots)、网络蜘蛛(web spiders)等,与其相对应的行为常用“爬取”(crawling)或“抓取”(scraping)等词语表达[1]。一般而言,网络爬虫的工作步骤包括:网页获取、网页解析、数据存储、主题判别、网页搜索策略[2]。实际上,网络爬虫技术作为技术本身是用来满足互联网络上日益增多的网络资源和信息需求、处理一些新技术开发的网页、爬行一些全新的信息的,其同时得以实现快速搜索、网站维护、检查网站链接有效性和验证源码[3];因而理论中网络爬虫有“善意爬虫”(又称“白帽子技术”)与“恶意爬虫”之分。理论作为实践的基础,实践承担理论的来源;因此,着眼于实证案例分析解决数据爬取行为的困境、实现刑事规制的转向便是逻辑之使然。

通过对中国裁判文书网全文检索“爬虫”、案件类型“刑事案件”、文书类型“判决书”高级检索,共检索到 78 份样本;在北大法律信息网“司法案例”模块全文检索“爬虫”、案件类型“刑事案件”文书类型“判决书”,共检索到87 份样本;在聚法案例网全文检索“爬虫”+且不含“动物”、案件类型“刑事案件”文书类型“判决书”,共检索到63 份样本。将上述三个检索网站来源样本予以筛选、归纳和整理,排除重复以及与主题研究不相关的样本,(截至2020 年12 月31 日)最终汇总得到59 件具有代表性的案件。基于上述来源样本分析如下:

(一)案件数量维度:历年审判数量逐级递增

历年审判案件数量是对某一行为刑事司法规制倾向、态势的指标性反映。对案例样本予以检索分析,其所涉及判决数量居于2014 年至2020 年之间;且由案件数量所呈趋势(见下图1)可知,司法审判中对于爬取数据行为的刑事司法规制总趋势是逐年递增的。司法实践对网络爬取数据行为的判决数量从2013 年至2016 年增长缓慢,而于2017 年至今呈明显增长趋势。据此不难预判,爬取数据行为于刑事司法层面的规制扩大化是实践中的一种总趋势。

图1:历年审判案件件数量

(二))法院分布维维度:地方规规制情形参差差不齐

对网络爬取数据行为的地方法院判决数量与适用罪名的分析,有利于宏观上把握不同地域对该行为定性与趋势势的迥殊。分分析案例可知知,其涉及全全国16 个省级级行政单位,主要包括江江苏省(9件件)、北京市(8 件)、上上海市(7件件)、湖南省(7 件)、浙江省(6 件))、山东省(5 件)、四川省(4 件)、广东省(3件)、陕西西省(2 件)、福建(2件件),其余省级级行政单位(包括安徽、江西、天津津、湖北、河河南、吉林)各1 件。各各省级行政单单位适用罪名名如下表:

表1:各省级行政单位判决数量及适用罪名

分析上述表格可知,江苏省、北京市、上海市、浙江省、湖南省五个省级行政单位的刑事司法判决数量较多,且皆共同性性、倾向性地地适用侵犯公公民个人信息息罪对网络爬取数据行为加加以规制;而而其他省份相关判决较较少、罪名适适用单一乃至至未对该行为为予以入罪规规制。

(三))种类数量维维度:呈现出出类型化罪名名适用

侵犯公公民个人信息息罪(23 件))、非法获取取计算机信息系统数据罪(10 件)、侵侵犯著作权罪罪(8 件)、传播淫秽物物品牟利罪(4 件)、提供供侵入、非法法控制计算机机信息系统程程序、工具罪罪(3 件)、其其他适用罪名(11 件)。罪名适用用占比如下表表:

表表2:各省级行政单位判决数量及适用罪名

(四))主要罪名维维度:侵犯公公民信息犯罪罪为主

实践中中对网络爬取取数据行为主主要通过侵犯犯公民个人信信息罪(23件件)、非法获取取计算机信息息系统数据罪(10 件)、侵犯著作作权罪(8 件)三罪名加以以规制。

图2:主要罪名适用变化

二、司法实践刑事判决问题分析

(一)入罪标准尚未统一:针对规范阙如与倾向入罪解释

在我国司法实践早期,网络数据爬取行为尚未进入刑事视野规制。比如百度诉 360 违反爬虫协议案①、大众点评诉百度不正当竞争案②、新浪微博诉脉脉非法抓取用户信息不正当竞争案等案例中③,网络爬取的信息数量和所造成的损失较大而仅认定民事违法行为。诸多案件的共性在于,法院对网络爬取数据行为更多侧重于非罪性、前置规范性评价,即该行为违反了公认的商业道德和诚实信用原则,打破原有交易秩序、“不劳而获”和“搭便车”、造成了实质损害,因而具有不正当性,构成不正当竞争。当下理论中,网络爬取数据行为刑法应否规制的探讨不绝于耳,而司法实践早已对爬虫行为予以刑事规制。但司法实践对网络爬取数据行为入罪的标准并未统一。比如(爬取公开数据入刑第一案)上海晟品网络科技有限公司非法获取计算机信息系统数据案(案例1)中④,被告采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2 万元即已入罪。在董某涉嫌非法获取计算机信息系统数据案(案例2)中⑤,行为人造成被害单位一方网络资费、人力成本等经济损失人民币10 万余元且导致相关费用受损共计人民币300余万元下,检察机关最终以“犯罪情节轻微,具有初犯,从犯,如实供述犯罪事实,赔偿被害公司损失并取得谅解,认罪认罚等情节”作出不需要判处刑罚的决定。此种获利较少和造成损害较大情形下的刑事评价明显不合理。在肯定案例1 中强行破解行为具有的社会危害性下,至少对后者(案例2)也应有刑事责任承担问题的探讨。就前者来说,行为人通过爬虫程序破解防抓取措施(手段行为)实现非法的服务器数据获取(目的行为)符合刑法第二百八十五条第二款”“违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”的规定,以非法获取计算机信息系统数据罪是妥当的。而对后者而言,行为人导致公司网络资费、人力成本等经济损失人民币10 万余元,并导致乙公司相关费用受损共计人民币300 余万元的结果体现出了高度的法益侵害性和处罚必要性,其亦应通过“非法获取计算机信息系统数据罪”纳入刑法评价。因为上述损害结果和对公司网络的影响可归结于网络爬虫行为本身,在解释层面上其符合刑法第刑法第二百八十五条第二款规定:侵入三大领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据。同时依据最高人民法院、最高人民检察院《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(下称《危害计算机解释》)第一条第一款第四项(“违法所得五千元以上或者造成经济损失一万元以上的)和第十一条第三款“本解释所称‘经济损失’,包括危害计算机信息系统犯罪行为给用户直接造成的经济损失,以及用户为恢复数据、功能而支出的必要费用”规定,案例2 中的行为宜以非法获取计算机信息系统数据罪归罪;而这与案例2 实际的无罪处理认定有着天壤之别。这种罪与非罪的界分门槛不同有损罪刑法定主义,形成了网络爬取数据行为刑事规制的不平等性,造成实践规制网络获取数据行为定罪差异的原因主要有以下两点:

其一,囿于网络爬虫针对性刑事立法阙如。网络爬虫技术问世已经多年,而关于爬虫爬取数据的国内民事、刑事立法并未径直对其予以定义和分析行为构造和法律后果。从司法实践来看,国内相关司法实践主要集中在个人信息保护、著作权保护、计算机数据保护等方面,关于数据爬取的刑法规制涉及面依然不广且存在明显无法可依的“制度性空白”[4]。在涉及信息处理抑或数据安全方面的前置性立法上,《个人信息保护法》第十一条、《民法典》第一百一十一条、《数据安全法》第三十二条(都是关于数据抑或信息收集的规则)皆通过强调不得以“非法方式收集数据”加以保护,因而定位于后置法的刑法并不能直接针对性开展“爬虫”立法,以避免“无前而后”、“民刑倒挂”。在此种背景之下,实践中计算机类犯罪罪名适用爬取数据行为规制便是不得已而为之。然而《刑法修正案(七)》与《刑法修正案(九)》所增修的计算机类犯罪主要是为了适用于以黑客入侵为代表的、WEB2.0 时期的、“物理性”的传统计算机犯罪。将该法条适用于大数据时代的自动化决策、爬虫和算法规制,其容易形塑解释上不同且影响罪与非罪认定的弊端也很明显。实际上,“我国的司法实践及研究中,网络爬虫概念“被泛化”,基本等同于所有的自动化数据获取技术,也包括“异化”的具有侵入性的爬虫技术”[5]。此时,在规范与实践不相适应下,司法部门依靠规范解释而获得了较大的裁判主动性和形成了规制网络爬取数据行为的不统一性。

其二,倾向爬取数据关联行为的入罪解释。比如在王某涉嫌提供侵入计算机信息系统程序、工具案(案例3)中⑥,公安机关对于非法获利行为主观上倾向于入罪解释,而仅因为检察机关以“犯罪事实不清、证据不足,不符合起诉条件”“收尾”。实际上,上述“重入罪轻出罪”现象并非网络爬取数据行为规制领域所专属,其为我国司法实践重刑主义的一个侧面反映。爬虫软件带来利益颇丰并不能当然视为对社会法益的侵犯。部分司法机关并未合理界分爬取数据的程序本身,提高工作效率、获取网络数据是爬虫技术上的自在功能(不掺杂人为的主观干预);是爬虫技术作为技术中立下的功能中立、责任中立以及使命的完成[6]。而用于违法犯罪及其后续行为则是其与人的行为相联结的使用上表现,其主要原因在于使用人追求一定的目的、利益;其用途方面涉及法律风险可以分为两层:第一层面是爬虫技术使用行为本身涉及的法律风险(包括侵入、破坏和获取行为),另一层面是第一层基础上对所获取数据的提供、传播等后续的数据使用行为(包括公法规制、知识产权保护、无明确权利属性的数据使用行为)[7]。诸多法律风险涉及刑事评价应包括形式、实质违法两个过程的判断。易言之,即首先爬虫程序抑或爬虫技术本身并不能推定为犯罪用途(比如将其认定为“侵入计算机信息系统程序、工具”)。形式判断要求行为人利用爬取网络数据的爬虫程序的相对确定性,其实际发生和存在非法获取数据结果。而实质判断过程要求造成法益侵害性的爬取数据行为必须达至处罚必要性地位。且如若仅将爬取数据技术作为犯罪工具,但实际上所造成的社会危害性较小的情况下也仍然有出罪的余地。据此,案例3 的入罪解释实际上正是忽视了构成要件符合性判断,在解释上倾向把爬虫软件所涉行为“打包式”入罪评价。

(二)罪名适用不够准确:行为存在交叉与趋向兜底限缩

前述司法判决梳理既已体现网络爬取数据的多种罪名规制现状。根据网络爬取数据行为的技术特点而适用刑法规定的罪名予以定罪量刑,其呈现出复杂性或称罪名适用不准确性的特点,其原因主要包括两个方面:

一方面,罪名适用不准确性可由爬取数据行为及其对象之间存在交叉所致。理论中区分网络爬取数据行为的爬取数据行为本身、爬取数据的对象、爬取数据后续使用三种行为阶段在实践中实际并非泾渭分明,其在部分案件中存在交叉关系。比如在李文环、王硕涉非法侵入计算机信息系统案(案例4)中⑦,行为人既有侵入国家事务领域的计算机信息系统的行为本身,也有获取计算机系统对象信息的行为。前者适用罪名法定刑为三年以下有期徒刑或拘役,而后者尚有三年以上七年以下刑度范围内适用可能。不同的行为取向定性决定了其意欲保护的法益和量刑的幅度上的差异。又如在谢某、刘某非法经营案⑧(案例5)中,其既有爬取数据的行为亦有爬取数据后的后续使用两个过程,认定非法获取计算机信息系统罪(三年以下抑或三年以上七年以下)与本案最终认定的非法经营罪(五年以下抑或五年以上)其量刑上明显不同。同时,除开行为三个阶段之间的交叉,被爬取的网络数据作为行为对象也存在交叉的理论争议,其核心是围绕信息与数据之间的区分展开的。比如有学者认为,“数据的内容更为繁复、外延更为广泛,是包含了信息与其他数据冗余的集合”[8]。《个人信息保护法》第四条规定:个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。《数据安全法》第三条规定:数据是指任何以电子或者其他方式对信息的记录。从两部法律的立法意旨上看,可以认为“《数据安全法》系底层立法,旨在为电子数据确立基础性的安全规则;《个人信息保护法》系上层立法,通过规范个人信息的收集和使用,以保护蕴含于信息内的自然人人格”[9]。美国学者莱斯格教授将数据划分为物理层、符号层(代码层)、内容层(语义层),有学者采用二分法将物理层、符号层归为数据的技术属性,而将内容层归为数据的法律属性[10]。因此,网络爬取数据在二分之下,前者将数据以及背后的计算机信息系统本身作为被攻击的对象,有以非法获取计算机信息系统数据罪与破坏计算机信息系统数据罪为代表的计算机犯罪适用;后者将信息内容作为保护法益的犯罪,有比如侵犯公民个人信息罪、侵犯商业秘密罪、侵犯国家秘密罪等适用[11]。实践中倾向于认定“数据”的技术属性,而“数据”的法律属性在刑事规制中涉及法益侵害性、社会危害性等判断而常被“拒之门外”。正如有学者在探讨爬取公开数据行为是否具有法益侵害性的实质违法性审查问题中总结:爬取公开数据的行为是否构成犯罪还需要经过实质违法性的审查,而司法实践存在以数据的技术属性取代法律属性的误区[12]。比如在吴世斌等非法获取计算机信息系统数据案(案例6)中⑨,行为人利用“PP 透”软件、“爬虫”“订单”“调度”等程序所获取的“客户汽车维修和保养记录数据”,依据民法典第一千零三十四条(个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息)和待生效的《个人信息保护法》第四条(个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息),上述“客户汽车维修和保养记录数据”明显得以实现直接性的自然人识别。此时解释上存在三种可能,一种是将以“维修单及消费记录”为代表的的得以实现专属自然人识别的信息解释为内容层的数据(个人信息),则在网络爬虫程序获取上述信息时适用“侵公罪”是逻辑使然;第二种是将上述记录和凭证仅解释为技术层的数据,在不区分具体类型下适用“非法获取数据罪”;第三种是将涉案爬取数据予以“二分”后分别认定构成两种犯罪,在二分逻辑下仅涉及想象竞合处理而适用“从一重”处理规则。区分罪名意义在于两个罪名虽然在量刑上相同(皆为相同的主刑和附加刑),但是不同罪名涉及的行为对象在实践中的认定方式、认定程序等都并非全然相同,且罪名适用表征的司法裁决态度与法益保护立场不尽相同。第一种与第二种处置并不严格区分爬取的网络数据层级,而侧重于理论上、整体性判断技术属性的数据是否应后于(法律属性)内容层的数据(信息)判断,其解决的是法条竞合问题,即是否在诸如上述案例下的“侵公罪”因特殊性而优先于作为一般性罪名的“非法获取数据罪”适用。比如有学者论及网络爬虫入罪的具体路径时,将非法抓取的数据界分为“可识别性”个人数据、“创造性”数据、普通数据[13],整体性地评价可能构成的多种犯罪。因而第三种是个别性的、分层性的判断模式,第一、第二种是整体性的、优先性的判断模式。不同的解释模式,必然导致罪名适用的不准确性和富于变动性。

另一方面,罪名适用不准确可由司法实践适用兜底罪名和限缩归罪倾向所致。依据上述统计分析可知(见图2),司法实践中爬虫行为入刑所涉及罪名主要包括非法获取计算机信息系统数据罪、侵犯公民个人信息罪和侵犯著作权罪三个罪名。因为爬取数据对象的不同决定了司法适用规制爬取数据行为定罪的不同。所谓“兜底”是指在网络爬取数据行为的刑事规制领域,非法获取计算机信息系统数据罪日渐成为司法实践“堵截性”罪名、一般性法条;所谓“限缩适用”是指司法实践有“侵犯公民个人信息罪”、“非法获取计算机信息系统罪”和“侵犯著作权罪”三者选其一适用倾向。上述结论并非源自于教义解释所得,其源自于司法实践判决的实证数据分析;法教义学假定实定法的合理性,而实证研究假定法律实践集体经验的合理性,后者源于“法律是一种实践理性”的信念,强调法律人的集体经验比个别经验更可能过滤掉个别利益局限和特殊的主体性偏好,更可能接近公认的普遍价值[14]。然而实证研究得出的结论、趋势并非绝对意义上的准确,其仍需经过规范意义上的合法性、正当性评价。比如“司法实践中,我国侵犯商业秘密门槛较高,举证责任困难,流程长、事实认定复杂,选择商业秘密会造成法官适用法律的错误,招致错案追究的风险”[15],因此即便爬取网络数据行为符合侵犯商业秘密罪构成要件下,该罪实际判决数量依旧很少。由此可见,上文图表所得出的罪名适用分析结论仍然掺杂了司法取向性罪名适用的影响因素。就上述数据分析所得出的实践主要罪名规制趋势而言,其限缩性罪名认定(兜底罪名适用频率增加也反向加剧了限缩程度)存在两个问题:其一,变向加剧了实践中非法获取计算机信息系统数据罪、侵犯公民个人信息罪等个罪名成为刑事司法规制网络爬取数据行为的全部。在实践中形成此种不区分、不成熟的判决先例和做法下,因为仿效带来的强行解释归罪危害将是极为严重的。其二,限缩了理论中普遍支持的“基于爬取对象不同”而可能构成诸如侵犯商业秘密、国家秘密等罪名,导致偏向性的刑法罪名适用下特定法益的保护缺位。比如在王世杰侵犯著作权、传播淫秽物品案(案例7)中⑩,行为人利用爬虫技术通过解析相关网站的网页源代码,编写对应的程序获取到了电影、电视剧、综艺等各类视频资源以及淫秽主播视频表演等视频链接至自己建立的网站加以营利。其获取的网络数据从爬取对象上可以区分为侵犯著作权的数据和淫秽物品关联的数据两类。法院最终认为:被告人王世杰以营利为目的,未经著作权人、录音录像制作者许可,通过互联网向公众传播他人电影、电视作品601 部,情节严重,其行为构成侵犯著作权罪;同时,行为人利用互联网传播淫秽音像视频238 部,情节严重,其行为亦构成传播淫秽物品罪。案例7 的个案实践判决与理论中以区分爬取数据对象不同而区分入罪做法保持了一致,而此时从实践理性抑或实践趋势角度(即直接适用呈趋势的三种罪名之一)去评析本案则明显不合理。一方面,因为从规范角度而言,不同的罪名其最终的罪名认定、量刑负担乃至社会评价是不尽相同的;本案中如若强行以具体的三种个罪选其一规制会存在刑事评价的遗漏,比如本案行为人爬取淫秽数据传播至公共网站既已造成相独立于著作权法益侵害的其他社会法益(国家对淫秽物品的管理制度)的侵害。另一方面,从技术角度而言,对于个人信息、商业秘密、国家秘密等数据认定方式亦有区别;个人信息按照条数认定是实践中的通行做法,而国家秘密、淫秽数据、商业秘密等能否全然依照对个人信息认定的方式进行?这其中是存有探讨余地的。综上可知,实践中的主要罪名(三种)适用倾向并非是妥当的、必然的,其在部分涉爬取数据行为规制案件中并不能得到充分地贯彻。纵观罪名适用复杂性的实践当下,试图通过趋势性、限缩性罪名入罪规制网络爬取数据行为的方法仍然是与司法实践格格不入的。

三、爬虫行为违法性的标准判断:界分形式违法与实质违法

刑法理论通说认为“违法是客观的,责任是主观的”,在爬取网络数据理论探讨中,关于该行为刑事规制的违法性判断是争议的焦点。比如有学者认为网络爬虫行为违法判断不能泛化而应结合当下网络犯罪其实就是信息犯罪的特质;着眼于侵犯公民个人信息罪视角下,将“非法”形式判断区分为合法性原则、行业规则(即爬虫协议)两个层面、将“非法”实质判断进一步予以实质化(应受处罚的法益侵害性与否)、场景化的分析[16]。又如有学者着眼于实质违法性的依据,分别分析和加以否定规范违反论和法益侵害论两种学说,进而提出了融合了法益侵害论和规范违反论所形成的二元论(以法益保护为导向的规范违反论);认为二元论不仅符合功利主义哲学发展趋势,还符合中国由主观主义向客观主义转型的实践立场和网络规范视野下的刑法扩张需要[17]。德国著名刑法学家李斯特将违法区分为形式违法与实质违法,所谓实质违法性是指进行实质判断,判断根据并非法律规范本身而是法律规范之外的内容,诸如共同生活目的、法律保护的利益等是否受到侵害,其尤为强调行为对法益的侵害(法益侵害说)[18]。在大陆法系中,犯罪采阶层化判断:先行予以禁止规范构成要件该当性判断,在具备前述要件下即推定表征违法性(此时作为暂时性的、结果性的一种形式违法性出现),进而进行违法性、有责性逻辑判断。一般认为,形式违法是指违反法规范,违反法的禁止或命令;实质违法性是指对法益的侵害与威胁[19]。由此,笔者试从形式与实质违法两个角度对网络爬取数据行为刑事规制加以探讨:

(一)形式违法:应结合“国家规定”与“授权合约”加以判断

在刑法领域并无专门性、针对性的刑事法律规范窘境下,司法实践既已形成诸多罪名的解释性入罪规制现状(见表1)。而就规制该行为所适用的主要罪名来看,其形式违法判断主要是围绕“国家规定”和“授权合约”展开的。前者比如在适用非法获取计算机信息系统数据罪和侵犯公民个人信息罪时分别对刑法第二百八十五条的“违反国家规定”和第二百五十三条之一的“违反国家有关规定”加以解释;后者比如在对适用侵犯著作权罪时将授权合约中的数据收集规则内容以及有无授权等与刑法第二百一十七条结合性阐释。详述之:

1.对违反“国家规定”的理解

刑法九十六条明定:本法所称违反国家规定,是指违反全国人民代表大会及其常务委员会制定的法律和决定,国务院制定的行政法规、规定的行政措施、发布的决定和命令。有学者对“违反国家规定”予以实质解读,并认为其“多数是作为构成要件要素而被规定,但在一些条文中,并不具有实体意义,只是为了指示违法性而存在,或者只是表示没有经过行许可程序,或者只是相关表述的同位语”而不具备实体意义[20]。有学者在此基础之上以非法获取计算机信息系统数据罪切入探讨该罪中的“违反国家规定”:认为民事与行政立法较为欠缺,仅有的立法较为抽象,无法提供法律规制的具体路径;认为非法爬取企业网络数据行为的认定不应依附于前置法,此处的“国家规定”不具备实体意义而应扩大化解释、灵活性解释[21]。笔者并不赞同将以非法获取计算机数据罪为代表的“国家规定”解释为构成要件要素以外抑或其并无实体意义存在于刑法规范之中的看法。理由在于,一方面,将“国家规定”视为不具备影响违法性评价要素的观点实际上是否定了刑法作为二次法、后置法的法秩序定位。理论中对爬取网络数据行为的应否刑事规制尚有争辩,即便是肯定者亦持相对的入罪规制态度,且多从民事法、竞争法、行政法律规范等领域寻找出罪的根据。仅以民事法、行政法律规范的立法偏离、暂时欠缺不能当然推定出刑法径直干涉的正当性根据。这一做法不仅会强化实践中全然以技术性替代法律性判断爬取数据行为不同层级违法性误区,而且会变向扩大刑法关联罪名的涵摄范围,进而在违背谦抑性下排挤前置法适用空间。另一方面,笔者认为涉爬虫行为的刑事规制,应将“国家规定”视为限制构成要件的要素,且至少包括“提示存在违法阻却事由”“要求行为违反行政管理法规”和“表示未经行政许可”三种解释类型[22]。区分为三种类型的优势在于,“国家规定”为开来前置立法调整网络爬取数据法律关系留有规定余地,进而维护法秩序统一。比如将“国家规定”解释为“存在违法性阻却事由”下,其实际上是肯定了并非全部的网络爬取数据行为应由刑法规制的基本谦抑立场,在解释层面上为《数据安全法》乃至未来可能制定的数据安全方面的实施条例等涉及数据处理、数据获取方面的规则留下待完善的可能;其背后的价值考量在于统筹数据经济与数据安全并行发展。

2.对强弱“授权合约”的分析

实践中网络爬取数据的部分客观行为无法通过解释适用违反“国家规定”说明违法性层级,案例释法便借助对授权合约的规范违反进行。在理论上,授权合约可以依据其保护数据意愿强弱程度的不同区分为“弱保护意愿”授权合约(比如网站声明、“爬虫协议”等)、“强保护意愿”授权合约(比如平台格式条款等);这种强弱区分意义体现在对爬取网络数据的刑事入罪问题探讨上。一方面,“爬虫协议”(又称“robots 协议”,也叫robots.txt)是指是一种存放于网站根目录下编码的文本文件⑪,其告知指引网络搜索引擎本网站中的哪些内容是不应被搜索引擎的漫游器获取(Disallow)的,哪些是可以被获取(Allow)的路径规则。在爬虫协议的法律定性上,一种观点认为爬虫协议具有法律效力。比如有学者着眼于激励技术创新与信息流通角度而更为认同权利声明或单方意思表示说,即将其作为一种权利声明;爬虫协议是ICP 等数据控制方的单方意思表示(民事法律效力),因而无需数据抓取方允诺即产生效力,但其也不构成技术上有效的保护措施[23]。另有一种观点认为爬虫协议仅为一种行业惯例或商业规则(商业道德)。比如爬虫协议创始人MartijnKoster 曾声明该协议既不是一个强制性标准,也没有任何强制执行力。又如由百度、奇虎360 等十二家企业发起的《互联网搜索引擎服务自律公约》中第七条规定,互联网搜索引擎服务须“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots 协议)”。其将爬虫协议与行业惯例与商业规则并列,因而可将前述二者视为对爬虫协议的同位语表述。不难发现,对于爬虫协议的法律定性理论界并未达成共识;笔者认为,诸多理论争议虽不断,但其共性皆表明了爬虫协议不具有表征刑事违法性、入罪性评价(犯罪行为)机能,违反爬虫协议中路径规则一般仅为一种恶意行为或称一般民事违法行为。因为,“从搜索引擎蜘蛛程序角度而言,公平、合理的robots.txt 应该得到尊重和遵守,忽略robots.txt 的禁止性规定而抓取网站相关内容,则可能构成恶意行为”[24]。另一方面,“爬虫协议与民法上的协议有很大的区别”“在电子信息领域中,‘Protocol’所代表的协议则与权利义务无关,它只是一种规则,且多被运用于计算机网络通信中”[25],建立在数据平台依法单独制定(内部维度)、彼此协商一致(外部维度)的数据处理合同(授权合同)包含了允许、禁止获取数据种类、范围、数量等规则;因而当违反授权合同(内外两种)基础之上的网络爬取行为则有刑事违法抑或犯罪行为讨论的可能性。就前者而言,比如依据《数据安全法》第二十一条,国家实行网络安全等级保护制度下,网络运营者应当按照网络安全等级保护制度的要求,制定内部安全管理制度和操作规程、履行法律、行政法规规定的相关义务以防止网络数据泄露或者被窃取、篡改。因而数据平台是负有义务维护本集团内部员工数据安全的,其制定的数据安全规范,是依照国家相关法律所制定对内部成员有约束力的数据处理授权合约。内部人员违反该规定处理他人数据的行为,其实是违反《网络安全法》的行为,而不仅仅是违反集团内部授权⑫。就后者而言,数据平台之间在爬虫协议基础之上所签订的关于数据处理的授权合约有着较强的合同相对性,其缠附着较强的合同约束力。因而在违反合同授权性规定下的爬取数据行为具备一般违法性的特征;而当其爬取手段抑或爬取后续使用(实质违法)造成严重社会危害下,具备刑事违法性评判自属当然。强授权合约中数据获取规则的违反不能绝对性地认为是犯罪性的行为,而是强调其于司法实践释法中作为违法性分析的依据和作为刑事违法性评判的标准之一。综上,强弱授权合约不能发挥“国家规定”所具有的形式违法性区分功能;而在前者(“国家规定”)规范目前尚不明晰下,司法实务更宜结合后者分析和解释案件事实,进而判断网络爬取数据行为的形式违法性与否。

(二)实质违法:应结合爬取行为所达至的实质可罚性予以甄别

实践对于爬取数据行为的违法性认定存在许多问题,有学者认为域内网络爬虫的刑法规制呈现严厉趋势,其大致遵循了不识别网络爬虫的技术特征而一律入罪、不区分网络爬虫抓取的数据类型而一律入罪的路线;司法实务未能对不同技术特征的网络爬虫确立不同的评价标准、未能对不同类型数据确立不同的获取和利用规则、未能合理确定网络爬虫的入罪情节而导致入罪过广[26]。仅在网络爬取客观行为达至形式违法下并不能当然予以解释归罪,还应进行实质违法性判断;而其实质违法性就在于爬取数据行为的法益侵害(实害抑或威胁结果)具备当罚性、可罚性,而不能将“代码理论”——认为是否故意规避、突破网站设置的技术措施是区分民事责任与刑事责任的界限所在——绝对化[27]。在规制爬取数据领域,具备形式违法的数据爬取行为可能并不具备法益侵害性。因为,法益侵害性的实质判断须考量技术措施设置之目的。司法实践对作为形式违法性判断依据——“国家规定”与授权合约——存在规范解释不充分和解释经验不足、授权合约的排斥竞争性和不合理性问题而无法细化和难以划定明确形式违法界限;这就会导致形式违法的符合性判断在从严规制趋势下极易实现。而一般而言,技术性的反爬机制包括内外两种:内部机制体现为网站管理者通过账号、密码进行身份认证,确认用户具备访问计算机信息系统的权限;外部机制则是通过分析访问者的IP 地址、访问频率,在智能筛选的基础上有针对性地屏蔽一部分疑似网络爬虫的访问请求,这在技术上表现为IP 限制、核对验证码、参数签名等[28]。就内部机制而言,并非运营服务器采用的技术措施都旨在防止数据爬取、维护网络数据安全,有的账户身份认证认证机制是为了落实国家法律法规的实名认证、隐私保护规定,有的是为了实现跟踪用户浏览(Cookies)而依托算法实现“私人订制”。就外部机制而言,其同样可能是为了减缓或者规避因爬取程序运行所带来的服务器运行压力而设置。比如虽然爬虫爬取政府机构的公务公开信息(比如爬取裁判文书网的法律文书),但该爬虫并不以摧毁数据库或运行系统为目标;其仅为获得预设信息所编写[29],因而也难谓其造成严重的法益侵害。因此,无论是规避、突破技术措施的“未经授权”抑或横向、纵向的“超越授权”,其入罪规制还应当考量该技术措施设置初衷为何;即仅当该技术措施是为了保护服务器自身、维护数据安全、禁止限制爬取目的下才能予以实质违法性判断。

四、场景理论下类型化行为规制

在网络爬取数据行为刑法规制问题的理论探讨中,有观点着眼于“爬取”整体性行为、单一性罪名适用研究;而有的将爬取数据行为区分“对象不法”与“行为不法”并列后具体详述。笔者认为,前者统一行为的个罪认定因明显不符合当今司法实践规制现状理应被理论弃置。就后一观点而言,笔者倾向于将基于对象种类不同的界分规制纳入行为类型化之中讨论,即用“行为不法”包含“对象不法”加以分析。其原因有二:其一,私法与公法领域尚未完全厘清比如数据与信息边界何在,侧重基于爬取数据对象的差异加以刑事特殊法条规制是不尽周延的,即所谓“法条有尽而世事无穷”。因为刑法对于数据具化体现的个人信息、商业秘密、国家秘密等都是不完全归纳和列举性保护。肯定行为对象在区分定罪上的决定地位实际同样会增强上文所论及的非法获取信息罪的兜底程度,进而限缩其他罪名适用范围;然而兜底罪实际并不能很好实现罪责行相适应。其二,“对象不法”研究依据实际上可追溯到司法实践适用罪名的种类繁多与理论试图涵摄的心余力绌,但是其无法将网络爬取数据行为各个环节周延包括囊中。从实践判决不难发现,涉案行为人并非皆因使用爬虫程序爬取对象不同而被定罪;存在诸多涉爬虫案件中因行为人将爬虫程序作为工具,其前端程序使用(比如侵入、破坏)、后续违法处理(比如出售、使用)等原因而有处罚必要性。笔者认为,行为贯穿着刑事违法性评价之全部而起着“龙骨”的作用;即便是对象迥殊的区别定性,其完全得以置于“爬取行为”精细化分割后的行为中忖量。“场景完整性”或“语境完整性”理论(Contextual Integrity)是由美国教授尼森鲍姆(Helen Nissenbaum)最早提出,他认为“语境完整性的一个核心原则是,没有不受信息流规范约束的生活领域,没有‘一切皆有可能’的信息或生活领域。几乎我们所做的每一件事、发生的事件、发生的交易不仅发生在地点背景下而且发生在政治、习俗、文化背景下”[30]。为审慎衡平数据安全与数据经济,笔者基于场景理论——在此处意义在于注重分析爬取数据问题的动态性、阶段性规制——将网络爬取数据行为于行为角度区分为侵入性、对象性、破坏性三种,将对象不法置于爬取的中间阶段评置。详述之:

(一)网络数据爬取行为的“侵入性”有刑事评价的可能性

爬虫程序于计算机系统外的“进入”是网络数据爬取行为之阶段伊始。爬虫程序作为一种人为有目的编写并随着反爬措施不断迭代的技术手段,其得因进入特定领域计算机系统而被评价为“侵入性”,即有刑法侵入计算机信息系统罪适用余地。“本罪的犯罪对象仅限于国家事务、国防建设、尖端科学技术领域的计算机信息系统”[31],属于典型的行为犯;此时刑法评价的侧重点是侵入行为本身的危害性和特定领域计算机系统的预防性,而非造成的实际损害。其中,《危害计算机解释》第十一条明定:“计算机信息系统”和“计算机系统”皆指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等;而第十一条明定:确认上述三大领域计算机系统与否应当委托省级以上负责计算机信息系统安全保护管理工作的部门检验。比如上文所提及李文环、王硕非法侵入计算机信息系统案(案例4)中的“交通安全服务管理平台”车辆报废查询系统和滕守昆等非法侵入计算机信息系统案中的“四川公安交警警务云平台”皆属于本罪的三大领域内的计算机系统⑬。有学者认为侵入该系统并窃取数据行为分别属于“手段行为”与“目的行为”而应按照处理牵连犯的原则,从一重处罚[32]。也有学者区分后续行为的犯意产生在非法侵入计算机信息系统之前抑或之后,前者认定侵入行为是前提、后续行为是必经阶段,依照吸收犯从一重且一般按照后行为定罪;后者认定侵入行为和后续行为是相互独立性的、基于两种犯意支配下的行为,应予以数罪并罚[33]。笔者认为,两种观点皆有其合理性所在,但各有些许不足。第一种观点着眼于目的行为的规制而容易造成罪刑不均与遗漏评价,比如对数罪并罚情形的规制缺位。第二种宏观采取区分犯意节点的观点较为合理,但其前半部分说明后续行为的犯意先于侵入行为实际完成的前置条件,而侵入行为恰恰正是后行为(“目的”)犯意实现的“手段行为”而符合牵连犯特征,亦应适用牵连犯的规则处置。“吸收犯”不仅无法说明后行为的手段性;而且在后续“窃取”数据行为尚未构罪、爬取数据行为定性争议问题涌现下,其实际上难以实现对侵入行为的吸收规制。

(二)网络数据爬取行为的“对象性”有刑事评价的必要性

爬虫程序从计算机系统中的“获取”是网络数据爬取行为之规制主体。刑法将数据类型化、具体化为诸多种类,通过不同数据对象的关联罪名适用实现对特定法益的保护。从现有技术原理上看,“聚焦网络爬虫”得以实现“通用网络爬虫”不具备的主题相关性、路径预设性爬取;“增量式网络爬虫”得以实现获取数据的低频、时兴以及高质;“Deep Web 爬虫”通过表单填写实现动态关联性抓取。然而,爬虫程序虽依靠人为式编译、自动化决策将抓取的数据予以结构化与非结构化呈现,但归根到底其无法完成数据筛检获取的规范化。理论与实践基于“对象不法”探寻爬虫规制路径已成趋势下,笔者将数据具体区隔为五大种类加以详述:

表3:实践中公民个人信息的具化类型

第一,以“结合识别性”为依据对公民个人信息加以保护。公民个人信息本身缠附人之本体,具有静态的专属性和人格性,其体现着特定自然人的人身与财产安全法益;信息表达附庸物之载体,具有动态的流动性和经济性,在大数据时代公民个人信息“聚沙成塔”效应显著。侵犯公民个人信息罪作为实践中规制爬虫行为的主要罪名,其并不仅仅体现为姓名、身份证件号码等单一识别性的数据,其得以通过住址、账号密码、财产状况、行踪轨迹等数据结合确认公民身份。当行为人违反国家规定,故意借助爬虫程序出售、提供、窃取或以其他方法非法获取该信息时,有本罪适用余地。实践以侵犯公民个人信息罪论处的案件中,构成公民个人信息的具体类型有较大的参考价值(见表3)。第二,以“保护独创性”为依据对著作权作品加以保护。依赖于爬虫技术的独特优势,数据目的性、高效性筛选、提取以及储存成为现实;实践中的犯罪分子通过使用爬虫程序发展出了侵犯著作权的新形式。比如在段某某侵犯著作权案中⑭,行为人利用爬虫技术在互联网上架设了能采集、聚合、链接乐视、土豆等国内各大视频网站的影视作品资源的网站;该网站不仅能屏蔽被链网站影视作品的片头广告,而且网站的网页内编辑设置有影视作品目录、索引、内容简介、排行榜等栏目,其通过刊登广告收费营利。这种依靠爬虫程序实现的新型侵犯著作权形式就是聚合型加框链接以实现“替代性”复制发行。第三,以“商业保密性”为依据对商业秘密加以保护;但因实践中认定爬虫所获数据具备实用性(直接可用于商业生产经营活动)、经济性(能为商业秘密持有者实现收益)、保密性(数据被采取一定的保护措施以避免为外界所获取)难度方面、司法责任追究风险较大等原因致使本罪适用率很低。第四,以“破坏道德风尚性”为依据对淫秽物品加以限制;与侵犯著作权的案件类似,多以链接接口、传播淫秽、聚合营利为主要模式。第五,以“兜底性”为依据对上述以外的普通数据加以保护。结合实践判决、刑法及《危害计算机解释》有关规定,普通数据可以区分为:1.支付结算、证券交易、期货交易等网络金融服务的身份认证信息,此类信息是用以确认于计算机上操作权限的,包括账号、口令、密码、数字证书等;2.非网络金融服务的身份认证信息,比如实践中出现的执行APP 权限的用户的账号、密码、cookie 等等;3.其他单体价值低而聚合价值高的一般性数据,比如实践中出现的公交车行驶实时数据、房源数据、百度网盘的分享链接的地址和提取码等等。

(三)网络数据爬取行为的“破坏性”有刑事评价的必然性

爬虫程序对计算机系统里的“侵扰”是网络数据爬取行为之内在派生。爬虫程序基础功能在于获取数据,但其同样可能以突破反爬措施、强制爬取数据、破坏计算机系统等形式出现,比如人为故意设计的爬虫程序实质上属于计算机病毒等破坏性程序,则可能有破坏计算机信息系统罪适用。除开上述情形,刑法中破坏计算机信息系统罪的行为对象包括“计算机信息系统功能”“数据和应用程序”两种。二者行为可概括为“删除、修改、增加、干扰”,以违反“国家规定”为入罪形式要件、以计算机系统无法正常运行和后果严重为入罪实质要件。一方面,实践中爬虫程序获取数据造成服务器运行超载、系统崩溃现象并不罕见。因而依据《危害计算机解释》在造成一定数量的计算机“主要软件或者硬件不能正常运行”或“提供基础服务、公共服务的计算机信息系统不能正常运行”时有本罪适用可能。另一方面,如若爬虫程序作为侵入媒介抑或手段实现特定计算机系统的进入时,其同样可能构成本罪。比如在王博一文破坏计算机信息系统案中⑮,其通过编写“爬虫”程序植入第十三届全运会接待服务系统,并对该系统进行攻击、删除了该系统内大量参赛运动员及技术官员的有关信息,致使市全运会组委会接待服务部39 台计算机无法正常运行接待服务系统,给全运会接待服务工作造成严重影响。

五、余论

在具备“规模性、高速性、多样性、价值性”“4V”特征的大数据时代背景下,网络爬虫技术所带来的数据获取便捷性、海量提取高效性是大数据时代科技惠国惠民的积极缩影;与此同时,爬虫技术获取网络数据潜在的刑事风险高发性、法益侵害复合性是Web3.0 时代技术中立无法回避和免责的消极弊端。以网络爬虫程序为代表的科学技术与特定的部门法律规范之间难免存在解释适用层面的冲突与不协调,然而“由于网络犯罪的虚拟生存空间的无形性、数字性与智能性,线上传统犯罪的行为构造可能发生适应当前科技所重塑的外部环境的变化”[34]。承此,在作为“最后一道防线”的刑事领域实现规范与技术融合发展、数据安全与数据共享衡平实现是严织刑事法治之网、最大限度保障人权的应然转向。

[注释]

① 参见北京市第一中级人民法院(2013)一中民初字第 2668 号民事判决书。

② 参见上海市知识产权法院(2016)沪73 民终242 号民事判决书。

③ 参见北京知识产权法院(2016)京 73 民终 588 号民事判决书。

④ 被告人张洪禹、宋健、侯明强经共谋,采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2 万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3 个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id 绕过服务器的身份校验,使用伪造UA 及IP绕过服务器的访问频率限制。参见北京市海淀区人民法院(2017)京0108 刑初2384 号刑事判决书。

⑤ 被不起诉人董某某利用网络爬虫程序,采用**手段非法获取北京**信息技术有限公司(以下简称*乙公司)经营的**网站的**数据,经解密、加工、整理后供*甲公司的**APP 使用,造成*乙公司网络资费、人力成本等经济损失人民币10 万余元,并导致*乙公司相关费用受损共计人民币300 余万元。被不起诉人董某某于2020 年7 月22 日被民警抓获。到案后,*甲公司代为赔偿了*乙公司的损失,取得*乙公司的谅解,已签署认罪认罚具结书。检察机关认为被不起诉人董某某实施了《中华人民共和国刑法》第二百八十五条第二款的行为,但犯罪情节轻微,具有初犯,从犯,如实供述犯罪事实,赔偿*乙公司损失并取得谅解,认罪认罚等情节,最终认定不需要判处刑罚。参见北京市朝阳区人民检察院京朝检公诉刑不诉(2020)1201 号检察院不起诉决定书。

⑥ 王某某在网上认识牛某某(另案处理),见牛某某自己开发了一款简易的爬虫软件,遂与牛某某合作,并给牛某某15000元作为研发经费,让牛某某研发一款更高级的爬虫软件。后牛某某成功研发出“地图矢量下载器”爬虫软件。该“地图矢量下载器”刚开始卖400 元一个,后陆续涨价为500、800、1000、1200 元等,所得钱由“GIS 大师兄”工作室和牛某某五五分成,后王某某将“GIS 大师兄”工作室所得分的钱款的5%分给马某某、赵某某作为销售的报酬。检察机关认为,南京市公安局江北新区分局认定的被不起诉人马某某涉嫌提供侵入计算机信息系统程序、工具罪的犯罪事实不清、证据不足,不符合起诉条件。参见南京市浦口区人民检察院宁浦检诉刑不诉〔2021〕Z47 号检察院不起诉决定书。

⑦ 被告人李文环、王硕等使用“爬虫”软件,大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息,之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。李文环之后编写客户端查询软件,分省市贩卖数据库查阅权限。法院认为被告人李文环、王硕等为牟取私利,违法国家规定,侵入国家事务领域的计算机信息系统,六被告人的行为均已构成非法侵入计算机信息系统罪。参见四川省德昌县人民法院(2018)川3424 刑初169 号刑事判决书。

⑧ 参见江苏省南京市浦口区人民法院(2019)苏0111 刑初832 号刑事判决书。

⑨ 参见江苏省镇江市京口区人民法院(2020)苏1102 刑初322 号刑事判决书。

⑩ 参见陕西省勉县人民法院(2020)陕0725 刑初19 号刑事判决书。

⑪ “爬虫协议”是弱授权合约的典型代表,因而此处直接对爬虫协议加以探讨和展开详述。

⑫ 比如在余钢涛非法获取公民个人信息案中,法院认为:行为人明知阿某集团出于保护数据需要并无统一编制通讯录,而自己的权限仅为查询、浏览,为了获取整体组织架构而积极、主动编写获取信息的脚本在任职期内多次使用脚本爬取员工个人信息数据并保存,属于违法的“窃取”行为。参见浙江省杭州市人民法院( 2018) 浙 01 刑终 441 号刑事裁定书。

⑬ 参见四川省攀枝花市仁和区人民法院(2017)川0411 刑初字第135 号刑事判决书。

⑭ 参见上海市徐汇区人民法院(2017)沪0104 刑初325 号刑事判决书。相似案例如:北京市海淀区人民法院(2013)海刑初字第2725 号刑事判决书、上海市浦东新区人民法院(2014)浦刑(知)初字第24 号刑事判决书等。

⑮ 参见天津市南开区人民法院(2017)津0104 刑初740 号刑事判决书。

猜你喜欢

爬虫计算机信息罪名
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
罪名确定制度面临的主要问题
探究提高计算机信息管理质量的有效策略
基于Scrapy框架的分布式网络爬虫的研究与实现
谁抢走了低价机票
旺角暴乱,两人被判暴动罪
“魔咒”中的韩国历任前总统
计算机信息技术在职业技术教育中的应用与展望
如何提高初中计算机信息课的实效性