网站可信标识架构与查验协议研究

2014-09-29卢文哲杨风雷

计算机工程 2014年1期

卢文哲，杨风雷，高宁，毛伟,

(1.北龙中网(北京)科技有限责任公司，北京 100190；2.中国科学院大学，北京 100049；3.中国科学院计算机网络信息中心，北京 100190)

1 概述

经过十多年的发展，中国互联网发展与普及水平已居发展中国家前列。据中国互联网信息中心(CNNIC)发布的《第31次中国互联网络发展状况调查统计报告》[1]显示，截至2012年12月底，中国网民数量达到5.64亿，互联网普及率为42.1%，网站总数已上升至268万个。搜索引擎、网络购物、网上银行、团购、旅行预订、网络炒股等均已成为排名靠前的应用类型。

随着互联网与传统行业的结合越来越紧密，以及互联网带给人们生活、工作越来越多的影响，众多单位通过互联网与网民产生了紧密联系。如今，任何一项传统的业务基本都能在互联网上找到踪影，而人们的大多现实需求都能够通过互联网来满足。由此可以预计，随着中国经济社会的快速发展，互联网在中国将更加普及，人们对互联网应用水平的要求将会更高。

在电子商务领域，大型企业电子商务正在从网上信息发布、采购、销售等基础性应用向上下游企业间网上设计、制造、计划管理等全方位协同方向发展。中小企业电子商务应用意识普遍提高，应用电子商务的中小企业数量保持较高的增长速度。网上零售规模增长迅速，市场逐步规范。《中国互联网状况》白皮书[2]中调查显示，建立了电子商务系统的大型企业已超过 50%，通过互联网寻找供应商的中小企业超过 30%，通过互联网从事营销推广的中小企业达24%。截至 2012年6月底，网络购物用户规模达到2.1亿，网民使用率提升至39.0%，较2011年底用户增长8.2%。2011年中国电子商务市场交易额达到7万亿元。网上银行和网上支付用户规模在 2012 年上半年的增速分别达到14.8%和12.3%，截至2012年6月底两者用户规模分别为1.91亿和1.87亿。电子商务专业化服务体系正在形成，数字认证、电子支付、物流配送等电子商务应用支撑体系正在逐步形成。

但在电子商务领域高速发展的背后，诚信问题日渐突出。钓鱼网站、挂马网站、篡改网站、仿冒知名品牌等，给网民和网站带来了极大的利益损失。《2012年中国网站可信验证行业发展报告》[3]显示，31.8%网购用户遇到过钓鱼网站，网购遭遇欺诈网民规模高达6169万。保守估算，每年因钓鱼网站或诈骗网站给网民造成的损失超过300亿。可见，在中国互联网迅速发展的同时，对互联网公信力的质疑已经成为互联网进一步快速、健康发展的绊脚石。当前广大网民、行业及相关管理部门都已意识到加强网络诚信体系建设的重要性和紧迫性，这表明构建安全可信互联网环境已成为管理部门和广大用户等多方的共识和共同诉求。

可信互联网中身份可信的课题，研究的是如何对互联网上的服务提供者的身份进行鉴定、传播，同时能够兼顾目前绝大多数的互联网服务和应用，是一个比较新的课题和挑战。本文总结目前针对互联网服务提供者身份可信问题和网站可信标识方面的研究，提出一种网站身份可信标识的体系架构以及基于域名资源记录的网站可信标识查验协议，并开发相应的应用系统。

2 可信网络相关研究

高可信性是下一代互联网的重要特征，计算机系统需要建立高可信的网络服务，可信性必须成为可以衡量和验证的性能。因此，构建一个安全、可生存和可控的可信网络正在成为人们关注的焦点。

2.1 可信网络定义

目前对可信性比较有代表性的阐述主要有：ISO/IEC15408标准[4]指出，一个可信的组件、操作或过程的行为在任意操作条件下是可预测的，并能很好地抵抗应用程序软件、病毒以及一定物理干扰所造成的破坏。微软公司的Bill Gates认为可信计算是一种可以随时获得的可靠安全的计算并包括人类信任计算机的程度就像使用电力系统、电话那样自由、安全[5]。正如清华大学林闯教授所说，“目前业界对可信网络有不同理解：(1)认为可信网络是基于认证的可信；(2)认为是基于现有安全技术的整合；(3)认为是网络的内容可信；(4)认为是网络本身的可信；(5)认为是网络上提供服务的可信等”。林教授认为，可信网络的定义是“网络信息传输，服务提供者和用户的行为及其结果总是可以预期与可控制的，即能够做到行为状态可监测、行为结果可评估、异常行为可控制的”[6]。

2.2 可信网络研究现状

针对下一代互联网的研究，目前国外比较有代表性的工作和项目主要包括美国自然科学基金委提出的 GENI计划[7]和 FIND 计划[8]，研究的主要内容包括：重新设计一个从根本上来说比现今互联网更加安全、可用的网络；将信息分发、定位管理和身份管理等功能融入新的网络体系结构中；研究新技术，如无线、光学等技术对未来网络的影响。

在国内，对于下一代互联网和可信网络，很多学术机构的专家学者都有不同的研究。清华大学的吴建平教授承担的“973”项目“新一代互联网体系结构理论研究”主要研究了新一代互联网的若干核心问题，包括新一代互联网的模型结构和理论、新一代互联网的路由交换协议、突发流量行为的基础理论、可信任互联网安全体系结构和安全监控理论和互联网服务模型及其管理理论等多方面都开展了研究并取得了丰硕成果[9]。以清华大学林闯教授为代表的可信网络研究更关注从网络体系理论模型上，设计出新的可信网络，林闯教授提出的可信网络体系结构模型包括数据平面、可信控制平面；数据传输平面负责承载业务，并保障协议的可信性；可信控制平面则提供完备一致的控制信令，实现对用户和网络运行信息的分布式采集、传播和处理，支持信任信息在可信用户间的共享，并驱动和协调具体的行为控制方式；数据平面接受可信控制平面的监管，可信控制平面则向数据平面开放某些访问接口，从而使得业务能够获知网络运行是否可信[10]。北京交通大学张宏科教授承担的“973”计划“一体化可信网络与普适服务体系基础研究”，针对下一代互联网的需求，建立一体化可信网络，将网络体系划分为“网通层”和“服务层”，分别实现网络一体化和服务普适化，这个两层模型构成了一体化网络与普适服务体系的基础理论基础[11]。

文献[6]指出，可信网络研究的内容主要包括3个方面：服务提供者的可信，网络信息传输的可信和终端用户的可信。其中，用户的可信又包括用户的身份和行为可信。用户身份可信是指终端用户的身份可以被准确鉴定，不被他人冒充，即终端用户的身份真实有效。其中，对服务提供者(即网站)而言，研究者认为构建可信互联网，需要解决网站最基本的 3个问题：身份可信，内容可信及服务可信，其中，身份可信是内容可信和服务可信的基础。针对身份可信的研究主要是解决网站和网站所有者实体的统一性问题，保证网站身份真实可靠，防止钓鱼网站和灰色网站。

3 网站可信标识体系结构

3.1 体系结构

网站可信标识体系结构中包括了 3个角色：网站，可信应用，标识权威机构，下面分别进行定义。

(1)网站：网络服务提供者，指待认证实体。

(2)可信应用：指支持网站可信标识的应用，包括浏览器、搜索引擎、即时通讯软件等。可信应用可以对具有可信标识的网站进行验证，并向最终用户展示标识的信息。

(3)标识权威机构：指具备认证网站真实信息能力，能够发布网站可信标识的机构。标识权威机构对网站进行验证，为网站发放可信标识，同时对可信标识进行管理，并提供其验证的可信标识详细信息查询和网站详细验证信息查询。

此外，经过认证的网站身份信息，需要通过网站标识展示给最终用户，具体的展示形式根据不同的互联网应用特点而不同，比如，浏览器的展示形式是在地址栏中提示，搜索引擎的展示形式是在搜索结果中进行标识等。

网站可信标识体系结构如图1所示。

图1 网站可信标识体系结构

网站可信标识系统执行的具体过程如下：

(1)网站所有者向标识权威机构提交资料信息注册，申请标识。

(2)标识权威机构对申请信息审核后，将被验证网站的标识数据按指定格式生成网站可信标识数据，发布到查验服务平台上。

(3)可信应用需要获取网站的可信标识信息时，应通过身份标识查验协议访问标识权威机构的查验服务，根据返回结果获得网站的可信标识信息。

(4)可信应用对标识验证通过后，在应用上展示该网站的可信标识，并将标识中的内容向用户展示，提示用户正在访问的网站信息。

(5)用户可通过可信应用上展示的可信标识跳转至验证该网站的标识权威机构网站查看完整的验证信息。

在网站可信标识体系结构中，适用范围广泛、性能高的身份标识查验协议是其中的核心组件。

3.2 身份标识查验协议

IETF在解决反垃圾邮件的方案时提出了 RFC4408标准[12]，该标准是在域名服务器(Domain Name Server, DNS)解析协议的基础上，通过对TXT资源记录的格式化定义从而实现了对邮件发送者身份的查验。这个思路和网站可信标识查验的需求有相似之处，因此，网站可信标识查验协议的设计也借鉴了这个思路，即通过对 DNS协议中 TXT资源记录的格式化定义，来实现标识信息的传输。

在网站可信标识体系中，标识权威机构提供的身份标识查验协议是一个基于DNS查询协议的服务接口，可查询某一网站是否经过标识权威机构验证和相应的验证信息。针对每个网站的验证信息的集合，称为网站可信标识对象。

网站可信标识对象由标识权威机构生成，并发布到该标识权威机构的身份标识查验服务上。标识权威机构通过验证信息的集合来生成网站可信标识对象。信息集合包括可辨别的网站域名、IP地址、用户名称以及一个可选的包含用户附加信息的唯一性标识符。唯一性标识符内容的确切格式未做规定，而留给标识权威机构(IA)去定义。唯一性标识符可以是诸如对象标识符、日期或是说明有关可辨别用户名的有效性的证书的其他形式。具体地说，如果一个标识对象的可辨别名为A，唯一性标识符为UA，并且该标识对象是由名为IA且其唯一性标识符为UIA的认证机构生成的，则网站可信标识对象具有下列形式：

其中，SN为标识权威机构生成的网站可信标识序列号；UIA为IA的可选的唯一性标识符；UA为用户A的可选的唯一性标识符。

网站可信标识的有效期由 2个日期组成，两者之间的时间段即是标识的有效期。标识有效期是一个时间区间，在这个时间区间里，IA必须保证维护该标识的状态信息，也就是当该标识失效或吊销时，IA必须实时更新查询服务的结果。

标识对象是不可伪造的，可使用数字证书签名技术或DNSSEC技术，保证标识对象的真实性。

3.3 网站可信标识对象数据结构

标识权威机构发布的网站可信标识对象数据结构共包括4个部分：(1)标识开始符：标识信息域的开始，为字符串格式(kx://)；(2)标识信息域：包含网站实体信息、标识机构信息等；(3)签名算法域：采用的签名算法，目前可以支持国标算法 id.cn.gmj.algo.sm2.sm3；(4)标识签名域：对标识信息域的签名信息。其中，签名算法域和标识签名域为可选。当使用数字证书签名方式确保标识数据真实性时，需要用标识权威机构的私钥，使用签名算法域的算法，对标识信息域的数据进行签名，并将签名算法域和标识签名域附加在标识信息域后。

网站可信标识对象数据的组成内容共包括14个字段：

(1)标识开始符(start symbol)；

(2)版本号(version)：用于标识当前记录采用的数据格式版本；

(3)字符编码格式(charset)：用于标识当前数据使用的字符编码格式；

(4)分组编号(packets number)：由于txt记录最好不超过255 Byte，当TXT超过该长度时，建议进行分组，用编号记录当前分组的序号；

(5)总分组数(total packets number)：用于记录数据总分组数量；

(6)序列号(serial number)：标识的唯一序列号；

(7)颁发者(issuer)：颁发机构的名称；

(8)网站域名(website domains)：网站域名序列，验证时只有验证网站的域名在当前域名序列中才能验证通过。*.abc.com 表示abc.com的所有子域名；

(9)验证级别(level)：认证级别，用于区分网站验证级别；

(10)网站名称(website name)：网站名称；

(11)网站首页(website home)：网站首页地址；

(12)网站所有者(website owner)：网站所有者的实体名称，如企业名称；

(13)网站地址(website IP Address)：网站IP地址序列，验证时只有验证网站的IP地址在序列中才能验证通过。IP可以用点分十进制表示，也可以用CIDR表示一个网段。*表示任意IP地址；

(14)签名信息(signature)

1)签名算法(signatureAlgorithm)：描述签名使用的算法；

2)签名值(signatureValue)。

由于使用DNS TXT资源记录存放网站标识数据，受到TXT数据长度255 Byte限制，如果超过255 Byte，有可能被一些网络设备丢弃，因此标识信息域按照255 Byte大小分组。其中，当前分组号对应信息域中的分组编号，最大编号为信息域中的总分组数。查询标识数据时，根据总分组数得知分组数量，根据分组编号将各段数据按顺序重组为分组前的网站标识数据。

4 应用系统及性能测试

4.1 应用系统

基于以上体系结构和协议，本文设计了可信网站验证开放平台，该平台已投入生产应用，目前已有多个国内主流的互联网应用接入了这个开放平台。该平台基于Java开发，主要包括网站身份验证注册管理服务、网站身份权威验证解析服务和网站身份权威数据查询服务3个功能模块。可信网站验证开放平台的系统结构如图2所示。

图2 可信网站验证开放平台系统结构

网站主通过注册系统提交申请，权威机构通过审核系统对网站主提交的信息进行审核，审核的进度和结果，可以通过信息查询系统进行查询，最后，各种互联网应用可以通过身份标识查验平台的接口对网站身份进行识别，并根据识别结果给用户以不同的展示形式。后面的章节可以看到一些应用实例。

4.2 应用实验

“可信网站验证开放平台”可以支持各种互联网应用，其中最典型的应用包括浏览器和搜索引擎，图3和图4分别展示了该平台在淘宝浏览器和阿里云搜索引擎中的应用效果。

图3 可信网站验证服务在淘宝浏览器中的应用

图4 可信网站验证服务在阿里云搜索引擎中的应用

当用户通过淘宝浏览器访问一个经过验证的网站时，会在浏览器的左端出现“可信网站”的标识，点击这个标识会出现一个tips，tips显示验证的简要信息，继续点击查看详情，可以查阅针对该网站的详细验证信息。

在阿里云搜索引擎的应用中，以搜索“婷美”为例，搜索结果中只有一家是通过了可信验证的网站，并被很明显地标识出来，点击这个标识还可以查看详细的验证信息，这样可以非常方便地识别欺诈网站和钓鱼网站。

目前已有包括微软必应、傲游浏览器等多个互联网应用开始使用“可信网站验证开放平台”。

4.3 性能测试

为确保开放平台能够支持大规模的访问量，本文进行了多次性能测试，以下是其中一次针对单台服务器的性能测试的简要描述：

测试使用 dnsperf做性能测试，构造一个带查询域名lqybgy.cn，将lqybgy.cn.ia2.knet.cn加入zongfile并加载进入bind service，先进行正确性验证：

测试表明，单机的查询性能可以达到15万次/s，目前，可信网站验证开放平台的每日查询量约为7000万次，平台中使用了10台服务器，完全可以满足性能需求。

5 结束语

针对互联网中的服务提供者身份可信问题，本文在不重构现有互联网体系结构的基础上，借鉴了RFC4408的理念，通过规定域名txt资源记录的方式，提出一种网站可信标识的体系结构，以系统的、开放的、可靠的方式解决互联网的身份管理问题，在保证互联网的可用性的基础上，增加对互联网服务的身份标识管理，同时在性能、实时性、适应性方面都可以满足实际需要。

本文体系结构具有以下特点：(1)借鉴了域名技术的体系结构，使得其具有和域名体系一致的高性能、可靠性和稳定性；(2)具有开放性的特点，可以支持包括Web应用、IM应用、搜索引擎应用等多种互联网应用。在理论研究的基础上，同时开发完成了可信网站验证开放平台并投入生产环境使用。在实际生产使用中，本文的网站可信标识体系及协议得到了多家业界主流公司的认可，能够满足目前的业务需要。

出于简化研究和易于实现的目的，本文提出的体系结构只描述了单一标识权威机构的运作情况，而在实际工作中会存在多个标识权威机构。多个标识权威机构的场景比单一标识权威机构的场景要复杂，管理难度也更大。因此，下一步将开展对多个标识权威机构场景的研究。

[1]中国互联网信息中心.第31次中国互联网络发展状况调查统计报告[EB/OL].(2013-01-15).http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20130115_38508.htm.

[2]中国国务院新闻办公室.中国互联网状况[EB/OL].(2010-06-08).http://politics.people.com.cn/GB/1026/11813615.html.

[3]中国电子商务协会可信电子商务推进中心, 中国可信网站应用推进联盟, 北龙中网(北京)科技有限责任公司.2012年中国网站可信验证行业发展报告[EB/OL].(2012-07-04).http://www.ectrust.org.cn/column_6/201210/t20121024_36991.html.

[4]International Standardization Organization.ISO/IEC15408-2009 Information Technology——Security Techniques——Evaluation Criteria for IT Security——Part 1: Introduction and General Model[S].2009.

[5]Gates B.Trustworthy Computing[EB/OL].(2002-01-17).http://www.wired.com/techbiz/media/news/2002/01/49826.

[6]林闯, 田立勤, 王元卓.可信网络中用户行为可信的研究[J].计算机研究与发展, 2008, 45(12): 2033-2043.

[7]GENI.Global Enviroment for Networking Innovations[EB/OL].[2013-09-10].http://www.geni.net/.

[8]FIND.Future Internet Design[EB/OL].[2013-09-10].http://www.nets-find.net/.

[9]吴建平, 毕军.可信任的下一代互联网及其发展[J].中兴通讯技术, 2008, 14(1): 8-12.

[10]林闯, 彭雪海.可信网络研究[J].计算机学报, 2005,28(5): 751-758.

[11]张宏科, 苏伟.新网络体系基础研究——一体化网络与普适服务[J].电子学报, 2007, 35(4): 593-598.

[12]Wong M, Schlitt W.Sender Policy Framework(SPF) for Authorizing Use of Domains in E-Mail, Version 1[S].RFC 4408,2006.