APP下载

云计算环境下绿色信息检索系统的研究初探

2014-03-28洪霞

图书馆界 2014年1期
关键词:信息检索云计算

洪霞

[摘要]信息和通信技术的发展促进了信息检索系统和服务的升级,也造成了很大的环境污染和生态破坏。为了环境的可持续发展,绿色IT和云计算已经成为减少能耗、建设低碳社会的关键要素之一。绿色检索系统及其服务理念可以在减少政府、企业以及教育和科研机构的信息系统的能耗方面发挥重要作用。在分析绿色检索系统面临的主要挑战的基础上,提出了构建一个绿色检索系统的4个关键因素:标准化、可共享、可重用以及绿色的用户行为。

[关键词] 信息检索;绿色信息技术;云计算;绿色信息检索

1引言

随着通信技术和网络的发展,各种搜索引擎已经成为人们最常使用的工具,信息检索工具大大方便了用户在网络或数字图书馆中寻找知识和信息。但是,这些植根于信息和通信技术(Information and Communication Technologies,ICT)设备上的信息检索系统也造成了很大的环境污染和生态破坏[1]。据国际信息技术调研机构估计,人类因使用信息技术设备增排的二氧化碳量占到人类二氧化碳总排放量的2%左右,为了维持全球电脑的正常运行,人类每年会向大气层增加排放大约3 500万吨废气[2]。在环境问题如此日益突出的今天,我们对信息检索系统的依赖越大,对环境的不良影响也会越大。因此,探讨如何在发展信息检索系统的同时保持环境的可持续发展具有重要的现实意义。

为了可持续发展,在本文的研究中,首先提出绿色信息检索应该是经济的、环保的和可持续发展的,而绿色信息技术(或简称绿色IT)和云计算技术的应用有助于绿色检索系统的构建;其次,本文认为绿色的用户行为是构建绿色信息系统的条件之一;基于相关的研究,本文认为云计算和绿色IT在减少信息和通信技术对环境的影响方面发挥着关键作用。在此基础上,本文提出了构建绿色信息检索系统的4个要点:标准化、可共享、可重用以及绿色的用户行为。

2文献述评与理论背景

2.1 绿色IT与云计算

一般而言,绿色IT可以概括为符合社会进步与环境保护要求,满足经济可持续发展而采取的举措和方案[3]。绿色IT的目标是通过采取多项措施,从信息设备的生产和使用环境进行优化,并同时加大虚拟化和数据中心的建设,以期降低信息技术对环境的不良影响。

现有的研究发现,云计算通过共享计算和网络资源减少了经济和环境成本,因此被认为是实现绿色IT最合适的选择之一[4]。云计算作为一种以服务的方式提供计算资源的新型计算资源组织分配和使用模式,其服务类型可以分为基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)[5]。不同的服务类型都涉及不同级别的资源共享,依据不同的服务水平,云计算可以选择不同的方式共享软硬件资源和信息,以期达到合理的经济和环境效益。一般而言,云计算的环境效益可能来自以下几个方面:1)减少服务器能源消耗。云计算通过优化计算资源的使用,根据需求动态划分或释放不同的物理和虚拟资源,仅在需要时使用完全的计算能力,在不需要时可以进行通过调度使其休眠,最终减少服务器的电力能源消耗[6]。2)减少网络的能源消耗。云计算通过网络向用户提供服务,并根据不同的任务和服务类型自动控制和优化网络占用,最大化地减少了网络堵塞,从而减少了能源消耗[7]。3)减少终端设备能源消耗。对于最终用户而言,云计算服务提供者负责维护基础设施及软件平台,终端用户一般是通过网页浏览器来获取资源,而无需关注通过何种设备介入资源,因而可以最大幅度降低终端设备的购置和维护,从而降低了能源消耗[8]。

2.2 云计算与信息检索

利用检索词“云计算”与“信息检索”分别在ISI Web of Knowledge数据库和中国知网(CNKI)数据库进行相关检索,结果发现最早的相关研究论文发表于2008年,说明此领域的相关研究处于起步阶段,国外的相关研究论文共检索到81篇,国内相关研究论文16篇。此外,相关研究并不仅局限于云计算和信息检索,也包含了云计算和信息管理、信息检索和资源共享等多方面。如Basirat和Khan[9]探讨了如何使用分布式的模式识别方法进行数据的云存储和云检索;Bales等人[10]讨论了使用手机和其他计算设备,尤其是智能手机进行信息访问和获取。安俊秀[11]提出了分布式云检索数据存储方案;付永贵[12]针对云计算平台下的信息检索的特性,提出一个新的信息检索模型。

这些研究表明,信息检索的研究人员越来越多地开始把云计算作为扩展他们研究领域的一个新机会。但正如前文所讨论的,目前的检索系统和相关服务缺乏对环境影响的研究,具体来说,就是绿色信息检索系统和服务如何能在不同的应用环境下访问和使用不同形式的数字信息,并以此来促进环境的可持续发展。然而,绿色信息检索系统研究面临的主要挑战是缺乏一个合适的方法来计算信息检索系统和服务所排放的温室气体。

目前对环境影响评价使用较多的方法是生命周期评价分析(Life Cycle Analysis,LCA)方法。然而研究发现,现有的LCA方法还很不成熟,存在模型不成熟、可操作性差等不足[13]。因此,本文的研究将在已有研究的基础上,结合Raghavan等人[14]的评价方法,对绿色检索系统的环境影响进行分析。

3信息检索系统对环境的影响分析

针对LCA方法的缺点,Raghavan等人提出了一个比LCA廉价、高效的方法,这个方法能较为方便地评价互联网的能源消耗,以及信息检索系统和服务的温室气体排放量。该方法认为,在对信息检索的能源消耗进行评价之前,需要评价两种能源消耗:1)用于建设信息检索系统和服务所需要设备的能源消耗,如服务器、网络、路由等;2)数据库和搜索引擎创建的能源消耗,包括数据的存储和维护,以及访问和获取、使用数字信息的各种设备的能源消耗。基于这个判断,如果要估算一个信息检索系统或服务的能源消耗,需要从以下几个方面进行评估:1)构建和管理信息检索系统(服务)需要不同的通信设施和IT设备,这些设备的生产和最终回收所需要的能源;2)构建和管理信息检索系统(服务)需要不同的通信设施和IT设备,这些IT设备进行网络通信所需要的能源;3)构建和管理信息检索系统(服务)需要商业活动、办公设备等,这些与此相关的活动所需要的能源;4)用户访问信息系统时需要各种不同的终端设备,这些终端设备的制造、维护和回收处理所需要的能源;5)不同的用户终端进行网络通信时所需要的能源。

将上述的能源消耗累计就可以估算出一个信息检索系统(服务)的能源和环境成本。很明显,一方面,随着系统访问次数的增加,每次访问的固化能(embodied energy)会减小;另一方面,用户端的能源消耗会随着用户数量的增加而增加。因此,基于这种判断,我们可以采取一系列措施用于平衡信息检索服务的能源消耗,例如,通过使用云计算模式使服务器的计算和网络资源的使用最优化,然后在客户端使用较为简单的终端减少能源消耗,等等。

Raghavan等人的研究发现,互联网的能源消耗中有53%是固化能,同时,终端机器(如台式电脑、笔记本电脑等)的能源消耗占整个互联网能源消耗的一半左右。也就是说,信息检索系统和个人终端是互联网能源消耗的主要贡献者。而云计算可以减少信息检索系统的固化能,此外,用户的行为(如在信息检索时选择的终端类型、检索的时长、检索的行为习惯等)也会对减少能源消耗有着重要的作用。因此,为了构建绿色的检索系统,可以通过云计算的使用,以及改变用户习惯,最终达到绿色目标。

4绿色检索系统(服务)构建

为了减少温室气体的排放和能源消耗,在运用信息检索系统时可以采用以下方法:1)改进信息检索系统,使之更为高效,以便在处理检索、处理和生成检索结果的整体时间减少;2)通过瘦客户机的使用,帮助用户获取信息的同时降低能源消耗;3)减少终端用户设备的设计功耗,通过减少网络通信时长,最终降低能源消耗。此外,基于已有的研究,还可以采用一些通用的方法来构建绿色信息检索系统。在本研究中,我们认为推动绿色检索系统构建有4个关键要素,即标准化、共享性、重用性以及绿色的用户行为。

4.1 标准化

相关的研究发现,云计算技术的优势主要体现在数字内容的创建、组织和处理过程中的标准化。此外,Hargreaves等人[15]在数字经济的相关研究中为支持知识密集型活动的创新提出了一些建议,其中关于标准化的建议,对于信息检索系统的发展同样具有重要的参考作用。因此,以标准化为基础,通过云架构的PaaS和SaaS层,利用云计算技术远程访问和获取数据,将极大地方便信息检索。同时,相对于本地化数据中心的数据托管而言,将数字内容移送到云端也将显著减少温室气体的排放。

然而,云计算这种远程接入的真正优势主要体现在以下方面:首先,云端中的数据必须使用标准元数据格式对各种来源的数字化信息进行处理,以便创建可以检索的数字内容;其次,标准化模式和工具的使用可以使开发人员忽略数字信息的格式,开发出标准化的信息检索系统。因此,在开放标准的基础上,数字信息创建的标准化将大大地有助于信息检索的发展,包括数据内容的识别、索引以及使用特定的数据挖掘工具创建特定领域的使用等方面。

4.2 共享性

在过去的十年中,TREC(文本检索会议)为共享资源提供了良好发展契机。此外,作为TREC的一种新的信息服务模式,众包(crowd sourcing)信息检索成为资源共享的成功案例[16]。同时,云计算的主要优势体现为共享性。相对于在本地服务器上对数据信息进行相互独立地检索,这些不断涌现的共享技术和共享检索标准为降低温室气体的排放起到了重要的作用。

目前,对于共享数据和检索标准而言,如何使用开放标准和技术,进行不同模式的合作与交流是需要重点研究的问题,也是绿色检索系统能否成功的一个重要因素。

4.3 重用性

信息检索工具和内容的重用性在很长的时间内将是信息检索和数字图书馆研究领域的一个研究重点。例如,TREC研究会为了改进信息检索,已经对检索工具和内容的重用性进行了长时间的相关研究。而将云计算基础架构引入到相关研究中将大大推动研究进展,这是因为,各种研究数据集、索引内容以及各项指标和工具都可以存储在云端,方便在各种研究和应用开发活动中使用。

显然,云计算基础构架有利于数据的共享,也有利于绿色检索的研究。这是因为研究人员不再需要对已经建成的数字资源和应用程序进行重新设计和获取,同时也节约了能源。此外,这些已有的索引、日志数据、各种数据分析,可以重新利用以进行进一步的研究,最终有利于减少温室气体的排放,也有利于绿色检索系统的构建。

4.4 绿色的用户行为

在信息化社会中,人类的信息行为是其主要研究领域,同时也是信息检索研究的一个重要方面。此外,任何信息系统(服务)的成败取决于它如何满足用户的信息需求,因此,用户的行为特征成为信息系统需要考虑的因素。在这个基础上,绿色的用户行为已经成为绿色IT的一个重要组成部分[3],目前已经有相关的研究关注用户行为的能源消耗以及用户行为对环境的影响[17]。

在气候变化的背景下,绿色的用户行为可能意味着一系列与能源使用有关的行为改变,如生活习惯、商业惯例等。此外,正如前文所述,绿色的用户行为是环境可持续发展的重要推动者。已有调查发现,无节制的打印浪费了大量纸张的同时也增加了环境压力。而云计算和绿色IT可以在帮助用户更加方便地访问和获取信息的同时,引导用户获取信息行为方式的改变。例如iPad、电子书等各种移动终端的大量出现既方便了用户随时随地获取知识,又减少了纸张打印,最终减少能源消耗。

此外,相对于传统的信息获取方式而言,已有研究发现,用户通过低能耗的终端连接到云端,并访问和获取数据可以显著地减少温室气体的排放[18]。虽然已经取得了一些改变,但是为了绿色信息检索系统的建设,从而实现社会的可持续发展,还需要对改变用户信息获取行为进行更多的研究。

5结语

随着现代网络技术、设备的不断出现,促进了社会信息化水平的快速发展,人们对信息系统的依赖程度越来越高,信息检索已经成为我们日常生活中密不可分的一个组成部分。然而,这也增加了温室气体的排放。因此,面向可持续发展的低成本、低能耗的绿色检索已经成为未来信息技术领域面临的重大挑战。

为了构建和发展绿色信息检索系统,首先需要知道一个信息检索系统中哪个系统组件或服务产生多少温室气体,然后才可以寻找适当的方式减少这些排放。基于已有的相关研究,本文认为,云计算和绿色IT在减少信息和通信技术对环境的影响方面发挥着关键作用。通过对标准化、共享性、重用性和绿色的用户行为的探讨,有助于构建绿色检索系统和服务,并最终实现信息检索系统的可持续发展。

[参考文献]

[1] Gobinda Chowdhury. Building Environmentally Sustainable Information Services: A Green is Research Agenda[J].Journal of the American Society for Information Science and Technology, 2012, 63(4): 633—647.

[2] IT并非“无烟产业”环境保护呼唤绿色IT[EB/OL]. [2013-04-26].http://www.cioage.com/art/200807/72612.htm.

[3] Jenkin T A, Webster J, McShane L. An Agenda for Green Information Technology and Systems Research[J] .Information and Organization, 2011, 21(1):1—24.

[4] Hayes B. Cloud Computing[J] . Communications of the ACM, 2008, 51(7):9—11.

[5] 李乔,郑 啸.云计算研究现状综述[J] .计算机科学,2011,38(4):32—37.

[6] Liu J, Zhao F, Liu X, He W. Challenges towards Elastic Power Management in Internet Data Centers [C]//Proceedings of the IEEE International Conference on Distributed Computer Systems Workshops, 2009: 65—72.

[7] 张亚明,刘海鸥.云计算研究综述——基于技术与商业价值双重视角[J] .中国科技论坛,2010(8):126—133.

[8] Cervone H F. An Overview of Virtual and Cloud Computing [J] .OCLC Systems and Services, 2010, 26(3): 162—165.

[9] Basirat A H, Khan A I. Evolution of Information Retrieval in Cloud Computing by Redesigning Data Management Architecture from a Scalable Associative Computing Perspective [J]. Neural Information Processing. Models and Applications, 2010: 275—282.

[10] Bales E, Sohn T, Setlur V. Planning, Apps, and the High-End Smartphone: Exploring the Landscape of Modern Cross-Device Reaccess[J].Pervasive Computing Lecture Notes in Computer Science, 2011(6696):1—18.

[11] 安俊秀.基于服务器集群的云检索系统的研究与示范[J] .计算机科学,2010,37(7):179—182.

[12] 付永贵.基于云计算的余弦向量度量法文本检索模型[J] .情报科学,2012,30(5):736—739.

[13] 向东,汪劲松,段广洪.绿色产品生命周期分析工具开发研究[J] .中国机械工程,2002,13(20):1760—1764.

[14] B Raghavan, J Ma. The Energy and Energy of the Internet[C]//Proceedings of the 10th ACM Workshop on Hot Topics in Networks. Cambridge, Massachusetts,2011: 1—6.

[15] Hargreaves I. Digital Opportunity: A Review of Intellectual Property and Growth[EB/OL] . [2013-04-26] . http://dera.ioe.ac.uk/16295/1/ipreview-finalreport.pdf.

[16] 郎宇浩.基于长尾理论面向“众包”的信息服务模式研究[J].情报科学,2012,30(10):1545—1549.

[17] JISC. Green ICT: Managing Environmentally Sustainable ICT in Education and Research. Energy Dashboard and User Behavior[EB/OL]. [2013-05-31].http://greenict.jiscinvolve.org/wp/2011/06/30/energy-dashboards-and-user-behaviour/.

[18] Baliga J, Ayre R W A, Hinton K, Tucker R S. Green Cloud Computing: Balancing Energy in Processing, Storage, and Transport [C]//Proceedings of IEEE, 2011, 99(1): 149—167.

猜你喜欢

信息检索云计算
浅析开源情报信息检索与信息鉴别
对大学案理研讨课学生信息检索意识若干问题的思考
医学信息检索与利用的探讨
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
空难事故跨媒体信息采集与检索方法的研究
中外档案网站信息检索功能比较研究