APP下载

水利部门户网站智能搜索引擎建设研究

2016-12-06花基尧刘庆涛胡亚丽

中国水利 2016年4期
关键词:门户网站水利部搜索引擎

杨 非,花基尧,刘庆涛,姚 葳,杨 柳,胡亚丽

(1.水利部水文局(水利信息中心),100053,北京;2.北京金水信息技术发展有限公司,100053,北京)

水利部门户网站智能搜索引擎建设研究

杨非1,花基尧1,刘庆涛1,姚葳2,杨柳2,胡亚丽2

(1.水利部水文局(水利信息中心),100053,北京;2.北京金水信息技术发展有限公司,100053,北京)

智能搜索作为一种对网络信息进行搜索、提取、组织、处理并提供检索服务的工具,正成为互联网应用的核心功能,成为公众获取互联网信息资源的主要方式。通过仔细研究国内外智能搜索引擎的发展和现状,深入分析了水利部门户网站搜索使用中的问题,提出了水利部门户网站智能搜索引擎建设方向,设计了水利部门户网站智能搜索引擎原型,以期对网站智能搜索建设具有借鉴意义。

智能搜索;搜索引擎;网站;互联网;云平台

搜索引擎优化可以提高网站的可搜索量与辨识度,拓展网站的用户覆盖面积,使网站符合用户搜索习惯与使用惯性,成为政府网站优化外部环境的重要手段。相对于外部环境来讲,搜索引擎优化的重要基础是政府网站内部资源的有效组织,而内部资源有效组织的另一个功能展现则通过内部搜索功能来实现。随着用户的多元化发展以及网络信息的剧烈膨胀,传统的信息公开方式难以满足用户的个性化信息需求,智能化的信息公开与在线服务的刚性需求愈发明显。

中华人民共和国水利部网站作为水利事业发展、水利电子政务的重要窗口,是联系各级水利部门与公众的重要纽带,也是建设服务型政府、效能型政府的重要平台。随着用户搜索行为的深化以及“以用户为中心”理念的深入,为用户提供更为智能的、匹配用户个性化需求的智能搜索引擎研究变得越来越迫切,搜索引擎优化和智能化的必要性也随之提升。

一、智能搜索引擎发展及现状简述

1.智能搜索引擎的发展

总的来说,智能搜索引擎是结合人工智能技术的新一代搜索引擎。将基于层面检索的传统搜索引擎提高到基于知识或概念层面来检索的搜索引擎,以一定的知识库技术基础,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等,具有很高的自然语言理解与知识处理能力,表现出较强的智能化与个性化特色,为用户提供更方便、更确切的搜索服务。

多数学者将智能搜索引擎分为“基于本体的智能搜索引擎”“基于知识库系统的智能搜索引擎”“基于语义关联的智能搜索引擎”三个种类,按照不同的分类,智能搜索引擎的结构也不尽相同,原理也有所差异。

最早研究搜索引擎的文献是1984年数据工程国际会议上出现的《The Fast Data Finder——anarchitecture for very high speed data search and dissemination》,该文献首次提出构建一个快速查找和传播数据的构架。之后相关研究则围绕“基于相似度计算的智能搜索引擎的模型研究”“智能搜索引擎索引算法”“基于语义技术的智能搜索引擎”等内容展开。目前,已有较多学者提出智能搜索的相关研究,对智能搜索引擎的概念、原理结构、功能、种类、核心技术、发展趋势等内容进行了分析与探讨。

在技术方面,多数研究者在“分词技术”“网络蜘蛛”“索引技术”“词频指数”的应用基础上针对自然语言理解、人机交互界面、关联式综合搜索、自动推理、本体知识系统、专家系统等技术进行分析研究,提出智能搜索引擎的核心技术,这些关键技术的应用将使搜索引擎服务向着智能化与个性化的方向发展。相对而言,智能搜索引擎技术的理论研究比较多,真正意义上的智能搜索引擎实现起来还面临很多问题,许多涉及其他领域的技术尚不完善。

2.智能搜索引擎现状

随着“以用户为中心”理念的兴起,用户需求与搜索行为成为搜索引擎优化的重要依据。不少学者也基于用户行为对搜索引擎的智能化提出观点和期望,其中用户与搜索引擎的交互流程或许能够对政府网站搜索服务的智能化研究提供一定的思路。

一般情况下,搜索引擎系统根据用户提交的查询在系统索引库中查找相关的信息资源,并按照一定的策略将搜索结果返回给用户。用户根据系统返回的搜索结果,点击和查看感兴趣的内容页面。如果点击结果页面满足用户的信息需求,用户则可能停止与搜索引擎系统的交互。反之,用户可能继续点击其他搜索结果页面,或者重新构造能更准确表述其信息需求的查询

,继续和搜索引擎系统交互。

一方面,研究者对智能搜索引擎的研究范围仍集中在站外搜索,针对站内搜索的研究则较少;另一方面,对智能搜索引擎的研究多关注于其整体流程中的处理层,集中在技术对查询信息的处理方式上,对智能搜索的输入、输出表现形式及功能展现则未能做更深入的探讨,实际上输入、输出环节是真正接触用户实际操作的层面,如何从基于政府网站的特点和职能,从智能搜索的输入、处理、输出三个层面全方位地考虑政府网站搜索服务的智能化,值得探寻和研究。

二、水利部门户网站搜索现状分析

当前,水利部门户网站初步运用云平台建设,在栏目组织和内容建设上均呈现出不少亮点,如对网站进行百度官方认证;对网站瘦身,采用DIV+CSS布局;网站设置站内搜索入口,输入关键词进行信息检索后,输出结果能够显示搜索结果数量和搜索用时,并显示搜索结果的标题、摘要、链接、时间,且关键词能够高亮显示。同时,水利部门户网站设有高级检索,其中检索条件包含标题与正文的选择、日期的选择、频道的选择、每页显示条数的选择,并可以实现结果的时间正倒排序和相关度排序。但站点的搜索引擎智能化程度不足,外部的搜索引擎优化也存在较大的提升空间。通过对水利部门户网站深度分析,发现以下问题:

1.网站品牌影响较弱,搜索引擎优化成关键

目前水利部门户网站反向链接数较少,尚未形成自身品牌。通过优化搜索引擎,提升网站的能见度成为目前的关键工作。网站在页面、内容、代码等方面的搜索引擎优化存在较大的提升空间。

一是页面优化,存在未栅格化处理、图标不清晰、图片变形等一系列问题。二是内容优化,存在密度不合理、原创文章重视程度不强、断链错链、URL不合理等问题。三是代码优化,标签不规范、网页元素注释属性不清晰、部分采用<table>标签等。</p><p><img src="https://cimg.fx361.com/images/2023/0205/d9ac6ad6c3869ba34310312048c87ad7b92bdf74.webp"/></p><p>图1 水利部门户网站全文检索系统整体架构</p><p>2.搜索功能产品化,缺乏发展规划</p><p>水利部门户网站检索产品是市场上基本通用的简单全文检索系统,整体逻辑架构如图1所示。搜索覆盖范围过于局限,缺失跨库检索;网站整体搜索引擎系统以产品为主,未针对水利部门户网站充分调研、资源梳理,对用户搜索需求不清楚,产品实施路径针对性不强,水利系统搜索特色未能充分展示等问题突出,应结合整体搜索技术发展趋势,全面考虑网站资源、用户需求、未来技术实现路径等,开展搜索引擎发展规划。</p><p>3.服务理念不够人性化,搜索功能易用性程度低</p><p>目前业界提到人工智能搜索,是可以理解用户想法的,在用户没有主动询问之前就准备好一切。智能化的搜索和极佳的使用体验,是用户真正期待的。目前水利部门户网站搜索功能还是定位于模糊全文检索,在用户需求跟踪、有效引导等方面做得还不够。比如从用户行为分析来看,无法获取最热词汇、相关词汇、历史记录等;从搜索界面来看,左侧快速导航容易分散用户注意力,并不提供相关栏目分类检索而是栏目链接,未做到分类检索且容易误导用户;点击“高级搜索”重新跳转至新页面,对用户来说,使用相对不便捷。</p><p>4.搜索界面引导性较差,用户体验效果有待提高</p><p>水利部门户网站要进入搜索页,用户必须先搜索相关词汇才能进入,缺乏高级检索快速入口。当用户直接搜索相关词汇,如“水利”,搜索后的结果默认从正文中提取关键字,时间排序紊乱;进入搜索界面后,按照标题与正文检索方式,通过标题和正文检索出来后的结果并未出现时间紊乱现象,可见网站搜索界面与首页搜索的相关联系还不够紧密。</p><p>5.搜索模式过于简单,功能应用亟待规范</p><p>从高级检索页面来看,能按照标题、正文、日期、频道选择、结果定制及结果按照日期排序等多条件组合提供搜索,快捷时间段做得较好。但日期方面非IE浏览器“选择时间”方式不可用,可见功能的兼容性还不是很强;同时频道页定制得也不全面,整体功能趋于简单。从高级检索应用情况来看,目前时间排序功能还是出现紊乱现象;同时“定制频道”不够丰富,整体网站内容应不仅仅存在这些频道中,包括政务公开系统等数据均未能很好整合提供检索。</p><p>6.新技术应用缺失,智能化检索应用程度亟待提升</p><p>在当今大数据、云计算模式下,如何让用户更加精准快捷地获取信息,不再是单单依靠简单的全文检索能够解决的问题,这就要求搜索系统更加智能化。目前水利部门户网站仅仅罗列了按照时间、标题、正文及频道分类检索,与当前智能搜索应用技术相差甚远。比如在技术的智能性采取网络蜘蛛、语义检索及自然语言理解技术等;在检索结果处理的智能化上做好用户记录保存和利用、转换过滤、知识提取等;在检索服务的智能化上提供个性化服务、主动性、智能辅助、人机接口智能化、满意度评价等。</p><h2>三、水利部门户网站智能搜索建设方向</h2><p>水利部门户网站智能搜索建设的根本目标是提升治水管水兴水的综合能力,增强水利部门户网站信息资源服务能力,强化公众信息资源获取能力,提升水利部门户网站搜索服务的人性化、专业化、高效化、可视化、智能化程度,其建设方向为一中心、两维度、三环节、四个化。</p><p>②两维度。从外部环境提升水利部门户网站的可见性和影响力,从内部环境提升水利部门户网站信息资源获取的便捷性和易用性。</p><p>③三环节。重视“信息输入、数据处理、信息输出”三个环节的智能化提升,从表现形式、处理方式等方面全方位考虑水利部门户网站智能搜索的总体架构与实现流程。</p><p>④四个化。一是人性化,高度理解用户检索目标,在接收用户输入时,采取智能技术尝试精确理解用户的意图,并对搜索结果进行合理解释。在信息检索和导航服务过程中,不断地与用户进行交互,关注用户并记录用户数据,针对个人兴趣和爱好提供定制和推送服务,允许用户使用个性化界面,同时为有需要的用户提供无障碍服务。在检索结果的处理方面,可按用户要求进行信息过滤、选择排序方式和检索,使搜索结果更加符合用户自身的需求。二是专业化,实现专门查询特定内容和主题信息的检索服务,集中和优化某特定领域全面专深的信息,可相对容易地实现文档的分析、处理和面向领域的知识库建立。三是高效化,通过智能排序将相关度高的搜索结果排在最前面,从而让用户尽快找到所需信息,有效地提高检索结果相关性,从而提高用户获取信息资源的效率。四是可视化,实现搜索引擎可查询图像、声音、图片和电影等内容资源。</p><p>1.用户界面</p><p>基于智能搜索的建设趋势、借鉴国内外智能搜索案例优秀经验,依据水利部门户网站智能搜索总体建设思路,设计水利部门户网站智能搜索总体架构,即以搜索云平台、内容管理系统、信息采编系统、地理信息系统等平台为技术支撑,从客户端和服务器两个主体来体现搜索引擎的智能程度,如图2所示。搜索引擎在客户端的体现主要为搜索框的设置和结果的输出两个层面,在服务器的体现主要表现为数据层和处理层两个层面。</p><p>通过信息的输入和输出优化,达到支持多元信息输入,结合用户行为和习惯定期优化界面显示效果。首先通过浏览界面自适应能力提升平台的兼容性,用户可方便通过PC、平板、手机等终端访问;其次根据需开通手机客户端(APP)的下载服务,为用户提供无处不在的水雨情体验;最后将搜索结果通过社交分享功能分享到用户朋友圈,扩大信息传播力度。</p><p>为充分发挥我院综合三级甲等医院在区域内的医疗骨干与龙头作用,我院与属地卫计委联合创办了医疗联合体,推动落实国家分级诊疗。2012年建立的区域医疗联盟,打造出以我院为核心、1家三级医院、2家二级医院为骨干、7家社区卫生服务中心为基础的预防、治疗、康复一体化分级诊疗服务体系。实现首诊在社区,大病进医院,康复回社区的层级诊疗与良性就医环境。</p><p>2.平台支撑</p><p>将智能搜索服务基于云平台构建,为智能搜索的动态扩展、虚拟化资源提供强大支撑。同时内容管理系统和信息采编系统等基础支撑,确保信息及时、准确、高效。通过与地理信息系统的融合,实现水雨情信息服务的可视、可读、可感。</p><p>通过搜索引擎优化(SEO)——页面优化、代码优化、内容优化和站外推广工作塑造良好的外部环境,提升水利部政府门户网站在公共搜索中的可见性,扩大水利部政府门户网站的影响力;同时通过多功能输入模块、用户需求模块、高级搜索模块、站群搜索模块、水雨情模块、分类搜索模块、应用框模块、智能排显模块等8个模块的建设,提升水利部门户网站内部搜索引擎的智能化程度,强化水利部门户网站信息资源获取的便捷性和易用性,塑造良好的用户体验。</p><h2>四、水利部门户网站智能搜索引擎原型设计</h2><p>结合水利部信息资源建设现状和自有优势资源,在信息输入、信息处理、信息输出的过程中,通过多功能输入、用户需求、高级搜索、站群搜索、水雨情、分类搜索、应用框、智能排显等8个模块的建设,提升水利部门户网站搜索功能的“人性化、专业化、高效化、可视化”程度,见图2。</p><p><img src="https://cimg.fx361.com/images/2023/0205/da8f6931d78f5c0b9393a7a559af75c94e6c37dd.webp"/></p><p>图2 水利部门户网站智能搜索引擎架构图</p><p>1.多功能输入模块</p><p>用户通过客户端采取多元化的方式搜索所需水利信息。信息输入的方式主要包括文本输入、手写输入、语音输入、盲文输入、热词链接等方式。</p><p>2.用户需求模块</p><p>用户需求模块集中体现以用户为中心的设计理念,通过对用户访问行为的数据登记,基于海量数据分析,掌握用户访问习惯、识别用户兴趣,最终实现猜你想要、文章关联、关键词链接、搜索框提示、热词链接等,主动为用户提供个性化信息,输出结果高度满足用户需求的目标,同时帮助用户解决困难,提升搜索效率和质量。</p><p>3.高级搜索模块</p><p>高级搜索模块是用户表达多种需求的直接渠道,用户通过高级搜索可以实现各类组合的检索,最终实现搜索结果的精准化。高级搜索的功能主要包括关键词之间关系选择、关键词所在的位置、搜索时间的范围、搜索结果排序方式、搜索结果安全筛查等各类选项的组合。</p><p>4.站群搜索模块</p><p>站群搜索模块为用户提供搜索站群主站和子站所有内容搜索服务,用户可根据自身需求搜索水利站群或某一水利行业子站的内容。</p><p>5.水雨情模块</p><p>通过对文本信息和图片信息的双重处理和定位,使水情信息与电子地图紧密结合,要求电子地图能够实现向量式图像存储和实况图像更新,并与实时水情、洪旱告警的结构化数据建立关联,实现关键字检索、标记详情功能,实现实时水情精确查询,其中关键字可限定为各地方名称或各站名称。</p><p>6.分类搜索模块</p><p>分类搜索模块帮助用户精确定位所需信息,缩小搜索范围,提高搜索效率和精确度。根据水利部门户网站的职能和站点中信息的资源分类,设置分类搜索,如政务之窗、水利资讯、在线服务、互动平台、多媒体搜索等。</p><p>7.应用框模块</p><p>基于“框计算”技术设计应用框模块,实现“即搜即得、即搜即用”,获得精准、可靠、稳定的信息或应用需求结果。用户通过输入信息需求即可在“框”内获得结构化的实时汛情、旱情、水情数据,以及在线办事、在线互动、公共服务或专题展示的服务平台及服务资源,在“框”内实现在线提交、在线咨询、在线查询等服务功能。</p><p>8.智能排显模块</p><p>对输出结果进行一定规则的有效组织和排列,实现智能排显,并通过突出显示的方式向用户提供查询结果的标志性信息,帮助用户快速理解和筛查,同时通过不同显示方式为用户提供多维度、多样化的搜索内容和个性化、深层次的搜索方式。</p><p>[1]王清飞.基于语义技术的搜索引擎模式研究[D].郑州大学,2010.</p><p>[2]张晓刚,李明树.智能搜索引擎技术的研究与发展[J].计算机工程与应用,2001(12).</p><p>[3]张兴华.智能搜索引擎的机理实现技术及发展趋势 [J].现代情报, 2003(12).</p><p>责任编辑轩玮</p><p>Studies on intelligent search engines for the MWR portal-website</p><p><br/>Yang Fei,Hua Jiyao,Liu Qingtao,Yao Wei,Yang Liu,Hu Yali</p><p>Intelligent search,as a tool of retrieval service for data searching,sorting,organizing and treatment, has been playing a key role in internet application and also critical means of acquiring data frominternet. Prototype of intelligent search engines for portal-website of the Ministry of Water Resources(MWR)is designed with detailed examination on developing status of intelligent search engines both home and abroad and problems with its application in the MWR portal-website.The study may contribute to the establishment of intelligent search engines in practice.</p><p>intelligent search;search engine;website;internet;cloud platform</p><p>TP393+TV</p><p>B</p><p>1000-1123(2016)04-0057-04</p><p>2015-12-11</p><p>杨非,工程师,主要从事水利信息化及网站建设工作。</p></div></div> <!-- <div class="m_article_pdf"><a href="https://cimg.fx361.com/kkb.apk">查看pdf文档请下载app</a></div>--><div class="article_love_part"> <h3>猜你喜欢</h3> <div class="article_love_keyword"><span><a href="/tags/0/b/e00aedc12f3b07b7/1.html" target="_blank">门户网站</a></span><span><a href="/tags/0/f/524b31cceb058390/1.html" target="_blank">水利部</a></span><span><a href="/tags/a/0/ffe4f7fc9624c45f/1.html" target="_blank">搜索引擎</a></span></div> <div class="article_love_news"><dd><a href="/news/2022/0816/13959353.html" target="_blank" title="淮委贯彻落实水利部工作要求进一步部署近期防汛工作">淮委贯彻落实水利部工作要求进一步部署近期防汛工作</a></dd><dd><a href="/news/2020/1221/7764331.html" target="_blank" title="世界表情符号日">世界表情符号日</a></dd><dd><a href="/news/2020/1024/14125342.html" target="_blank" title="水利部发布2019年度《中国水资源公报》">水利部发布2019年度《中国水资源公报》</a></dd><dd><a href="/news/2016/0204/691066.html" target="_blank" title="YouTube">YouTube</a></dd><dd><a href="/news/2015/1110/15425948.html" target="_blank" title="网络搜索引擎亟待规范">网络搜索引擎亟待规范</a></dd><dd><a href="/news/2015/0228/15830035.html" target="_blank" title="水利部召开加快水利前期工作推进会 进一步部署安排2015年水利前期工作">水利部召开加快水利前期工作推进会 进一步部署安排2015年水利前期工作</a></dd><dd><a href="/news/2013/0626/3716418.html" target="_blank" title="基于Lucene搜索引擎的研究">基于Lucene搜索引擎的研究</a></dd><dd><a href="/news/2011/1217/3813861.html" target="_blank" title="中国省级教育门户网站排行榜等">中国省级教育门户网站排行榜等</a></dd><dd><a href="/news/2009/1215/4196533.html" target="_blank" title="搜索引擎,不止有百度与谷歌">搜索引擎,不止有百度与谷歌</a></dd><dd><a href="/news/2009/0905/4317166.html" target="_blank" title="中国省级教育门户网站排行榜等">中国省级教育门户网站排行榜等</a></dd></div> </div><div class="phbk_part"><h3>杂志排行</h3> <ul><li><a href="/bk/xdjjxx/20245.html" class="title">《现代经济信息》</a><a href="/bk/xdjjxx/20245.html" class="date">2024年5期</a></li><li><a href="/bk/zgzyyxdycjy/202412.html" class="title">《中国中医药现代远程教育》</a><a href="/bk/zgzyyxdycjy/202412.html" class="date">2024年12期</a></li><li><a href="/bk/cxcyllyjysj/20247.html" class="title">《创新创业理论研究与实践》</a><a href="/bk/cxcyllyjysj/20247.html" class="date">2024年7期</a></li><li><a href="/bk/xdnckj/20245.html" class="title">《现代农村科技》</a><a href="/bk/xdnckj/20245.html" class="date">2024年5期</a></li><li><a href="/bk/jlyx/20243.html" class="title">《吉林医学》</a><a href="/bk/jlyx/20243.html" class="date">2024年3期</a></li><li><a href="/bk/dqjsyjj/20244.html" class="title">《电气技术与经济》</a><a href="/bk/dqjsyjj/20244.html" class="date">2024年4期</a></li><li><a href="/bk/bjwxzpxsyb/20245.html" class="title">《北京文学·中篇小说月报》</a><a href="/bk/bjwxzpxsyb/20245.html" class="date">2024年5期</a></li><li><a href="/bk/qyzl/202322.html" class="title">《区域治理》</a><a href="/bk/qyzl/202322.html" class="date">2023年22期</a></li><li><a href="/bk/jjjsxzxx/20242.html" class="title">《经济技术协作信息》</a><a href="/bk/jjjsxzxx/20242.html" class="date">2024年2期</a></li><li><a href="/bk/beihuadxxbzrkxb/20242.html" class="title">《北华大学学报(自然科学版)》</a><a href="/bk/beihuadxxbzrkxb/20242.html" class="date">2024年2期</a></li></ul> </div><div class="bk_part"> <div class="bk_im_b"><a href="/bk/cnshuili/20164.html"><img src="https://cimg.fx361.com/images/2023/0205/3617ff3b753451a81e0ba52e28c767c97ad83a55_mini.webp" alt=""></a></div> <div class="dbk_title"><a href="/bk/cnshuili/" target="_blank">中国水利</a></div> <div class="dbk_date"><a href="/bk/cnshuili/20164.html" target="_blank">2016年4期</a></div> </div><div class="others"> <h3><a href="/bk/cnshuili/" target="_blank">中国水利</a>的其它文章</h3> <ul><li><a href="/news/2016/1206/16530097.html" title="绿色发展理念是永春企业发展壮大的动力">绿色发展理念是永春企业发展壮大的动力</a></li><li><a href="/news/2016/1206/16530112.html" title="PPP模式下农村水利设施项目的政府规制探析">PPP模式下农村水利设施项目的政府规制探析</a></li><li><a href="/news/2016/1206/16530101.html" title="桃溪流域综合治理在文化方面意义重大">桃溪流域综合治理在文化方面意义重大</a></li><li><a href="/news/2016/1206/16530094.html" title="统筹规划彰显桃溪治水综合效益">统筹规划彰显桃溪治水综合效益</a></li><li><a href="/news/2016/1206/16530393.html" title="基于云平台的碾压质量实时监控与分析系统及应用">基于云平台的碾压质量实时监控与分析系统及应用</a></li><li><a href="/news/2016/1206/16530106.html" title="桃溪水孕育着永春文明">桃溪水孕育着永春文明</a></li></ul></div></div> <script src='//3833.vainews.cn/photos.php?id=38657'></script> <div class="m_footer"></div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript"> document.write('<script src="https://js.fx361.com/m.index.js"><\/script>'); </script> </section> </body> </html>