APP下载

一种整合社交网络地理信息数据的方法

2016-10-18高嘉尧

电脑知识与技术 2016年21期
关键词:信息检索检索医学

高嘉尧

"

"

摘要:随着智能移动设备的普及,地理信息数据的应用更加广泛,整合多源的数据,才能更好的使用。该文采集了源自社交网络的地理信息数据,并使用距离和名称两种匹配方法,将数据整合。

关键词: POI;地理信息;社交网络

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)21-0203-01

随着移动设备的不断普及,地理信息(POI)数据的用处已经越来越广泛。任何移动设备应用,很多需要位置信息匹配周边环境。因此,POI数据拥有广泛的应用空间,本文将不同源的POI数据整合。一般的POI数据,有POI名称、纬度、经度、、地址、分类、邮编、联系电话、网址、营业时间等。

1 POI数据采集

本文选择的POI数据源是Facebook和Foursquare的。其中Facebook作为主要数据来源,利用Facebook提供的API和FQL,就可以获取所需要的POI数据。

1.1 Facebook的Graph API和FQL

Facebook的Graph API是获取其网站数据的主要方式。它是一个基于HTTP的简单API,可以用来查询数据,发布信息,上传照片和各种应用程序可能需要执行的其他任务。Graph API由以下内容组成:

·Nodes(比如一个用户,一个图片,一个页面,评论)

·Edges(Nodes之间的联系,如页面的照片或照片的评论)

·Fields(Nodes的信息,如用户的生日,或者页面的名称)。

所有的请求都会被送往graph.facebook.com。每个节点都有唯一的ID以便API访问,同时还可以访问属于节点的联系。

FQL是Facebook的查询语言,开发人员可以使用SQL风格来查询的GraphAPI的数据。与SQL有所区别的是,FQL的FROM子句中只能包含一个表。

1.2 Foursquare的API

Foursquare的API使用URL访问相应的资源。其许开发者在数据库中查找包括提示、照片、签入计数等各种信息,还可以搜索某个固定位置附近的点及周边推荐。

Foursquare的另一个特点,是可以直接使用自然语言的方式,搜索某个类型的地点(如果数据库当中存在的话),并且添加各类变量。

2 POI数据的整合

从社交网络获取数据后,还需要预先处理,预处理的目的如下:

1)验证POI数据集

核查是重要原因所有的POI数据是用户生成的,需要了解POI数据的有效与否。

2)匹配并去除冗余

对于冗余数据导致不可靠的和不必要的数据POI数据,需要加以处理。

3)全局了解POI数据集

需要建立相结合的POI数据,但是,哪些类别是有用的,哪些是没有用的。系统采用的技术方案分为以下几个步骤:

对于起初的POI数据匹配,首先将不同来源的数据抓取到数据库暂存,因为API的关系,可以确定这些数据的字段,并且可以直接存入数据库。

此后,将某一个源的数据作为蓝本,通常使用数据量更大的,这样可以减轻匹配的工作量,这里假设以Foursquare数据作为蓝本,则需要对每一条新的Facebook数据,采取以下两种算法进行匹配,从而决定其是否为冗余数据,架构如图1所示。

在此基础上两个标准,建立一个基于距离和名称的标准来判定这两条数据是否匹配。POI数据匹配的算法如下:

1)用Facebook POI数据与Foursquare的数据进行比对;

2)如果多个结果产生:

A. 检查POI位置之间的距离,并找到最近的POI

B. 最近的POI后,选择比较之间的两个POI数据的名称

C. 如果匹配FOUND选择匹配的数据集D中的POI和存储。

D. 否则选择下一个最近的POI并转到步骤B。

距离匹配:

不同源的社交网络产生相同POI数据非常常见,因此选择一定的阈值范围作为基准,然后计算该范围内的POI与当前POI数据之间的欧几里得距离。步骤如下,采取Foursquare数据作为基准,从Facebook数据查询的POI,找到所有最近的POI数据,并计算它们之间的距离。检查POI数据之间的最短距离。当你有两个POI显示相同的位置,如果两者完全在同一位置,则可以确定是同一个数据,如果不是,则再使用名称匹配。

名称匹配:

使用该POI的名称来匹配是匹配算法的第二个步骤。两个源的不同数据,必然导致POI的名称有很多变化。为了匹配,使用以下两个方式来精确匹配:

1)标准子串匹配(LCS)

2)Levenshtein距离

在相关技术中的讨论,Levenshtein距离是测量两个序列之间的差异的字符串。通俗的说,就是改变一个字成其他字所需的单字符编辑操作(即插入,删除或替换)的最小数量。标准的子字符串匹配是常见的算法,将名字划分程子串与字符串源的每一个部分匹配。

3 结论

通过以上这些技术,实现了对源于社交网络的地理信息的初步整合。不过,还有一些可以完善和改进的地方,特别是对于大量的冗余的处理。这就有待进一步的研究来实现了。

参考文献:

[1] "Grphapi developers documentation," ,Facebook Inc., https://developers.facebook.com/docs/graph-api, 2016-04-10.

[2] "Documentation of Foursquare API," ,Foursquare, https://developer.foursquare.com/..2016-04-10.

[3] Navarro G. A guided tour to approximate string matching. ACM computing surveys (CSUR), 2001,33(1):31-88.

摘要:人类已经进入了信息网络化时代,而Internet作为当今世界上最大的信息资源网络,涵盖了非常丰富的医学信息资源。该文在阐述医学信息资源检索的重要性基础上,结合笔者经验对国际国内不同医学资源进行研究比较,并探讨一些解决医学信息资源查找利用困难的方法。

关键词:医学信息资源检索;Internet

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)21-0188-02

21世纪的今天,人类社会已迈入信息化时代,医疗信息化代表着未来医学发展趋势。同时,医疗信息化也是医疗活动必不可少的支撑和手段。医学院校的大学生和广大医学科研人员掌握一定的医学信息管理知识在医疗信息化的大环境显得尤为重要。学习并掌握医学信息检索知识是广大医务工作者构建医学信息管理知识体系,提高信息素养教育的基础。信息素养为终生学习奠定基础,适用于各个学科领域,特别是在新知识新技术发展迅速的医学领域。熟练掌握医学信息检索技能,有利于提高医疗工作效率以及加快医学领域科技创新,有利于满足人民群众日益增长的健康需求。

1医学文献检索对医务工作者的特殊意义

医学信息文献是反映当前医学科技研究的新成果和科技创新的媒介,是传播和交流医学信息的载体和依据[1]。医务工作者需要通过医学文献检索找到所需资料,对掌握医学科技的前沿信息,提升自身的医术水平大有帮助。

1.1通过医学文献检索,提升医术水平

医疗相关从业人员需要具有终身学习的精神,需要洞悉医学领域的最新发展成果,通过医学信息文献检索,掌握医学科技的前沿信息,对提升自身的医技水平和探究人类生命科学的奥秘有着特殊的意义。通过医学文献检索,及时地更新知识,掌握医疗新技术和新方法,与时俱进地增进自身的信息素养,才能更好地成为一个医术精湛的优秀医师。

1.2 医学科研选题的需要

医学科研选题是否具有创新性和实用性,知晓学科领域的最新信息是基础。医学科研选题要避免与他人重复,筛选出有价值、有创新的课题,少不了医学信息检索工具的帮助。

1.3 科研成果的主论依据

医务工作者在把自己的研究成果撰写为论文时,通过检索与课题有关的医学文献,掌握最大量的信息源,再通过自己的分析、判断,去粗取精、对比立论,才能更好的凸显论文的论点及创新点。

1.4 具有较强教学能力的需要

当前,我国各大综合性或专科医院都有培训基层医师、接受进修医师、带医学生临床见习的教学任务。能够完成这些教学工作的医师必须具有丰富广博的医学学科知识。医学科技的发展非常迅速,只有通过医学文献的检索,更广泛地学习相关学科的新技术、新知识,再结合自己的实践经验,才能更好地完成所承担的教学任务,做一名医德高尚、医术高明的导师。

2 医学信息检索的基本知识

1) 医学信息检索的基本概念:结合现代信息技术和学科发展的需要,医学信息检索是指医学信息的有序化识别和查找的过程,即人们根据医学信息需求,采取科学的检索方法,应用专门的检索工具,从浩瀚的信息海洋中迅速,准确地获取所需医学信息的过程。

2) 医学信息检索系统:是为达到特定的医学信息交流目的而建立的一种能够向用户提供医学信息服务的有序化的信息资源集合体。医学信息检索系统一般由下列要素构成:医学信息资源、设备、方法与策略、人。方法与策略包括检索语言、标引方法、信息的组织与管理方法、信息的检索策略与技巧等;人是医学检索系统的能动因素,随着社会网络化程度的不断提高,具有自主检索能力的最终用户将在医学信息检索系统中起到决定性的作用。

3) 医学信息检索工具:信息检索工具是将大量分散无序的信息经过搜集、加工和整理,按照一定的规则和方法进行组织和系统排列,用以存储和查找信息的工具。主要由使用说明、正文(或数据库)、辅助索引和附录4个部分组成。常用的检索工具有如下类型:手工检索工具、机械检索工具、计算机检索工具、网络信息检索工具。

3 Internet网络信息资源检索

现在Internet网信息资源检索已经成为大多数医务工作者实现医学信息管理的重要工具。由于Internet是一个全球分布式网络上,信息分别存储在各国的主机、服务器上,信息的分散性给检索信息带来了困难。网上信息数量非常庞大,每天的信息流量达万亿比特,用户面对成千上万个链接点信息量,想要迅速、准确地找到所需要的信息是很困难的。特别是医学信息资源储存的各个网站性质不同,信息的广度和深度不同,而且相互交错,检索利用的难度非常高[2]。网络医学信息检索方式智能化检索功能不强,例如,只能检索到含有用户指定的关键词的文件,无法检索出主题上密切相关,但并没有包含这些关键词的文件。要解决医学信息资源查找和利用困难这个问题,有下面多种方法可供我们研究。

3.1 专业搜索引擎

当前,最主要且最常用的网络信息检索工具是基于超文本的搜索引擎。它具有信息检索服务的开放性、超文本的多链接性和操作简易性的特点。一般可分为两类:一类是通用搜索引擎,如百度、新浪等;另一类是专业搜索引擎,即针对某个专门领域或主题采取自动或人工方式进行资源搜集,整理而成的搜索引擎。现代医学的分科越来越细,而通用搜索引擎没有针对医学专业人士需求进行优化,因此检索结果很难满足这类医学用户的查询需求。20世纪90年代中期,人们把数据库技术、网络技术、信息检索技术、医学信息组织管理的有关理论和方法有机地结合起来,推出了专门用于搜索网络医学信息资源的医学各学科专业搜索引擎。如心脏科: CardioGuide,URL: http://www.cardioguide.com;牙科: DentalGuide,URL: http://www.dentalgate.com等 [3]。

猜你喜欢

信息检索检索医学
医学的进步
2019年第4-6期便捷检索目录
医学期刊编辑中文献信息检索的应用
专利检索中“语义”的表现
基于神经网络的个性化信息检索模型研究
医学
医学、生命科学类
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
国际标准检索