APP下载

少数民族地区村域汉语方言地理信息系统(GIS) 的建立
——以黔东南苗族侗族自治州为例

2022-04-29

贵州民族研究 2022年2期
关键词:空间数据编码方言

罗 琼

(凯里学院,贵州·凯里 556011)

地理信息系统(GIS) 起步于20世纪50—60年代,它具有数据采集、管理、分析、建模、可视化表达等功能,用于解决复杂的规划、管理和决策问题。GIS是人文社会科学研究的一种信息化新方式,已广泛应用在人类学、经济学、历史学、社会学等学科领域。目前国内外均有基于GIS技术的语言地理信息系统研究,国外研究基于宏观尺度的居多,国内研究有基于宏观的,也有基于微观的,国内学者张义、张维佳、潘悟云等在历史方言地理信息系统构建和现代方言共时研究方面都取得很多成果;但在小尺度下,对于涉及苗侗地区村域汉语方言地理信息系统的研究几乎还没有出现。

对少数民族地区汉语方言资源数字化工作进行研究,充分挖掘方言资源信息,使其方言资源数据标准化、规范化、系统化,至少具有以下4个方面重要意义:一是为小尺度少数民族地区方言地理信息系统建立提供参考;二是为纳入大尺度数字方言地理信息系统做好准备;三是为当地政府部门和管理人员制定语言规划提供决策支持;四是为保护和传承优秀的传统文化资源及弘扬民族文化自信提供有力保障。本研究以黔东南州为研究区,针对村域汉语方言资源信息进行数字化,建立汉语方言地理信息系统,实现方言资源的信息化管理,为当地语言政策制定提供决策支持和服务,同时为融入全国方言地理信息系统平台乃至全球方言地理信息系统平台做好准备。

一、研究区域基本概况

黔东南苗族侗族自治州,地处贵州省东南部,以“原生态”闻名于世界,境内居住着苗、侗、汉、布依、水、瑶、壮、土家等民族,少数民族人口占总人口的80%有余,其中苗族人口占比超过40%,侗族人口占比超过30%。

二、系统工作环境及MapX 组件技术简介

(一) 系统工作环境

系统工作环境包括硬件环境配置、软件环境配置及图件资料。硬件配置包含计算机,80G以上硬盘,2G以上内存;软件环境配置包括开发环境(Microsoft Visual Studio2005、MapInfo Professional、MapX4.5、Microsoft Visual C++6.0,Oracle9i) 和运行环境(Microsoft Visual Studio 2005、Windows 2000 或Windows XP,Oracle9i);图件资料包括黔东南州行政区划图、地形图、水系图、村镇分布图等。本系统中所获取的数据主要有以下几种方式: 一是利用国家基础信息平台提供的基础底图,经过GIS软件处理获得;二是汉语方言数据来源于王贵生教授专著;三是通过手工在键盘上输入地图的属性数据和其他图表资料;四是利用百度地图开放平台获取相关的地图数据。

(二) MapX 组件技术简介

MapX 是一款OCX控件产品,属于美国MapInfo 公司开发,具有强大的地图分析功能。因为它是一种基于Windows操作系统的标准控件,其兼容性很好,故能在大部分标准的可视化开发环境进行应用,如Microsoft Visual C++、PowerBuilder等。开发人员可以选用任一对象语言,利用MapX和其结合进行二次编程,实现通用GIS工具软件提供的基本数据编辑等功能,同时可以不依赖于MapInfo软件平台而单独运行。

MapX 的空间数据结构,一方面从横向来看,采用空间实体和空间索引相结合的方式。空间实体主要包括点、线、面3种基本类型。点、线、面分别用对应的坐标表示;空间索引主要用于快速查询坐标对应的实体及相关的数据。另一方面从纵向看,它是采用分层存放的方式进行,目前分层是较成熟的数据组织管理方式。分层能在逻辑上区别不同要素,从而提高搜索速度,便于数据的灵活调用、管理及更新。

MapX 的显著特点有5个方面:一是方便制作多种方式的专题地图,包括直方图、点密度、范围图等;二是方便浏览和查询与地图对象相连的各类数据信息;三是快速加入文本、符号、表格等信息,使地图内容更加丰富、完整;四是可以访问远程空间数据服务器,如Oracle9i空间数据服务器拥有强大的查询处理能力,在数据组织的性能方面也特别强,将数据上传到空间数据库引擎中,使应用程序的灵活性得到了增强;五是使用FeatureFactory 对象,使得创建、联节或删除点、线、区域图形对象非常方便。

三、系统设计流程

将GIS软件处理后的数据保存为tab 格式文件,对空间数据库进行设计,而后建立系统数据库;然后在Microsoft Visual Studio2005环境下用VC++6.0 语言在设计应用程序并调试。整个流程如图1所示。

图1 系统设计流程图

四、数据库设计与建立

(一) GIS数据管理

GIS 数据分为两大类:一类是与地理对象的空间位置分布有关的数据,称为空间数据;另一类是地理对象的非空间的属性信息,比如地理对象的颜色、长度、面积等,称为属性数据。对于海量的GIS数据,要实现对它们的高效组织与管理,是GIS日益广泛应用的迫切需求,也是GIS数据库长期研究的主题之一。空间数据管理技术随着GIS 和数据库技术的发展而不断发展。目前,数据管理的方法主要有5种,包括早期出现的后期逐步被取代的文件管理方式、广泛应用的文件与关系混合管理方式、比较成熟的全关系管理方式、面向对象关系管理方式、对象与关系数据库管理方式等。采用对象关系型数据库实现对GIS数据的管理,是在RDB和OODB之间权衡之后选择的一种折中方案,它是一种较为理想的实现空间数据库的方式。当前,一些国际著名的数据库公司如Oracle、SQL Server都推出了空间数据管理工具,本研究采用对象关系型数据库Oracle Spatial来管理方言资源空间数据。

(二) 空间数据编码

通过资源数据的分类编码,可以实现方言资源数据的规范化。要对数据进行有效管理,就必须对数据进行分类及其编码,它是实现信息化的一项重要而基础的工作。本研究的基础地理数据包含行政区划图、村镇分布图、水系图、地形图。根据研究区域特点,各空间要素图层代码由6位组成,从左往右,第1位至第2位用于表达地理基本主题,即用英文单词的首字母表示;第3位至第5位表达区域代码;最后1位用于表达基本点、线、面要素特征,即分别用点P、线L、面S表示。如AD001S,AD(英文名称第一个单词的缩写) 表示行政专题要素,001是黔东南区域代码;S表示是面状要素特征。空间数据编码如表1所示。

表1 空间数据编码

(三) 属性数据编码

系统中的属性数据编码包括村镇编码和方言属性数据编码。该系统的村镇编码由6位数组成,前4 位代码为分幅的图幅号,后两位是自然村序列号。根据地形图分幅与编号的方法,将研究区域按经差30分,纬差20分划分成8行6列共48幅图(研究区边界内共42幅图),图幅按从左至右,从上至下的顺序进行编码,第一幅(左上角) 编号为0101,最后一幅(左下角) 编号为0804。后2位代码按落入图幅的村镇顺序自西向东,自北向南依次进行编码,由于每个图幅自然村不超过99个,所以编码范围为01~99。如自然村编码为010301,表示为图幅号是0103幅,即第1行第3列,自然村的序号是1。

对于方言属性数据编码,由于目前尚没有方言资源数据字典的标准,本文参照已有标准的基础上,从信息管理的角度建立方言资源的编码方法与规则。根据情境的不同、研究区汉语方言的特点及所搜集的信息,将研究区的汉语方言资源信息使用线性分类法,分为3个级别,一级分类对应使用情境的类别,有5个类别;二级分类对应具体名称,有45个类别,三级分类是具体对应的方言说法,有300条。一级分类考虑到类别不超过100 类,所以采用两位的码长,范围是01~99;二级分类考虑到每类常用口语词汇不超过1000,因此二级分类每类编码码长为3位,范围是001~999;三级分类考虑到的词语对应的方言说法不超过100种,所以采用两位的码长,范围是01~99。具体编码如表3所示,方言资源的编码长共8位,第一位F,是方言拼音的首字母;第2至3位,是一级分类的编号;第4位至第6位,是二级分类的编号;第7 至8位,是三级分类的编号。如F0200103,F表示是方言的编码;02表示属于第2类——动植物;001——属于第2 类中的第1 类——蜻蜓;03——表明属于蜻蜓中的第3类,即蜻蜓方言里的第3 种方言说法。

表3 汉语方言资源分类表

属性数据库的表结构如表2、表4、表5所示,表2 与表5通过方言编号进行关联,表4与表5通过语句编号进行关联;当用户点击图上任一点时,即可联结到相应的方言信息。

表2 村镇数据表结构

表4 常用语句表结构

表5 方言表结构

(四) 利用Oracle Spatial实现空间数据与属性数据一体化管理

Oracle 公司是全球知名的数据库服务商,Oracle Spatial 是其开发的空间数据管理模块,该模块具备强大的数据存储和编辑等功能,同时提供优秀的空间索引机制,解决了传统空间数据库展现出来的种种问题。通过Oracle Spatial加载的每一个地图,是以表的形式来进行存储的,每一个表是一组文件,一类是ID或IND索引文件,即索引机制生成的相关文件;另一类是TAB数据文件、DAT 文件、MAP文件,即用来存储地图属性特征数据和关键空间信息描述。将tab格式文件的地图数据导入到服务器端的Oracle Spatial中,数据上传工具采用Mapinfo公司的数据转化工具Easyloader。

五、系统功能设计及系统实现

(一) 系统功能设计

系统应用GIS技术,把研究区的空间信息(区域)、人、方言资源(语言) 信息三者信息整合起来,为方言资源的保护和数字化工作提供服务和参考。根据需求,系统的功能总体框架图如图2所示。

图2 系统功能总体框架图

系统的7大主要功能简述如下:

第一,地图加载。系统可以实现任何区域资源地图tab格式及mws格式文件的加载。如行政区划图、水系图、地形图、点位图等;如选择地图加载选项卡,选择要导入的tab数据所在的位置,点击确定,就可以把所需要的数据加载到系统中,进行显示。

第二,地图基本功能。在系统中,地图的管理模式使用了分层结构进行组织,对可以自由实现对任一地图的缩放、漫游、全图等操作,也可以对图层进行显示或者隐藏。如对于点位图,可以在左边区域的图层框里点击左键,就可以打上勾或者取消勾,图层就能显示或者隐藏;也可以通过放大、缩小等按钮对地图进行查看,以便了解局部或全局的地图信息。

第三,信息查询功能。系统提供从属性到图形的查询和图形到属性的查询。如从属性查图形,若你想知道黔东南有哪些地方的人把“热水”说成“Lai水”,那你就选择方言中的“lai水”选项,可以准确又快速显示出说“Lai水”的区域位置;再如从图形查属性,点击图上任何1个点位,都可以查到该位置的人们常用语句的方言说法。

第四,经纬度显示功能。系统提供较准确的经纬度的显示功能,便于进行定位跟踪及与其他系统集成应用。如融合相关的语音资料、视频资料,实现服务和系统功能的无缝对接。

第五,三维显示。通过地形图创建的数字高程模型,及显示的方言分区图,实现方言区域差异的三维显示。从图上可以看到地形对方言的影响,河流北岸与南岸,山脉的东边与西边,人们的方言对同一种事物叫法都不一样,具有明显的差异。如在苗岭的北坡和南坡, 阳河的上游与下游,人们对西红柿的说法都存在明显的不同。

第六,报表输出功能及生成专题图功能。根据实际需要,系统可以输出相关的表格。如常见生活语句方言与普通话对照表、方言对应区域表等。也可以制作专题地图。如对于每一个词汇,可以制作方言分布图;也可以通过用户类别合并,生成黔东南方言分区图。

第七,系统数据维护功能。由于地域不同,汉语方言信息量表现出大又非常复杂的特点,因此在现有数据库的建成基础上,基础资料仍需要不断补充和丰富。因此本系统具有一定的开放性,系统管理员以及拥有权限的用户,可以对各类信息数据进行增加、修改、更新、删除等操作,从而实现方言信息的不断扩充和完善,并获取更多更完整的数据,更好地做好方言数字化工作,以便保护和传承好汉语方言资源和地方文化。

(二) 系统实现

系统采用Windows2007为操作系统平台,以Oracle Spatial 作为GIS数据服务器,通过Mapx+VC编写程序来实现方言资源的信息化和数字化管理。

六、结语

根据方言的特性及其在区域差异中的表现,本文利用MapX及相关技术将人、方言及区域整合信息起来,利用Oracle Spatial空间数据处理模块支持的Object-Relational Model模型,使用“一张表模式”,就能存储和管理汉语方言资源的空间数据和属性数据,极大方便了系统的数据操作。同时借助Microsoft Visual C++6.0语言和MapInfo公司开发的MapX控件产品进行二次开发实现方言资源管理,有效将人、方言及区域三方信息联结起来,建立汉语方言地理信息系统,从而为相关部分和人员提供空间数据和属性数据的浏览、查询、分析、制图等功能,为制定语言政策和语言规划提供相应的技术支持,对苗侗地区方言的数字化尤其是汉语方言的数字化工作和汉语方言文化的保护将产生积极的影响。由于小尺度下地方方言原始数据获取的工作量非常大,目前系统的村域方言数据有限,还有待进一步更新和完善;随着数据的丰富和增加,系统的功能仍需进一步对技术进行改善,使其更加有利于地方方言资源的保护、开发、利用及可持续发展的需要。

猜你喜欢

空间数据编码方言
住院病案首页ICD编码质量在DRG付费中的应用
GIS空间数据与地图制图融合技术
方言文化在初中生物学教学中的渗透
试析陕西方言中的[]与大同方言中的
融入空间数据的地图制图路径探究
有一个讲方言很重的老师是种什么体验?
高效视频编码帧内快速深度决策算法
偃师方言里的合音词
偃师方言里的合音词
不断修缮 建立完善的企业编码管理体系