APP下载

数字人文观念在图书馆数据中的应用*

2019-12-16张成丽

山西档案 2019年2期
关键词:数据处理人文数据库

张成丽

(南阳文化艺术学校 河南南阳 473000)

在数字人文观念下,对人文学科进行研究时,更加强调对数据资源的管理,在整个研究过程中都可以利用数据将研究结果进行呈现。而在现代化的图书馆系统建设过程中,对图书馆数据进行管理,也需要积极贯彻落实数字人文观念,在图书馆服务中,数据服务已经成为关键的服务项目,因而从提高数字图书馆服务水平的角度来看,图书馆建设人员也要积极的对数字人文观念进行应用,通过加强应用实践,促进数字人文观念与数字图书馆建设的深度融合。

一、数字人文观念下图书馆数据的获取与初步整理

(一)数据获取。在获取图书馆数据时,数据处理人员要把握数据获取的几个层面。最简单的数据获取方法为在成熟的数据库中对数据进行导出,此时主要应用的是原始文献。而要想获取网络深层结构中的数据则要善于应用各种社交媒体平台。网络深层结构中的数据由于常常出现拒绝链接或未被链接的情况,因而会隐藏较多的数据。在对该类数据进行获取时,需要数据处理人员借助专业的技术和操作页面,确保获取有价值的数据信息。在社交媒体平台中,每天都会产生大规模的数据,数据类型不一,包括用户个人信息以及用户使用社交媒体平台产生的信息等,信息处理人员应关注非结构或半结构页面,并采取科学的手段从中获取有用的数据信息;在获取数据信息之后,要对其进行转化,要确保格式统一,最终转化成结构化资源并输出。

(二)数据初步整理

1.数据标注。在对获取的数据进行标注时,会使用到语义数据自动标注法,该方法会在计算机技术的支持下处理数据对象,具体处理的为数据对象的语义概念和语义关系,且整个处理过程的自动化程度较高。当前我国在人工智能领域已经有了对Web资源自动语义标注的研究,但是现阶段的自动语义标注还只是停留在对学习统计结构以及专家经验进行学习的基础上,因而其精确度难以得到保障。在具体应用过程中,需要结合实际情况进行适当的调整。而在对数据进行标注时,还可以采用本体标注法。在本体标注法下,数据标注人员要对现有的本体语义资源的文本结构进行预处理,要进行本体识别、查询、抽取,并进一步对本体语义信息进行扩充,最终输出RDF/OWL文档。

2.数据比较。在对人文学科进行数字化研究时,数据处理人员需要对数据进行全面的分析。而在传统的研究动中,人们在分析数据时,对已掌握的文献资料的依赖程度较大,整体的数据规模较小,且在技术限制下,对数据进行分析时,常使用随机采样的方式进行数据分析。而在数字人文支持下,数据分析人员面对的数据规模较大,且面对的数据类型和结构较为复杂,但是基于信息技术的支持,数据分析人员也可以借助相应的平台和技术对数据进行全面的分析。而在数字人文观念下进行的数据分析,需要借助数字人文研究平台,而在该平台下,可以对数据进行比较。检索者可以在平台中对不同数据库以及媒体平台提供的不同内容和格式的信息进行比较,并形成可视化的比较结果。当前出现的超星系统已经可以满足数据比较的需求,但是该系统还是需要进一步完善,以满足数据处理的其他需求。

3.数据取样。在数据处理过程中,需要对数据库中的系统信息进行取样,以判断系统功能以及数据是否符合数据应用。在数据取样时,要遵循随机取样原则,取样完成后要对数据进行分析,如数据标注是否达成一致以及数据库中是否有全面的关键词、主题词以及分类词等。再进一步,则要对研究深网数据的标注是否符合要求等进行分析。对于系统功能,也可以从数据取样中进行分析,可以对系统功能中的检索结果可视化功能进行分析,此外,还要判断系统是否能够将半结构化以及非结构化数据转化为结构化编码等。

4.数据阐释。对数据进行初步处理时,最后一个环节是数据阐述,即对数据进行自动摘要和语义数据的自动标注,而各异构数据库中标注的关键词和分类词等也属于数据阐述。在对数据进行阐述处理时,需要数据处理人员借助相应的工具,常用的成熟词表为《中国分类主题词表》等。而在进行数据阐述时,还需要关注网络上的常用词汇,并使数据阐述与网络词汇的近义或同义建立映射关系。在进行数据阐述时,常用的分类法为关键词(检索词)——主题词(检索词)——学科属性。而在数据阐述的汇总环节,处理人员要建立数字人文系统的《智能标引词表》,在上述措施下,数据处理人员就借助软件实现对数据的自动化标引。

二、数字人文观念下的图书馆数据整合

在对图书馆数据进行处理时,数据整合为其核心环节。在具体的图书馆数据整合过程中,基于数字人文的研究角度,可以采用的数据整合模式主要有三种,即馆藏数据整合、科研数据收集和网络开放数据集采集挖掘。其中馆藏数据整合是较为常用的数据整合模式。在馆藏数据整合时,需要对异构数字资源进行融合、聚类和重组,基于此,可以将资源从数据层的揭示与展现转向更深层次的服务,即到达信息层和知识层;而在当前信息技术不断更新的社会背景下,新型科研设备和研究方法不断出现,用户在获取资源时,可以将资源进行可视化的呈现,即使用时间轴、地域轴等形成可视化的知识图谱。科研数据收集强调的是对数据洪流的高效处理。在该模式下,数据整合人员能够利用数据整合软件进行数据整合,从而帮助进行更高效率的科研项目与科研创新;当前的网络环境具有较高的开放程度,在获取数据时,开放数据集已经成为数据来源的重要渠道之一,且国家也形成了数据的公开化制度,提供了具有更高质量的官方数据,基于此,可以进行高质量的数据整合。而在数字图书馆的数据整合过程中,数据整合人员可以借助以下四种途径进行高效的数据整合:第一种为数据源整合。要对获取的数据源进行格式处理,以形成统一化的数据资料。经过处理后的数据要存储在数据库中,并积极构建一站式的数据检索查询入口。这样一来,用户可以脱离原有的各类异构数据库平台的束缚,拓宽数据获取空间;第二种为门户整合。对于获取的异构数据门户而言,要将其转化为统一的数据门户,通过对异构数据的有机整合,可以为用户提供统一的门户检索渠道,使其在该检索渠道中获得自己所需的数据;第三种是数据库整合。即对获取的各类异构数据库进行整合,形成新的数据集合。在对数据进行整合处理时,要避免出现数据信息的重复现象;第四种是系统整合。在该整合模式下,数据处理人员不仅要对数据资源和应用系统进行集成,还应该统一数据资源的结构与呈现方式,积极构建数据资源管理平台,实现一站式管理。在进行数据的系统整合时,也要关注与其他系统的集成,如资源调度、馆际互借等,确保能够提高数据整合后的数据共享度。

三、数字人文观念下的图书馆应用技术及服务平台构建

(一)深网数据提取技术。在对网络深层次结构中的数据进行提取时,数据处理人员需要使用深网数据提取技术,具体包括两种形式。一是基于半监督顺序回归模型的爬虫算法。该算法首先要对深网页面分类器进行构造,使用的为半监督顺序回归法,要对主题网页进行精准的层次定位。接着要在多线程法支持下,利用深网链接信息抽取器对有效的链接进行抽取。最后数据处理人员要在深网页面分类器分类结果的支持下对有效链接进行自动实时的提取;二是面向实体层Web的信息索引技术。在数据处理过程中,爬虫工具会对Web数据库中存储的本地数据进行抽取和索引。在具体的信息索引过程中,处理人员需要首先生成简单的页面索引,在抽取属性信息时,要以反馈条件随机域模型为基准。在搜索时,要对所有能够满足条件的页面进行索引,常用的索引法为快速排序和深度搜索方法。接着要在用户交互定义下,对所有待抽取页面快速分隔,在进行迭代抽取时,也要以实体模型为依据,对所有的数据结果进行集合,最终形成可信的信息实体。

(二)社交网络数据提取技术。社交网络平台在日常管理过程中对异常状况会进行跟踪监测,一般会采用封号或屏蔽IP的方式,因而在利用爬虫工具时,也会受到限制。此时,数据处理人员就要在对社交平台进行数据提取的过程中,对浏览器测试组件进行充分应用。在浏览器测试组件支持下,用户在启动浏览器时,会在JavaScript库中注入信息。基于此,可以实现与客户端的代码通讯,并对客户端的信息进行精准翻译,数据处理人员可以对JavaScript库函数获取页面DOM树进行调用。此时,数据处理人员可以对页面数据和元素进行更为直观的了解,从而能够进一步获取与分析数据。在分析数据的过程中则可以对数据进行自动化标注。

(三)整合工具及服务平台构建。第一,整合工具。在数据整合过程中,数据处理人员可以使用相应的工具构建数据库,如oracle关系型数据库。而在具体数据整合时,数据处理人员可以借助XML技术(工具)处理各种异构数据,并使其转换成标准格式,在数据转换过程中,各个系统都需要进行多次数据转换,以此来实现系统间的数据交流。第二,服务平台构建。在对图书馆数据服务平台进行构建时,相关人员要确保平台功能的完整。要构建完善的门户系统,以便于用户进行数据检索、数据分析、学术交流、教学支持以及个性化推送等。在上述前提下,用户之间还能够实现高频率的交互。在构建服务平台时,要从用户层、服务层、数据层以及资源层四个层面进行。不同的服务层对应着不同的数据种类以及服务种类,平台构建人员要基于用户需求,结合信息技术,提升服务平台的服务水准。

四、结语

数字图书馆已经成为当前图书馆建设的主要形式,在数字人文观念下,数字图书馆遇到了关键的发展机遇。针对数字图书馆的发展要求,建设人员需要关注图书馆的数据处理,而通过应用与数字人文相关的技术,则可以实现对图书馆数据的高效处理,包括数据获取、初步处理和整合处理等。作为图书馆数据的处理人员,要积极更新数据处理理念,创新基于数字人文观念的图书馆数据处理技术,不断提高图书馆数据的处理效率。

猜你喜欢

数据处理人文数据库
美在山水,魂在人文
最朴素的人文
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
数据库
人文社科
数据库