APP下载

非结构数据平台在教学实践中应用*
——以传奇数字资源云服务平台为例

2018-07-06

现代教育技术 2018年6期
关键词:结构化文档检索

钟 庆

(广州大学 实验中心,广东广州 510006)

引言

承载信息描述的数据大体可分为结构化数据和非结构化数据两类[1]。其中,结构化数据是经过严格标引后的数据,即按规定数据组织格式与语法来组织,一般以二维表形式存在,包括元数据记录、数据库表中的描述数据等[2];非结构数据则指长短不定、组织格式各异的多样化数据,包括邮件、视频、Word文档等。

据估算,当前超过 80%的数据为非结构数据[3]。如何合理有效地管理、利用非结构数据,已成为数据处理中较为重要的问题。特别是由于多媒体数据量巨大,除了会占据数据库大部分容量,还会使维护和应用的效率大幅度下滑,这成为了制约中小型数据库系统发展的难题。在这样的背景下,建设非结构数据平台显得尤为重要。

一 非结构数据的现状和问题

1 非结构数据的现状

由于非结构数据体量巨大、结构多样等特点,如何进行集成整理,从而有效地呈现在终端用户面前,成了研究的热点。更加智能化的IT管理技术,包括海量存储、知识挖掘、智能检索、信息增值开发等,被广泛运用于非结构数据的集成、存储、发布等方面[4]。当前,较热的技术研究方向主要有:

①数据集采,即对非结构数据进行关键词(包括标题、关键词、作者等核心信息)提取处理。当前,已建有许多开源数据库来解决数据集采问题。如POI利用HSSF、XSSF以及HWPF等结构,完成对包括Microsoft Excel、Word、PPT等主流格式文档的信息读取和改写的功能[5];PDFBox利用JAVA,达成PDF文档的处理、提取、集成功能[6]。

②中文分词技术。我国非结构数据的绝大内容是以中文进行撰写、编辑或命名的,现在主流的算法分为:利用字符串匹配进行分词方法、基于统计理论的分词方法和运用形象理解的分词方法[7]。当前,中国较为成熟的中文分词技术为ICTCLAS、IKAnalyzer以及Paoding等。

③全文检索技术。该技术不同于早期外部特征的简单检索,全文检索技术基于全文,不仅能将文档全部纳入检索范围,还能提供检索词所在的位置,提高了检索效率和准确度。当前,较为成熟的全文检索技术有Lucene、Solr等。

2 高校教育现实需要

2000年,教育部组织专门研究小组起草制定了《教育资源建设技术规范》,依据教育资源建设实际确定了教育资源的内容,包括媒体素材、题库、试卷素材、课件与网络课件、案例、文献资料、常见问题解答、资源目录索引、网络课程等九类[8]。教学中常见的数据为电子实验报告、演示文稿、音视频文件等,这类数据均无法用数字或统一的结构表示,均为非结构数据。不同于一般非结构数据,高校数据还兼有内容复杂、分类较细等特点,而高校数据使用的现实要求又需要数据库的系统化、及时化。因此,利用非结构开发技术,建立一个高弹性、高可扩展性、高可靠性的非结构化数据中心,用以提高教学和办公效率,显得尤为必要。

二 非结构数据平台整体构架

1 整体构架设计

基于广州大学的数据特点,非结构化数据平台整体构架包含非结构化数据中心(支撑PAAS平台)和非结构化数据应用平台(业务服务SAAS平台)两大部分,具体框架设计如图1所示。

图1 非结构化数据平台整体架构图

非结构化数据平台定位于对视频、音频、文档、图片等非结构化数据进行统一存储、统一计算、统一服务,作为支撑平台为传奇数字资源应用平台和其它智慧校园资源信息化系统提供数据和服务;数据主要包括原始数据、转换数据、基本属性、描述属性、行为属性等;服务主要包括电子身份认证、上传、分发、转码、流媒体、检索、备份、数据清洗、监控、调度等。非结构化数据应用平台定位于学校数字资源的官方应用、圈子应用、个人应用和移动应用,提供官方资源,课程的收集、管理、发布、运维,圈子资源的管理、共建、共享以及个人资源的管理、分享、交互。应用平台主要包括:数字资源门户系统(多终端门户群)、IPTV系统、资源在线编辑系统、素材资源制作系统、资源中心管理系统、资源维护系统、个人资源交互系统、校际资源交换接入系统、开放式在线学习系统、用户管理系统等。

2 非结构化数据平台构架设计

建立学校非结构化数据平台,可以实现对视频、音频、文档、图片等非结构化数据资源的集中存储,同时具备统一的数据标准来完善对非结构化数据的管理,满足集中管理的需求,提高管理效率。学校的非结构化数据平台构架建设主要包含三个层面:物理存储层、业务逻辑层和接入层,分别负责数据存储、数据管理、数据集采导出,平台的架构设计如图2所示。

图2 非结构化数据平台架构图

①物理存储层:通过存储的构架阵列,形成合理有效的存储阵列和备份,主要解决学校异构存储设备的整合,构建存储中心主要存储DNS和NAS,形成有效的物理存储平台。

②业务逻辑层:是非结构化数据平台的核心部分,主要负责处理接入层的应用请求。业务逻辑层主要涵盖电子身份认证、流媒体、检索、转码、监控、上传、数据清洗、分发、备份及调度等业务。业务逻辑层可以根据实际使用需求更改设置,拓展系统业务。

③接入层:是非结构化数据中心的表现层,主要提供标准的API接口,协助应用认证、上传、多终端播放、下载、检索、转码、统计分析及监控。

通过三层系统构架,本研究从物理和管理两层面完成了非结构化数据平台的框架设计,构建了集约化非结构数据框架。立足于教学实践,从硬件和软件两方面来建立非结构数据平台,可形成从数据采集到存储、管理再到共享的一体化服务系统。

三 非结构数据平台的应用情况

1 平台应用简介

非结构数据平台部署在校园网内,由此完成校内数据交流和管理互通。普通师生用户创建账户后,通过校内IP即可登陆,方便快捷。

平台主界面涵盖热点、站点、公告、推荐等多个模块,信息分类明晰。针对使用点击较多的实践课程、公开课资料,系统采用热点推荐的方式进行数据推广共享。平台配备关键词检索功能,通过搜索栏关键词检索,即可搜出关联视频。

系统内置视频播放、文档编辑可执行程序,师生登陆平台即可在线观看视频、编辑文档,最大程度地实现非结构数据的实时调用。特别是在线视频播放功能,在微格教学评估、学生学习反思等实践学习方面具有很强的实用价值。

图3 在线视频播放截图

当前系统大致实现了非结构数据分类管理、关键词检索和视频文档在线观看编辑等师生所亟需的功能,通过校园 IP,师生利用职工号、学号申请账号即可登陆,且账号一一对应,管理较为便利;依托校内高速网络框架,在节约流量的同时,也保证了数据交互的快速准确。

2 平台应用流程

广州大学针对非结构数据平台的管理包括来源、管理、使用三个方面,核心思想为将“来”、“管”、“用”三者融会贯通,把握用户审核机制,通过管理流程设计,确定相关用户权限,保证数据标准易用。通过图 4的应用流程设计,本研究将非结构数据的来源、管理和使用有机串联起来,能有效管控数据、管理用户。

①数据来源:非结构化数据平台涵盖微格教学等实践教学视频、教师的教学材料、学生的学习素材、外购、网络下载及本地资源、第三方系统资源等资料,支持的数据类型如表1所示。当前,系统数据总量呈稳步上升趋势,现还拓展了正版软件库、图片RAW格式等数据兼容性。

②系统管理:系统管理是系统的中坚环节,负责数据的安全有序存储、系统的稳定运行,具有不可或缺的作用。整个系统采用系统自动管理分流与管理员人工监察相结合的机制。非结构数据平台设立专职管理员,制定专职负责制,保障平台的平稳运行。系统通过后台设置,提供不同类别用户权限设置功能,可实现不同栏目、不同数据的指定使用。系统还新添了工作流管理功能,即设定一个工作流为“上传—编辑—初审—终审—发布”,便可以对相关栏目进行整体操作,使得资源管理员的职责划分更为明确清晰,提高了管理效率。

图4 非结构化数据应用平台应用流程示意图

表1 支持数据表

③数据使用:非结构数据平台从使用者角度出发,将师生使用的便捷性和多样性作为努力重心。非结构数据平台数据接口采用标准API接口,除了完成基础的校级交互,还支持各应用系统接入数据中心。目前,已经实现了语言实验系统、微格实验系统、非编实验系统、课件录播系统与非结构数据平台的无缝连接。

通过“来”、“管”、“用”三者协调发展,在保证非结构数据平台的平稳运行、数据安全的同时,也能让系统使用者最大限度地使用数据、处理数据,达到教学、管理的双重作用。

四 非结构数据平台的应用效果与展望

1 应用效果

经过两年的发展,非结构化数据平台现可提供资源的上传、检索、浏览、评论及下载等、无插件播放、B/S架构素材资源制作等诸多功能,也开发了包括Windows、Linux系统下的终端软件以及IOS、Android移动系统下的终端应用。

截至2017年底,广州大学师生在非结构化数据平台的注册人数已达到近3万人,约占全校师生总人数的近90%,系统的月累计活跃人次日创新高。2017年全年月累计活跃人次直方图如图5所示,可以看出:非结构化数据平台的使用量逐步提高,用户认知度不断增强。

图5 2017年全年月累计活跃人次直方图

非结构化数据平台的数据量增幅巨大,一年内平台的非结构数据量由原先的 10T增长至20T。数据量的不断增多,体现了非结构化数据平台处于不断充实、完善的状态,逐渐形成了系统化的非结构数据体系。2017年全年,平台上的教学实践视频达10T,时长超过30000个小时,用户点击量累计超万次,有效推动了实践教学的发展。

系统的管理与应用有固定的使用途径和应用人群,便利了师生的日常生活,辅助了教学实践的开展,符合非结构化数据平台构建的预期目标。

2 应用展望

针对当前非结构化数据平台存在的数据量日益增加、检索压力日渐增大等现状,学校可以借助人工智能相关手段(如语音识别、场景识别、人脸识别、图片OCR、文档识别等),对视频、音频、图片、文档进行深层智能感知,使师生用户通过应用端便捷地检索到非结构化数据的内容,故提高了用户检索的精准度和使用效率。与此同时,学校也可以借助大数据相关技术,有针对性地进行数据分析、数据挖掘,为师生用户提供个性化应用服务;甚至还可以与学校已有的结构化数据平台进行融合,为其它业务系统提供数据服务,助力学校信息化的提升。

四 结语

广州大学立足于实践教学实际,新建了校级非结构化数据平台,通过“来”、“管”、“用”一体化管理流程,对音视频、音频、图片、文档等非结构化数据进行了集中管理,辅助了高校实践教学,可以减轻教师、学生和行政管理人员的负担,有利于提高学校的教学和管理效率。

[1]马惠芳.非结构化数据采集和检索技术的研究和应用[D].上海:东华大学,2013:1-52.

[2]韦琳,袁泉,霍剑青,等.E-learning非结构化数据管理系统的构建与实现[J].中国科学技术大学学报,2010,(6):623-628.

[3]胡珊珊.面向云存储的非结构化数据存储研究与应用[D].广州.广东工业大学,2014:1-56.

[4]邓远超,戴跃洪,罗中先,等.基于.Net技术的销售管理系统的研究与开发[J].矿山机械,2006,(9):108-110.

[5]Steinbeck C, Han Y, Kuhn S, et al. The Chemistry Development Kit (CDK): An open-source Java library for chemo and bioinformatics[J]. Journal of Chemical Information and Computer Sciences, 2003,(2):493-500.

[6]龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,(3):52-55.

[7]余胜泉,朱凌云.教育资源建设技术规范简介[J].中小学信息技术教育,2002,(7):80-84.

猜你喜欢

结构化文档检索
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于RI码计算的Word复制文档鉴别
专利检索中“语义”的表现
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
国际标准检索