APP下载

浅议电子文档管理系统的关键技术

2012-08-15姚树静

山东开放大学学报 2012年2期
关键词:手写体字符字体

姚树静

(山东广播电视大学,山东 济南 250014)

浅议电子文档管理系统的关键技术

姚树静

(山东广播电视大学,山东 济南 250014)

伴随着计算机技术和互联网应用的普及,档案已不再仅仅以单一的纸质形式存在,以磁、电、光等介质为主要信息载体的文件应运而生,产生了大量的电子档案。本文结合电子文档管理系统的设计和开发,对文档影像自动处理和识别技术、系统开发的工具中的c++开发语言、SQL Server 2005、Visual C++开发工具等主要关键技术进行了详细介绍。

电子文档;管理系统;关键技术;开发工具

随着政府、银行、税务、证券、保险等部门的业务不断发展,每天都要处理大量的文件、档案、单据、报表等资料,以纸张为载体的资料越来越多,传统的手工管理方式暴露出越来越多的问题,日益跟不上信息时代的要求。电子文档管理系统是利用先进的计算机技术开发的计算机系统,它将企业的电子文件和/或纸质文件的图像整合起来,满足用户在文档获取方式、文档操作处理、文档存储和查询等环节的不同需求,以实现资源的共享和对文档的监控。电子文档管理是企业或组织保存和利用文档信息这类重要资产的手段,投资于该系统会在组织的有序运作中得到成倍的回报。随着计算机技术及网络技术的广泛应用,国际和国内越来越多的企业和组织开始建立专业的电子文档管理系统对单位内部各种电子文档进行统一管理,提高工作效率,简化工作流程,所以该系统有广泛的应用范围和前景。

本文结合电子文档管理系统的设计和开发,深入研讨文档影像自动处理和识别技术、系统开发的工具中的c+ +开发语言、SQL Server 2005、Visual C++开发工具等主要关键技术。

1.关键技术概述

电子文档管理系统将信息时代的各种先进技术应用于文档管理中,使文档的管理实现电子化、数字化、自动化,从而最大限度地提高了文档处理和访问的工作效率。电子文档管理系统的核心技术是电子存储技术、数据库应用开发和管理技术、网络编程与服务器管理技术、电子影像采集技术,图像自动处理与识别技术,以及文档的检索和访问控制技术等。

在这些关键技术之中,数据库技术、网络技术、影像采集技术、海量存储技术以及文档检索和访问控制等技术属于比较成熟的技术,市场上有多家企业可以提供相关产品并且有比较清晰的行业标准。图像自动处理与识别技术则还处于发展和探索阶段,得到一致认可的行业标准还没有建立起来,相关产品在不同的应用环境之下表现出来的性能差别很大,能够在各种环境中都表现稳定良好的技术还没有出现。因此图像自动处理与识别技术对整个系统性能的影响更大,很可能成为整个系统实际性能的瓶颈,对这一技术的研究改进也就有着更重要的意义。

电子文档管理系统使用的硬件设备一般包括:文档管理服务器,文档采集工作站、文档处理工作站、访问终端、网络与通讯线路以及其他各类专用设备。在电子文档管理系统中,服务器,终端及各种办公设备通过通讯网络连接起来,网络根据覆盖的范围不同,分成局域网和广域网两种类型。各类专用设备一般包括:打印设备、交换设备、图像采集设备等。

开发电子文档管理系统使用的第三方服务支持软件可以分为服务器软件、数据库软件、开发平台软件等。文档管理系统的架构基于网络服务形式,服务器管理软件用于在系统中设置服务器并进行管理。在文档管理系统中,数据库用于存放文档的存放位置、索引信息以及访问权限等信息,数据库软件用于提供数据库的访问服务并对数据库进行管理。而开发平台软件则用于建立系统可视化开发环境,提供各种开发和测试工具,用于应用软件的集成开发。

2.文档影像自动处理与识别技术

文档自动处理与识别所涉及的对象范围很广,其中最核心的技术是光学字符识别(OCR)技术,对OCR系统一般按其识别的对象字符集以及字体和书写的规范程度进行分类。

字符集识别种类一般包含阿拉伯数字识别、英文识别、中文识别、其它文种识别等等。[1]按字符集的字体及规范程度可分为:(1)固定单一字体的打印体或印刷体识别,如OCR-A,OCR-B,其它标准印制字体等等。(2)多字体的打印体或印刷体识别,可识别多种打印或印刷字体的某个字符集。(3)全字体的打印体或印刷体识别,识别任意字体的指定字符集。(4)规范书写的手写体字符识别,识别字符间基本不粘连的规范手写体字符。(5)无限制手写体识别,识别任意书写的手写体字符。字符集的规范程度越低,字体或字集类别越多,识别的过程就越复杂,难度就越大。[2]

OCR系统的历史可以追溯到1929年,Tausheck在德国获得了OCR专利,这些可能是最早出现的OCR概念。而真正的OCR是在20世纪50年代随着计算机的出现而到来的。

第一代商用OCR系统是在20世纪60年代初期出现的,这一代系统的主要特点是能识别有限字型的字符。其中具有代表性的有NCR 420,Farrington 3010,IBM 1418,1428,1285以及NEC的N240D-1,这些系统都是识别一些非常特定字体的系统,它们构成了第一代的OCR系统。

第二代的OCR系统在20世纪60年代中期至70年代早期出现,这一代的OCR系统可以识别比较工整的手写字体。经典的系统是IBM 1287,它利用了数字和模拟技术实现了这一功能。第一代邮政编码自动分检机由Toshiba公司和NEC公司分别研制出来。手写体数字识别系统在这一代系统中有很大的比例,同时第二代的OCR系统在识别印刷体字符上也有了许多的改进。

第三代OCR系统的目标是让计算机能处理一般的更复杂的情况,比如印刷质量比较差的字符或更为一般的手写体字符,以及具有更多种类的字符集,如汉字,日文等。目前可以认为第三代系统只是部分实现。近年来出现的手写体数字识别系统多属于第三代系统。其中银行票据自动处理系统是复杂背景打印印刷体识别以及手写体数字识别系统应用的热点,其中无限制手写体阿拉伯数字小写金额的识别也是数字识别中最难的。[3]

在手写体阿拉伯数字串,如邮政编码、银行支票的小写金额中,经常出现数字字符粘连的情况。对美国邮政编码(USPS zip code)的研究表明,有15%的邮政编码含有粘连的数字字符。欧美国家的银行支票的小写金额是任意书写的,字符粘连情况更加普遍,而多数字符识别器要求以单个的数字字符图像作为输入,难以直接识别多个字符连成的字符串。因此,字符分割对于连续字符识别十分重要,很多种分割与识别方法被研制出来以图解决这一问题。在手写数字分割时,由于字符串中不仅包含数字交迭与粘连的情况,同时也有一个数字分成几个部分的情况。为解决这些问题,研究者们提出了许多方法。这些方法大致可分为两类,即离散的方法和连续的方法。

在文档识别系统中完成了字符的定位和分割后,接下来就是进行字符的识别,人们提出了许多方法试图找到手写体字符之间有区别性的特征。这些方法大致可分为两类:全局分析和结构分析。全局分析得到的特征一般都使用统计分类方法分类,因此在字符识别中这类方法一般也称为统计方法。基于结构分析得到的特征经常使用句法的方法分类,这类方法一般称为结构方法。神经网络识别字符的方法也受到了人们的重视,神经网络的输入可以采用图像的某类或某几类统计特征,也可以直接使用归一化后的字符图像,省去了人工的特征抽取工作,从广义上讲,神经网络识别方法也是统计分类方法的一种。

由于各类方法都有自身的优点和局限,为达到高识别率、高可靠性的目标,人们提出了多专家(multiple experts)系统的概念。多专家系统将每个识别器视为一个提出识别意见的专家,将它们的意见按投票方式或更复杂的方式组合起来,以获得最可能的正确结果。多专家系统的组合方式也成为字符识别领域的一个新的研究方向。

3.系统选定的开发工具

由于文档的存储管理系统一般不属于实时业务,对业务操作的实时性和可靠性要求低于柜台业务等实时性要求较高的业务,因此操作系统可以选择可靠性略低但方便易用而且具有较高市场占有率的微软公司的Windows系统。与操作系统的选择类似,数据库系统也选择同样出自微软公司的SQL Server数据库管理系统。由于系统中有计算量很大并且非常耗时的自动识别处理模块,因此相应的编程语言选择灵活并且非常高效的C++高级语言,而开发平台则选择使用良好地集成了C++开发语言并且能很好地支持SQL Server的Visual Studio集成开发平台。以下再分别简要介绍一下这几项开发中使用的基本工具。

3.1 C++开发语言

C++语言是一种优秀的面向对象程序设计语言,它在C语言的基础上发展而来,但它比C语言更容易为人们学习和掌握。C++以其独特的语言机制在计算机科学的各个领域中得到了广泛的应用。面向对象的设计思想是在原来结构化程序设计方法基础上的一个质的飞跃,C+ +完美地体现了面向对象的各种特性。C++是一种静态数据类型检查的,支持多范型的通用程序设计语言。C+ +支持过程化程序设计、数据抽象化、面向对象程序设计、泛型程序设计、基于原则设计等多种程序设计风格。C+ +还具有以下特性:

(1)C++设计成使用静态类型机制、和C同样高效且可移植的多用途程序设计语言。

(2)C++设计成直接的和广泛的支持多种程序设计风格(过程化程序设计、数据抽象化、面向对象程序设计、泛型程序设计)。

(3)C++设计成给程序设计者更多的选择。

(4)C++设计成尽可能与C兼容,借此提供一个从C到C++的平滑过渡。

(5)C++避免平台限定或没有普遍用途的特性。

(6)C++不使用会带来额外开销的特性。

(7)C++设计成无需复杂的程序设计环境。

3.2 SQL Server 2005

SQL Server 2005是Microsoft公司2005年推出的杰出的数据库管理系统,它可用于大型联机事务处理、数据仓库、以及电子商务等,具有如下几个特点:

(1)真正的客户机/服务器体系结构。

(2)图形化用户界面。

(3)丰富的编程接口工具。

(4)SQL Server与Windows NT完全集成。

(5)具有很好的伸缩性。

(6)对Web技术的支持。

(7)SQL Server提供数据仓库功能。

4.结束语

电子文档管理系统的设计考虑到文档管理工作多为非计算机专业人员的实际情况,在设计过程中应该注重系统的可操作性设计。本文主要对文档影像自动处理与识别技术中的文档影像自动处理与识别技术以及系统开发工具进行了分析,这些技术在文档管理系统开发中具有普遍适用性,对其起着至关重要的作用。

[1]石甲玉.模式识别在银行票据自动化处理中的集成应用[D].济南:山东大学,2005.

[2]张丽.基于多分类器动态组合的手写体数字识别[D].南京:南京理工大学,2003.

[3]陈强.非限定手写体汉字分割与多类别票据处理研究[D].南京:南京理工大学,2006.

G275.7

A

1008—3340(2012)02—0071—03

2012-04-09

姚树静,女,硕士学位,工作单位:山东广播电视大学。

猜你喜欢

手写体字符字体
字体的产生
基于大数据下的手写体识别的设计与研发
披着书法外衣的手写体
字符代表几
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
对维吾尔语手写体在线计算机识别技术的几点探讨
模糊聚类算法下的手写体数字识别
组合字体