APP下载

汉字识别技术在档案管理工作中的应用探讨

2015-10-21金娟

华人时刊·中旬刊 2015年7期
关键词:档案管理应用工作

金娟

【摘要】档案管理工作是一项重要的工作任务。虽然当前在我国档案管理工作中,大多应用了现代计算机技术,以现代化的手段进行管理,但仍然存在档案丢失等一些不足需要档案管理工作者引起关注。汉字识别技术的应用,可以提高档案管理工作的灵活性,使档案得到更方便与完善的保管。以下,本文就汉字识别技术在档案管理中的应用进行了简单介绍,并对其应用进行了具体的分析。

【关键词】汉字识别技术;档案管理;工作;应用

中图分类号:G25文献标识码A文章编号1006-0278(2015)07-157-01

汉字识别技术有很多的优势,除了可以为档案管理增加数据源之外,还可以为档案管理提供新型的档案录入方式,虽然汉字识别技術的录入方式还有很多改进的地方,但是经过一段时间的发展,会有突破,使其在录入方式方面,为档案管理提供帮助。相关人员应该加大对这种技术录入方式的开发,为档案管理的录入工作提供更多的途径,提高档案管理录入工作的效率。

一、汉字识别技术在档案管理工作中应用的必要性

档案管理工作已经进入到现代管理的阶段,大部门档案管理部门都已经实现了电子化管理,但是要想档案管理工作进展更加顺利,还需要应用更多的技术,汉字识别技术就是其中之一,该技术的应用十分必要,众所周知我国档案管理工作涉及到的文字主要是汉字,如果利用汉字识别技术,势必会提高档案管理的效率与质量,其应用的必要性主要体现在以下两方面:

(一)增加了数据源

汉字识别技术没有应用之前,纸质档案中一般情况下都是固定的信息,其检索难度非常大,但是利用这种技术之后,固定的信息就更容易检索,为文本管理增加了更多数据源,也就更有利于检索。有很多档案纪律了党和国家的重要情况,可以说这些档案最研究我国党和国家的发展有着非常重要的作用,但是这些档案一般情况下都是固定信息,如果没有建立相应的文本数据库,很多的纸质档案因为长期的保存可能会流失,这对研究历史有非常大的消极影响。为了降低这种情况,有些部门开始采取扫描的方式,将所有重要的方案都进入扫描进计算机中,这种方式虽然起到一定的效果,但是检索十分困难,降低了其利用率。因此使用汉字识别技术十分关键。虽然现代办公设备几乎都实现了自动化,但是从档案管理工作方面来说,还有很多档案依然没有文本,流失的现象依然存在,但是汉字识别技术的应用就可以避免这种现象,因为固定信息通过这种技术就可以变成活信息,这样检索起来比较方便。

(二)增添了档案数据录入方式

档案管理进入现代化以来,录入方式只有简单的一种,那就是键盘录入。虽然键盘录入方式越来越多,而且越来越简单,但是这种简易的方式,也会档案录入工作带来了困难,因为如果不会录入速度比较慢,或者是录入人员电脑操作不够灵活,都会影响录入效率,而且在录入的过程中,还要完全的掌握相关原则以及要领,否则就会出现差错。因为档案管理工作人员大部分年龄都比较大,对电脑操作本身就不熟悉,所以即使是最简单的键盘录入方式,对他们来说也有一定的难度。但是汉字识别技术就可以缓解这一问题,它可以利用拖拉的方式就可以将需要的档案的相关目录等信息直接拽到需要的数据库中,非常简单。但是因为这种的方式还有很多不成熟的地方,比如在拖拉时,需要扫描来配合,其耗费的时间也比较长,但是这种新方式,经过不断地发展其录入效果也有效的提高。

二、汉字识别技术在档案管理工作中的应用

汉字识别技术应用在档案管理工作中有一定的必要性,尽管在录入方式上,显现的效果还不明显的,但是只要在增加数据源方面,其作用十分明显,其具体的应用如下:

(一)方便阅读者与档案管理工作

利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。这种利用方式的优点主要有:方便用户,可减少信息利用过程中的重复劳动;不给档案人员增加建库的工作负担;节省建库所需的经费开支。其缺点主要有不能为全文检索提供数据,实现深层次开发档案信息资源的目的存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录

这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务

这种方式必须在已有文件目录的前提下使用。其优点主要有:具有提供原件和提高信息利用效率的双重优势;档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:同第一种利用方式的缺点。汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2.3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库

这种方式也应在已有文件目录的条件下使用。其优点主要有:节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:建立文本数据库的工作量较大;不能满足用户阅读档案原件的需求;由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

(五)其他应用程序

首先,输入目录、建立文本数据库,其次,保存图像、建立文本件数据,最后,输入目录、保存图像并建立文本数据库。

三、结束语

综上所述,可知汉字识别技术在档案管理工作中的应用非常重要,无论是在数据源方面,还是录入方式方面,都有积极的意义。也正是因为如此,国家以及相关部门都非常重视对其开发,以此希望能够为档案管理工作的发展提供更多的途径,但是有些档案管理人员对此并不重视,相关部门没有使用该技术的动力,所以一直沿用传统的方式,尤其是老工作者,对新兴事物比较排斥,所以应该提高工作人员使用这种技术的意识。

参考文献:

[1]王红梅.我省林业科技档案管理的历史跨越[J].甘肃科技,2005(1).

猜你喜欢

档案管理应用工作
关于企业档案管理体制改革的探讨
新形势下档案管理工作创新探析
新农村建设形势下卫生院档案管理工作探讨
档案管理现代化中档案管理原理的运用分析
不工作,爽飞了?
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析
气体分离提纯应用变压吸附技术的分析
会计与统计的比较研究
选工作