APP下载

库藏档案数字化质量检测初探

2016-03-16沈继红

环球市场 2016年18期
关键词:国网页面纸质

1.徐 媚 2.沈继红

1.国网新疆电力公司昌吉供电公司 2.国网新疆电力公司新湖供电公司

库藏档案数字化质量检测初探

1.徐 媚 2.沈继红

1.国网新疆电力公司昌吉供电公司 2.国网新疆电力公司新湖供电公司

针对国网昌吉供电公司库藏档案数字化过程中存在的数字化档案扫描件检测数量大、扫描件达标率不高、工作效率低等问题,通过研发检测工具,实际应用,统一了数字化档案扫描件的检测标准,降低了档案工作人员检测强度。

档案;数字化;质量检测

前言:

随着纸质档案数字化工作至上而下逐步的展开与完善,纸质档案如何通过现代计算机技术快速得到利用,是整个档案行业所面临的重大课题。国网公司自2010年开始在全系统实施档案数字化,同步开展存量档案数字化、增量档案电子化工作。据统计,截止到2014年年底,仅国网昌吉供电公司开展存量档案数字化量就达383万页,2014年当年增量数字化档案达205万页。如此大量的数字化档案是否符合《国家电网公司纸质档案数字化技术规范》是当前档案工作人员面临的一个难题。

一、数字化档案现状

在人员、时间各方面条件有限的情况下,面对大量的数字化档案,档案工作人员在抽检过程中发现很多数字化档案的质量不过关,如:数字化档案扫描件中存在大量黑点、扫描件倾斜角度过大、分辨率过高或过低、用真彩色或灰度的黑白扫描件代替黑白二值等现象。数字化的各项指标只能凭借档案工作人员肉眼识别,导致评判标准不统一,检查方和移交方矛盾激化。

原因一是没有统一的扫描软件来满足标准的需要;二是检测的档案人员没有合适的检测工具。寻找一种有效的方法(技术手段)快速检测并挑出不符合标准的档案扫描件,是当前档案数字化工作中的一大难题。

二、数字化档案检测方法

(一)数字化档案扫描件主要存储形式

1.以原始扫描图像格式存储。国家档案局颁布的标准,以单页的TIFF格式文件和JPG格式文件进行存储和应用。

2.以多页TIFF文件格式存储。是将原始扫描数据进行二次加工,通过TIFF文件格式以多页链表的特点,将原始扫描图像数据文件,添加转换成TIFF文件的页面中。

3.以多页PDF文件格式存储。包括单图像层和双层两种。将原始扫描图像“脚本化”包装处理后,合成到一个文件的页面中。

目前国网公司文字材料类档案统一采用的是多页PDF文件图像页面的检查,在数字化档案扫描件的检测时,需要在加载文件的同时获取每一页的图像信息。

(二)数字化档案扫描件检测原理

针对上述的电子档案扫描图像的检测指标,利用计算机软件程序批量的来完成检测任务,是一种切实可行的办法,其具体的方法和原理如下:

1.图像颜色数的检测。“黑白二值”图像是指用于存放黑与白色像素数量为“1bit”的图像,一个字节可以存放8个像素点。彩色256色黑白图和真彩色黑白图的每像素所占的bit位数,为8bit和24bit。可以直接从图像的DIB数据结构头中,直接获取出当前读取图像的单位像素所占的bit数量,从而获得图像的颜色信息是否符合标准。检测中发现,很多用户错将16/256色或真彩色黑白图像当作黑白二值图像进行存储,这是人工检测时很难发现的问题。

2.图像分辨率的检测。对于原始数据(单页的TIFF和JPG文件)和多页TIFF文件而言,文件结构本身内置了分辨率字段,用来保存了扫描时填写的图像水平分辨率和垂直分辨率数值。要准确的检测出图像分辨率,需要根据图像尺寸来重新计算,A4页面的尺寸为827x1169像素,水平方向分辨率=W/827*100,垂直方向分辨率=H/1169*100。由于扫描图像在优化处理过程中,图像纠偏操作可造成图像尺寸变大,图像切变操作可造成图像尺寸变小,因此,W/827和H/1169结果并非整数,而是一个取值区间。在这个区间范围内的数值,所计算出来的分辨率是一个近似值,根据这个近似值所在频带来判断图像分辨率是否达标。

3.图像倾斜角度的检测。检测指标主要针对黑白二值图像的检测操作。对于彩色图像数据,可以先进行“高清化”处理,并将图像底色替换为白色,将其转换为文字内容与底色有很高对比程度的图像,然后再对其进行黑白二值化转换。先统计出水平和垂直方向上的“权值”数组,作为图像内容版面分析的原始依据。然后,在得到图像内容区间范围内顺序采样,并对每一份采样矩阵中的数据进行分析,最终计算得出整个页面的平均斜率值,将该值转换为图像的倾斜角度,根据该角度值来是否符合标准。

4.图像去污质量检测。指标的检测,重点针对图像黑边框情况进行检测,黑点的检测目前还没有足够的理论依据。

5.图像页面是否加载的检测。对于多页的PDF格式文件,由于其使用的制作软件不同,其页面数据格式不完全相同。为了对扫描后图像进行优化处理,很多制作软件会在原有PDF页面的基础之上,插入修改过后的图像数据节点,用来保存修改痕迹;或者插入“Shape”绘图节点,来覆盖掉图像中的黑色边框。加载PDF文件页面的成功与否,直接影响到其它指标项的检测。

6.图像图层数量的检测。对于多页PDF文件存储的档案图像数据,是通过加载PDF文件的交叉引用表(xref),来获取每一页图像数据的Stream流对象,同时统计其数量。原始归档的PDF文件应该只有一个图像层。可通过判断图像层数量的检查,来确认电子档案是否被非法篡改过改,并进一步确认其真实性、可利用性。

7.文本层数据的检测。双层PDF文件,是指PDF文件中的每个页面中会同时存在两种类型数据:一是光栅图像数据,二是矢量文本数据。通过将双层PDF文件页面中隐含的文字信息提取出来的方法,判断其页面中是否存在文字内容。

结语:

国网昌吉供电公司通过检测软件的应用,统一了数字化档案扫描件的检测标准,降低了档案工作人员检测强度,提高了工作效率,同时也减少了检测人与被检测人直接矛盾关系。国家/行业标准的建立,需要有配套的检测措施,才能更好为行业创造出更有价值的成果。数字化档案扫描件是否符合标准、是否达标的检测方法和技术手段,是纸质档案数字化工作中必不可少的重要一环。

[1]《中央企业档案信息化建设工作指引》(国资厅发[2014]2号)

[2]《纸质档案数字化技术规范》(GBDA/T31-2005)

[3]《PortableDocumentFormat-ReferenceManualVersion1.3》

[4]《国家电网公司纸质档案数字化技术规范》(Q/GDW135-2006)

猜你喜欢

国网页面纸质
国网甘肃省电力公司创新成果展示
刷新生活的页面
四川省图书馆发布2019年阅读报告
国网江西电力2017 回眸
全媒体时代纸质图书出版思考
移动页面设计:为老人做设计
特别感谢为本刊付出辛勤劳动的审稿专家(按姓氏拼音排序):
特别感谢为本刊付出辛勤劳动的审稿专家 (按姓氏拼音排序)
独立书店浪漫的纸质生活
Web安全问答(3)