APP下载

档案数字化图像自动检测技术的研究与应用

2018-11-29赖雯

科技与创新 2018年12期
关键词:文件夹分辨率准确率

赖雯

(广东外语外贸大学档案馆,广东 广州 510420)

1 项目背景

档案数字化自20世纪80年代提出后,随着档案工作的发展,档案数字化也进入全面发展时期。档案数字化的早期形式是将纸质目录转化成电子目录,并通过使用档案系统对档案文件进行电子化管理。随着档案利用需求的增多,仅仅对档案进行目录索引是远远不够的,所以,各级政府机关、企事业单位都在开展存量纸质档案的数字化工作。通过对纸质档案进行扫描和核对,再将文件进行目录挂接到档案系统。一方面,可以提高档案信息检索的效率,实现档案全文信息检索;另一方面,档案利用时可优先查看档案系统,减少对实体档案的借阅,有利于保护档案。而在纸质档案数字化的过程中,需要进行严格的流程管理和质量控制,以保证电子档案的真实性和有效性。

根据国家档案局2017-12-14发布、2018-01-01实施的最新《纸质档案数字化技术规范》要求:扫描分辨率应不小于200 dpi;比如文字偏小、密集、清晰度较差时,建议扫描分辨率不小于300 dpi。扫描分辨率的选择,应保证扫描后图像清晰、完整,并综合考虑数字图像后期利用方式等因素。如果有COM 输出、仿真复制、印刷出版等其他用途时,则可根据需要调整扫描分辨率。

需要进行COM 输出的档案,扫描分辨率建议不小于300 dpi;需要进行高精度仿真复制的档案,扫描分辨率建议不小于600 dpi;需要进行印刷出版的档案,可结合档案幅面、印刷出版幅面、印刷精度要求等选择合适的分辨率。此外,纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。

《纸质档案数字化技术规范》明确规定,在进行数字化成果验收时,应采用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。对数字图像进行验收,主要包括数字化参数、存储路径、命名的准确性、图像的完整性、排列顺序的准确性、图像质量等。

实际工作中,对于图像质量的检测,由于图像数量大,如果采用人工检验的方式,则需要耗费大量的人力、物力逐一检查,因此,对于数字化验收部门而言,需要根据需求开发一套自动化图像质量检测工具。

2 项目原理

2.1 图像分辨率

图像分辨率指的是图像中储存的信息量,常用计算方法是每2.54 cm(每英寸)的像素数,单位为ppi,它决定了图像细节的精细程度,分辨率越高,包含的像素点越多,图像越清晰,能表现更丰富的细节,印刷质量更好。但分辨率更高的文件更大,需要耗用更多的存储资源。如果保持图像尺寸不变,将其图像分辨率提高一倍,则其文件大小增大为原来的4倍。所以,图像形成时,要根据图像最终的用途决定正确的分辨率。

2.2 图像类型和准确率

图像压缩是指以较少的比特有损或无损地表示原来的像素矩阵的技术,也称图像编码。JPEG是最常用的图像文件格式,是一种有损压缩格式。如果使用过高的压缩比例,将使最终解压缩后恢复的图像质量明显降低。在实际使用中,我们通过测试发现,准确率在90%以上时,图像质量高且占用空间小,因此,将压缩率(准确率)90%作为检测图片质量的标准。

3 项目实现

3.1 平台及工具

图像的垂直分辨率和水平分辨率属性可以在Window 7系统中直接查看,但手动查看需要耗费大量的时间。而图像的压缩率/准确率则无法通过系统自带的属性查看,需要专门的图像处理工具收集信息。

ImageMagick图片处理是一套功能强大、稳定、免费开源的工具集和开发包,可以用来读、写和处理超过90种的图片文件,包括流行的TIFF、JPEG、GIF、PNG、PDF以及PhotoCD等格式。

本文通过下载并安装开源的Imagemagick开发包,在VS.NET平台上,开发应用程序,实现对文件夹下所有读片的信息读取,并将结果输出到CSV文件中。

3.2 算法实现

算法的主要思想是对输入的文件路径,遍历搜索该路径下所有的文件(含子文件夹),并对结果文件进行筛选,将图片文件存储到数据集中,再对数据集中的所有文件读取图像属性信息,并写入CSV文件。具体如表1所示。

4 实验结果

通过使用开发的小工具,可以大批量读取待检测图像文件的信息,进行自动化检测。打开结果文件,即可进行质量检测及幅面大小统计。

以党群数据集为例,共有40 363张图片,38.1 G。如果人工打开一个个文件去查看图像分辨率,假设一个文件夹含10个文件,查看一个文件夹并切换到其他文件夹平均需30 s,对于图像总数量为40 363张图片的项目,手动查看它们的分辨率需耗34 h,且无法准确记录分辨率不符合要求的图像。在普通电脑上测试发现,对于同样的数据集,小工具将全部结果写入CSV文件需要67 min,结果显示通过编程,让程序自动检测,可节约大量的人工成本。

实际应用中,大学档案馆每年数字化扫描的工作量达1 000 000页及以上,通过使用小工具,一方面可以提高项目验收的准确度,一方面可以提高验收效率。

[1]王学平.浅议我国档案数字化建设实践与发展策略[J].档案学通讯,2011(06):54-57.

[2]李学广.档案数字化方案研究[J].中国档案,2007(06):52-53.

猜你喜欢

文件夹分辨率准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
Fast Folders,让你的文件夹四通八达
好画质不局限于分辨率 探究爱普生4K PRO-UHD的真面目
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题
ARM发布显示控制器新品重点强化对分辨率的支持
不容忽视的空文件夹