APP下载

古藏文经书文本背景分割研究

2018-09-13杨玉文冯炎王倩

电脑知识与技术 2018年17期
关键词:经书二值藏文

杨玉文 冯炎 王倩

摘要:藏文古经书是藏族文化宝库中的明珠。但对藏文古经书的保护情况却不容乐观,古藏文经书所采用的藏纸容易腐蚀、变黄。为更好地揭示退化古书所记载的内容,提出一种背景估计与提高对比度结合的图像分割方法。该方法先利用Sauvola算法对图像进行背景估计,然后用所估计的背景对古经书进行对比度补偿,最后通过二值化算法对图像进行文本背景的分割。

关键词:估计古书背景提高对比度;古藏文经书二值分割

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)17-0222-02

藏文古经书是藏族文化传承的重要载体,藏文古经书图像由于其材质以及年代久远的原因,相对于普通图像要复杂。将一副图像转变为黑白图像,即灰度图,其像素点灰度值分布在0到255之间,也可以说分为从1到256的不同等级亮度,对古书进行分割处理,就是将古书图像点的灰度值变为0或者255,呈现出两极效果。通过选取合适的阈值,有效地分割图像的文本与背景,提高古经书的可读性。

近年来,针对古书分割的研究,学者们从背景估计、边缘检测、模块提取、拉普拉斯能量和非线性预处理等方面展开广泛研究,同时也提出了许多二值化算法,这些算法对于分割藏文古经书的研究有很好的借鉴意义。但古藏文经书的损坏情况比较严重,以及由于其年代较长,所以有效地分割古经书的文本背景,还需要继续探索。

1现状分析

在目前的技术中,很好地将古藏文经书分割还是有一定的难度,因为在许多图像处理技术中,大多都是针对普通的图像,如果将这些技术运用在古经书的分割处理上,并不会得到好的效果。古经书由于其长时间的存放以及人们反复地利用,使得其字符信息含有大量的噪声。通常古书载体一般为藏纸,藏纸 变黄会加深背景颜色,变为高频分量和文字信息混在一起,难以辨别。在图像分割时会同要分割的字符信息一起分离出来,给真正地背景文字分割加大难度。

图像的二值化算法一般可以分为全局阈值法和局部阈值法。全局阈值法也称方差最大法;首先选取一个合适的阈值T,该阈值接近图像的平均灰度值;然后将图像分割为两部分,一部分是灰度值大于T的,另一部分小于或等于T;计算出两部分的平均灰度值,将这两个新值的平均值重新赋给T。然后重复前两步,直到每次计算的T值接近在自己的误差范围内。

但该方法会因为图像光照不均、噪声干扰较大等原因使的二值化效果变差。将图像分为大小相同多个区域,称为窗口,根据每个窗口的像素点灰度值分布,从而选取不同的阈值,窗口内的所有点再根据选取的阈值进行二值化,如对Niblack算法改进后的Sauvola算法,它克服了Niblack算法的不足,其基本思想是将图像假设为字符信息灰度值为0,背景点灰度值为255。尽管在字符与背景对比度比较低的情况下,二值化效果仍然不理想,但可以通过Sauvola算法進行背景估计。

2文本的算法

针对以上情况,本文提出了基于背景估计和提高对比度的二值化算法。主要包含四步:先利用边缘检测中最优算法Canny算法对古书图像字符进行检测,根据得出的边缘图像做笔画宽度的估计,假设得出的笔画宽度为d;然后运用Sauvola算法对古经书图像做粗二值化后为Ba(x,y),根据字符笔画宽度d最终得到背景Ib(x,y);从而提高图像的对比度,得到I?b(x,y);最后对图像做分割处理为B(x,y)。

2.1边缘检测

(1)首先将藏文古书图像转换为灰度图像I(x,y),利用Canny算子的具体步骤如下,第一步,使用高斯滤波器平滑降噪;第二步,运用一对分别作用于x和y方向的卷积阵列,用下面的公式计算梯度值和方向;

第三步,对梯度进行非极大值抑制,排除非边缘因素,确定边缘;第四步,Canny使用滞后阈值,滞后阈值包括高阈值和低阈值两部分,来确定被保留下来的边缘信息。

(2)从图像左侧开始对藏文字符进行扫描,记初始的d=0,这里做扫描藏文字符一笔的假设,当遇到字符边缘点时记做m1和其对应的灰度值n,接着向右推进,如果下一个灰度值小于n值,但此时的点并不是边缘点,说明该点在笔画内部,d加1;直到当前扫描的位置的点的灰度值大于n或者遇到边缘点,记下位置m2,计算d=m2-m1。重复上面的方法,计算所有藏文字符的笔画宽度,最终取其中间值作为平均笔画宽度d。

2.2背景估计

3 初步实验结果

运用以上算法,对一张原始古经书图像进行测试,以下是前后两张图片的对比,相对于原图像有明显的改善,在阅读时可以更好地进行记录或翻译。

4结束语

本文针对藏文古书腐蚀、变黄等情况提出了基于背景估计和提高对比度的二值化算法。该算法先利用Canny算子进行边缘检测,进而估计笔画宽度;利用估计的笔画宽度对图像做背景估计,然后提高图像的对比度,更好地进行古经书分割。

另一方面,对于已经被擦除或丢失的文字,不能对其进行修复,从而在分割后图像上仍然显示为空;实验初步成果显示,部分灰度值特别接近背景的文字将会同背景一起分割,从而使得这部分文字不会在这一张图上显示,需要重新进行阈值的选择来将这部分分割,这两点是本文算法的局限性;为此,在以后的改进算法中会克服不足,以达到理想的效果。

参考文献:

[1] 冯炎.基于对比度补偿的古籍图像二值化研究[J].微电子学与计算机,2016,33(4):51-53.

[2] 许海洋,马龙龙,吴健.基于背景估计和边缘检测的文档图像二值化[J].计算机应用与软件,2014,31(8):197-198.

[3] 唐路路,张启灿,胡松.一种自适应阈值的Canny边缘检测算法[J].光电工程,2011,38(5):127-129.

[4] 刘卫国.MATLAB程序设计与应用[M].第二版.北京:高等教育出版社,2006:7-48.

[5] 张雅兰. 图像的二值化处理[J]. 广西科技大学学报, 2002, 13(1):32-33.

[6] 王勇智. 数字图象的二值化处理技术探究[J]. 湖南理工学院学报(自科版), 2005, 18(1):31-33.

[7] 江明,刘辉,黄欢.图像二值化技术的研究[J].软件导刊,2009(4):175-177.

猜你喜欢

经书二值藏文
混沌伪随机二值序列的性能分析方法研究综述
支持CNN与LSTM的二值权重神经网络芯片
西藏大批珍贵藏文古籍实现“云阅读”
《天演论》初版时间再探——以新近发现的“味经书屋本”为中心
喜讯
黑水城和额济纳出土藏文文献简介
基于二值形态学算子的轨道图像分割新算法
单宝塔诗
基于曲率局部二值模式的深度图像手势特征提取
藏文音节字的频次统计