Windows位图和Leptonica位图的转换

2019-03-08袁智勇刘文林

科技创新导报 2019年30期

袁智勇　刘文林

摘要：很多屏幕文字识别应用把截屏后的数据保存为图片文件，然后从硬盘上读取图片文件进行文字识别，这种做法效率很低。本文介绍了Windows位图和Leptonica位图格式的不同特点，提出了一套简便的，在内存中进行转换的方法。这使得直接在内存中识别文字成为可能，省去在硬盘上存取图片文件的步骤，从而大大提高屏幕文字识别应用的效率。

关键词：屏幕文字识别 tesseract leptonica GDI+ 位图数据转换

中图分类号：TP391.4 文献标识码：A 文章编号：1674-098X（2019）10（c）-0113-02

1 引言

有一类屏幕文字识别应用，其流程是这样的：

（1）屏幕截图，将包含文字的截图保存为图片文件。

（2）调用文字识别模块，读取保存好的图片文件，识别其中包含的文字。

（3）将识别出来的文字反馈给用户。

在上述过程中，截图须保存到硬盘上，然后由文字识别模块读取识别。这就涉及硬盘文件的读写，而硬盘文件的读写相对来说比较慢。很多情况下，保存下来的截图并没有其他用途，这样一来不但增加了一些无谓的开销，而且也拖慢了应用的整体响应速度。如果能将保存在内存中的截图数据直接发送到文字识别模块，略去存取文件的过程，无疑是最佳的。这正是本文要解决的问题。

2 开发平台和工具

应用平台为Windows 7以上Windows操作系统。开发工具为集成于Visual Studio中的Visual C++。因为目前的Windows API（编程接口）并不直接支持文字识别，需要为Visual C++安装支持文字识别的扩展包——tesseract。之所以使用tesseract，一是它是免費开源软件，可以免费使用;同时，虽然它是一款免费开源软件，但其文字识别率非常高，不次于同档次商业软件。

Tesseract是在Linux平台上开发的，要移植到Windows平台，需要的步骤相当繁琐，而且容易出错。幸运的是微软专门开发了一款称为vcpkg的软件，专门用于从Linux平台移植软件。通过vcpkg安装好tesseract扩展包后，还需下载对应语言的训练数据（training data），这是文字识别的支撑数据库。

3 使用tesseract进行文字识别

通过调用tesseract API，可以以编程的方式实现文字识别。Tesseract API的核心功能封装于TessBaseAPI类中，通过其成员函数GetUTF8Text完成文字识别，使用起来非常简单方便。在调用GetUTF8Text前需要进行一些初始化操作，其中一步就是读取硬盘上的包含文字的图像文件，构造一个Pix对象。然后以这个Pix对象为参数调用SetImage成员函数，为TessBaseAPI指定要识别的图像。

4 Leptonica位图

Tesseract没有为一些基本的图像处理，比如图像文件的存取开发相应的库函数，而是借用了Leptonica。Leptonica也是一款著名的Linux下的免费开源软件，专门用于基本的图像处理，包括图像文件的存取、格式转换、图像变换等。在Leptonica中，图像被封装成Pix类。除了读取硬盘上的图像文件来构造Pix对象，也可以从内存中的图像数据来构造Pix对象，比如通过下面的库函数：

Pix * px = pixCreate（w， h， bpp）;

W是图像水平像素数量，h是图像垂直像素数量，bpp是每个像素的bit长度。

不过这个库函数构建的Pix对象只是个框架，对象的一些字段是空的，还需进一步初始化。其中最重要的是Pix：：data字段，这个字段指向的缓存用于存储位图数据。如果我们将屏幕截图保存下来的位图数据拷贝到Pix对象中，并完成其他一些必要的初始化操作，就可以在内存中构造一个完整的Pix对象，用于tesseract文字识别，无需进行图像文件的硬盘存取操作。

5 位图数据转换

在Windows平台下可以将截图后获得的图像数据封装于GDI+的Bitmap对象中：

HDC hdcScreen = GetDC（NULL）;

HDC hdcMemDC = CreateCompatibleDC（hdcScreen）;

HBITMAP hbmScreen = CreateCompatibleBitmap（hdcScreen， cx， cy）;

SelectObject（hdcMemDC， hbmScreen）;

BitBlt（hdcMemDC， 0， 0， cx， cy， hdcScreen， x0， y0， SRCCOPY）;

Bitmap* bmp = new Bitmap（hbmScreen， NULL）;

然后我们可以调用Bitmap类的成员函数Bitmap：： LockBits来获取位图数据。但要注意的是，从Bitmap对象获取的位图数据不能直接拷贝到Pix：：data字段中去。这是因为GDI+的位图数据格式和Leptonica的位图数据格式是不同的。

首先，Linux平台习惯用BGR的格式存储颜色，而Windows平臺用RGB的个数存储颜色。现在原始图像的一般是每像素24bit长，但为了和32bit的CPU字长对齐，实际上一般将24bit的像素扩张到32bit来存储。多出的1字节空间可以不用，也可以存储Alpha通道数据。因此Windows平台颜色数据的格式为ARGB，而Linux平台数据的格式为ABGR。另外，Linux平台内存中数据是以big-endian方式存储的，最低位的R数据存储在32bit数据的最高1个字节，最高位的A数据存储在32bit数据的最低1个字节。因此，最终像素颜色的存储格式为RGBA，这也是Leptonica在内存中存储颜色数据的方式。我们可以将Windows平台的颜色数据ARGB向左移位8bit，变成RGB0。移位后A数据丢失，但这无关紧要，因为A数据一般不用（设置为0）。这样就可以将Windows颜色数据转换成Leptonica颜色数据RGB0。

其次，Windows位图数据可以是bottom-up（上下颠倒）的，意思是图像的最后一行像素存储在位图数据的第一行，第一行数据反而存储在位图数据的最后一行。而leptonica的位图数据都是top-down（从上往下）的，意思是图像的第一行像素存储在位图数据的第一行，最后一行数据存储在位图数据的最后一行。如果Windows位图数据是bottom-up的（这种情况非常少），必须相应地调整像素行的存储顺序。下面是相应的代码：

BitmapData bd;

bmp->LockBits（new Rect（0， 0， w， h）， ImageLockModeRead， PixelFormat32bppRGB， &bd）;

UINT* p = （UINT*）bd.Scan0;

if （bd.Stride < 0） p -= w * （h - 1）;//Stride小于0位图是bottom-up的，否则是top-down的

for （int i = 0; i < w * h; i++） p[i] = p[i] << 8; //颜色数据移位

参考文献

[1] 周鸣扬，赵景亮.精通GDI+编程[M].北京：清华大学出版社，2004.

[2] Ivor Horton.Visual C++ 2010入门经典[M].5版.北京：清华大学出版社， 2010.

[3] Jeffrey Richter.Windows核心编程[M].北京：机械工业出版社，2008.

科技创新导报

2019年30期

Windows位图和Leptonica位图的转换

杂志排行

科技创新导报的其它文章