APP下载

基于图像RGB色彩特征的关联规则挖掘研究

2015-06-27朱丙丽火善栋吴鸿娟

重庆三峡学院学报 2015年3期
关键词:色块数据表数据挖掘

朱丙丽 火善栋 吴鸿娟

(重庆三峡学院计算机科学与工程学院,重庆万州 404100)

基于图像RGB色彩特征的关联规则挖掘研究

朱丙丽 火善栋 吴鸿娟

(重庆三峡学院计算机科学与工程学院,重庆万州 404100)

对图像色块RGB值进行抽取和处理、建立常用颜色数据表和图像RGB颜色值的事务数据库D、最后应用关联规则进行挖掘.关键工作是建立“n张图像颜色值事务数据库D”,它与使用传统的购物篮数据进行关联规则挖掘的事务数据表形式类似.因此,基于图像RGB色彩特征的非结构化数据挖掘问题就转化成了结构化数据的挖掘问题.

图像挖掘;RGB;非结构化数据;事务数据库;关联规则挖掘

1 图像挖掘

图像挖掘(Image Mining,IM)是一种可以从大量的图像集合中自动获取隐含的、先前未知的、潜在有用的图像数据关系的非平凡过程.根本任务是从图像底层像素特征描述中,高效获取高层图像空间对象及其相互关系,以提取有用的图像模式和知识.图像中的信息是丰富和复杂的,隐含并难以理解的.图像的表示和应用中包含了各种对象,这些对象通过像素所表示的原始图像特征来确定对象和区域范围.图像预处理阶段,信息层主要划分成像素层(Pixel Level)和对象层(Object Level),在此基础上进行图像处理、对象识别和特征提取等.文献[1]中的MultiMediaMiner是一个多媒体数据挖掘的原型系统,主要以图像数据为处理对象的功能驱动模型强调各个模块所完成的功能.

2 非结构化数据的间接挖掘

对于图像这种非结构化的数据,传统的数据挖掘方法不能直接作用在图像上[2-3].图像挖掘思想主要有两种:一种是间接挖掘,另一种是研发直接对非结构化数据进行挖掘的工具.间接挖掘先从非结构化数据库中提取出结构化的数据,再用传统的数据挖掘工具对其进行挖掘,如图1所示,目前此方法更为普遍一些.通常,间接挖掘的工作步骤如下:在领域知识的指导下,建立图像数据库、对图像数据进行预处理、图像特征抽取、建立图像特征数据库、应用传统的数据挖掘方法.

3 基于图像RGB色彩特征的关联规则挖掘研究

3.1 问题的提出

颜色、对象形状和纹理是图像基于内容及信息方面的三个常见的、有代表性的特征.对于图像及对象的识别中,颜色是最常见的识别特征.在图像挖掘领域,关联规则挖掘是重要的和典型的挖掘模式,涉及的应用领域比较广泛:气象预测及农业生产辅助[4-5]、疾病分析及辅助诊断[6]、交通运输辅助、自然灾害预测、资源发现和管理等.例如,在农业生产辅助中,根据遥感图像色彩空间特征,应用关联规则挖掘可以确知农作物的潜在产量、昆虫和种子害虫的群袭、农作物的营养含量要求、洪灾损失等情况以及其它的现象等.可见,研究基于图像信息模式的、利用色彩空间的关联规则应用是有价值的[7-9].

图1 非结构化数据的间接挖掘

3.2 图像RGB色彩空间

RGB色彩空间是计算机系统色彩显示和互联网信息中常用的一种色彩格式,简单有效,应用广泛.RGB图像不使用调色板,每个像素的颜色由像素位置上的红色、绿色、蓝色的亮度组合确定.RGB图像是24位图像,其中红色、绿色、蓝色均为8位,这将产生1 600多万种颜色,在精度上可以逼近现实场景中的真实颜色,所以RGB图像又称为真彩色图像[10].

如果颜色有三个独立、正交的参数即色彩由三维向量来表示,那么色彩空间就可以利用典型的三维坐标轴来表示.这样,每一个颜色都和一个三维向量α(x,y,z )所确定的位置一一对应起来.

3.3 图像的色块分割

设被处理图像是i×j的像素矩阵,通常按照8 ×8的子矩阵块来进行划分(一般,i、j是8的倍数,若不是也可用0补齐行、列再进行分块处理;若不按8×8来划分以下内容亦适用).那么对于每一个子矩阵块包含着一个8×8的像素矩阵,即64个像素,而整张图像划分成的色块大小是

3.4 图像色块的RGB颜色值抽取和处理

文献[1,2,6,7]中有一些对颜色值进行抽取和处理的方法,这里使用均值法来计算图像块的色彩,见公式1.对于每一个图像块来说,其上的像素排列是一个小方阵,每个色块包含了64个像素,若每个像素色彩值由αij(R,G,B)来表示.若在边界处,被划分的色块不满足8×8的子矩阵块,则令超出边界的αij(R,G,B)= 0.把64个像素的R,G,B分量取算术平均值后作为色块的颜色值PIJ(R,G,B),该值三个分量的计算公式如下.其中,i∈[0,7],

一张图像被划块简化后,则被抽取成I*J个颜色值,即(P00,P01,……,P10,……,P(I-1)(J-1)).

3.5 建立基于应用需求的常用颜色数据表

RGB色彩空间的三个数字分量R、G和B的取值范围均在0~255之间,因此可以有256×256× 256种颜色组合,根据眼睛对颜色的感知和敏感度,有些颜色的视觉效果清楚明显;有些颜色黯淡模糊;有些颜色相互间区分很小等.通常,研究的问题和对象所蕴含的颜色值一般不是均匀地分布在整个色彩空间中,即具体问题的颜色值可能不会取到RGB色彩空间中的每个值,而是聚集出现在整个颜色立方体的某些区域上.比如,研究对象是土壤状况和小麦收成的遥感信息图像,那么就应该选取关于土壤、小麦等对象的相关颜色(褐色、绿色、金色等)进行重点研究.所以应根据具体问题、通过领域知识的指导来选取RGB空间中的颜色,建立常用颜色数据表进行重点研究.

常用颜色数据表的基本结构如表1所示.根据整个RGB颜色参考表的内容,可以把被选中颜色的详细信息导入常用颜色数据表中.采用下表中的结构建立“常用颜色数据表”.

表1 常用颜色数据表的基本结构

3 R Int 分量R的值4 G Int 分量G的值5 B Int 分量B的值

3.6 建立图像色块RGB颜色值的事务数据表

建立图像块颜色值的事务数据表是进行关联规则挖掘的基础.按照前面的图像分块方法,一张图像有64个颜色块,把这64个三维向量值按照行优先或者列优先顺序作为颜色事务数据表中的一条记录进行存储.行优先或列优先并不会影响挖掘结果,目的是按照某个固定的顺序来取数据和存数据,这样能减少错误和遗漏.表2是n张图像的色块RGB颜色值构成的数据表.每一张图像色块RGB颜色值构成一条记录,记录号对应着第几张图像,显然每条记录的项目数是一样的.

表2 n张图像的RGB颜色值表

参考“常用颜色数据表”,对表2的数据进行筛选,目的是减小问题规模和提高计算效率,建立关联规则直接处理的“n张图像的颜色值事务数据库D”,如表3所示.

操作方法是:①顺序从表2中读出每一个RGB三维向量;②遍历并比较,若表2中的值落在“常用颜色数据表”中,则把其在表中“colourid字段”对应的“颜色值序号”存入表3中;③否则,不写入表3.

表3 n张图像RGB颜色值事务数据库D

在“常用颜色数据表”中,对颜色的编号是集合(1,2,3,……,m),集合中的每个项取值为正整数,m种颜色就有m个数.即项目集合是由正整数构成的集合,每一个整数代表“常用颜色数据表”中的一种颜色.经过筛选处理获得的事物数据如表3所示,表中的“编号n”仍然对应第n张图像.假设a,b,c,d,……,i,j,k,l,……以及这些字符的组合,分别代表不同的正整数.

表3与传统购物篮数据的事务数据表形式类似,其中的数据是关联规则可以处理的布尔型数据,“颜色关联规则挖掘”的问题就回归到了“购物篮数据”的关联规则挖掘模式上.相对于“购物篮数据”关联规则挖掘,建立图像RGB值的事务数据库D就成了应用关联规则挖掘的重点和关键性工作.这样,把基于图像RGB色彩特征的非结构化数据挖掘的问题转化成了结构化数据的挖掘问题.

4 关联规则挖掘中要注意的问题

关联规则挖掘是通过对各个项集在事务数据库中出现的概率值进行运算和比较产生规则[11],一张静态图像只局限于反映某段时间某个状态下图像RGB颜色的信息.为了构成概率样本空间,需要对一组图像进行挖掘,图像的样本空间数应是一个恰当、可行的数;要全面、准确地获取知识,需要动态变化的图像信息;图像数据的选取要注意数据的离散化;对连续的颜色数据值要进行区间划分;恰当地选取被挖掘对象的区域大小,构成的图像尺寸要恰当,因为非变化区域的特征值挖掘没有价值;根据领域知识的指导确定最小支持度和最小置信度的阈值;解释获得的规则,并对其分析、反复调整和修改才具有应用价值.

[1]Zaiane O.R.,Han J.,Li Z.N.,Chiang J.Y.and Chee S. Multimedia Miner:A system prototype for multimedia data mining[C]. In Proceesings of 1998 ACM-SIGMOD Conference on Management of Data(SIGMOD’98), Seattle, WA, June 1998, 581-583.

[2]Ji Zhang, etc. An information-driven Framework for Image Mining[C]. Proceedings of 12th International Conference on Database and Expert Systems Applications(DEXA), Munich, Germany, 2001. 232-242.

[3]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.

[4]张启孟.基于图像挖掘的冰雹云识别[D].天津:天津大学,2007.

[5]丁未思,赵跃龙,邱建雄.基于图像挖掘技术的降雨预测系统的研究[J].计算机测量与控制,2006(7):931-933.

[6]Antonie M L, Zaiane O R, Coman A. Applicationof Data Mining Techniques for Medical Image Classification[C]//MDM/KDD2001, San Francisco, CA, USA,2001:94-101.

[7]Qin Ding, Qiang Ding, William Perrizo. Association rule mining on remotely sensed images using p-trees[C]//In Proceedings of PAKDD, 2002, LNAI2336,66-79

[8]舒风笛,毋国庆,王敏.图象数据关联规则挖掘[J].小型微型计算机系统,2001(11):1353-1356.

[9]孙庆先,方涛,郭达志.图像数据挖掘中的关联规则[J].计算机工程,2006(5):49-51.

[10]Rafael C. Gonzalez,Richard E. Woods,Steven L. Eddins.数字图像处理:第二版[M].阮秋琦,等,译.北京:电子工业出版社,2009.

[11]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014(3):45-47.

(责任编辑:郑宗荣)

A Study on Application of Association Rule Mining Base on the Feature of Images’ RGB Colors

ZHU Bingli HUO Shandong Wu Hongjuan
(College of Computer Science and Engineering, Chongqing Three Gorges University, Wanzhou, Chongqing 404100)

This paper present ways of abstracting and processing the RGB values from the color blocks of image, building frequently-used colors’ database and affairs database based on color clocks’ RGB values, and applying association rule mining. The bottleneck problem is building color affairs database D based on n-pieces of images, with the same form as the traditional shopper affairs database that applies association rule mining. Thus, the problem arising from non-structural data from the feature of images’ RGB colors has been translated into the mining problem based on structural data.

Image Mining; RGB; non-structural data; affairs DB; Association Rule Mining

TP391.41

A

1009-8135(2015)03-0056-04

2015-02-28

朱丙丽(1977-),女,四川德阳人,重庆三峡学院讲师,硕士,主要研究数字图像处理及信息处理.

重庆市科技项目(KJ131108)阶段性成果

猜你喜欢

色块数据表数据挖掘
探讨人工智能与数据挖掘发展趋势
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
基于校验信息隐藏的彩码抗篡改攻击技术*
基于列控工程数据表建立线路拓扑关系的研究
基于并行计算的大数据挖掘在电网中的应用
阎先公和他的瓷板色块泼彩画
一种基于Hadoop的大数据挖掘云服务及应用
三个色块
眼睛,请接招