朱丙麗 火善棟 吳鴻娟
(重慶三峽學(xué)院計算機科學(xué)與工程學(xué)院,重慶萬州 404100)
基于圖像RGB色彩特征的關(guān)聯(lián)規(guī)則挖掘研究
朱丙麗 火善棟 吳鴻娟
(重慶三峽學(xué)院計算機科學(xué)與工程學(xué)院,重慶萬州 404100)
對圖像色塊RGB值進行抽取和處理、建立常用顏色數(shù)據(jù)表和圖像RGB顏色值的事務(wù)數(shù)據(jù)庫D、最后應(yīng)用關(guān)聯(lián)規(guī)則進行挖掘.關(guān)鍵工作是建立“n張圖像顏色值事務(wù)數(shù)據(jù)庫D”,它與使用傳統(tǒng)的購物籃數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)表形式類似.因此,基于圖像RGB色彩特征的非結(jié)構(gòu)化數(shù)據(jù)挖掘問題就轉(zhuǎn)化成了結(jié)構(gòu)化數(shù)據(jù)的挖掘問題.
圖像挖掘;RGB;非結(jié)構(gòu)化數(shù)據(jù);事務(wù)數(shù)據(jù)庫;關(guān)聯(lián)規(guī)則挖掘
圖像挖掘(Image Mining,IM)是一種可以從大量的圖像集合中自動獲取隱含的、先前未知的、潛在有用的圖像數(shù)據(jù)關(guān)系的非平凡過程.根本任務(wù)是從圖像底層像素特征描述中,高效獲取高層圖像空間對象及其相互關(guān)系,以提取有用的圖像模式和知識.圖像中的信息是豐富和復(fù)雜的,隱含并難以理解的.圖像的表示和應(yīng)用中包含了各種對象,這些對象通過像素所表示的原始圖像特征來確定對象和區(qū)域范圍.圖像預(yù)處理階段,信息層主要劃分成像素層(Pixel Level)和對象層(Object Level),在此基礎(chǔ)上進行圖像處理、對象識別和特征提取等.文獻[1]中的MultiMediaMiner是一個多媒體數(shù)據(jù)挖掘的原型系統(tǒng),主要以圖像數(shù)據(jù)為處理對象的功能驅(qū)動模型強調(diào)各個模塊所完成的功能.
對于圖像這種非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)挖掘方法不能直接作用在圖像上[2-3].圖像挖掘思想主要有兩種:一種是間接挖掘,另一種是研發(fā)直接對非結(jié)構(gòu)化數(shù)據(jù)進行挖掘的工具.間接挖掘先從非結(jié)構(gòu)化數(shù)據(jù)庫中提取出結(jié)構(gòu)化的數(shù)據(jù),再用傳統(tǒng)的數(shù)據(jù)挖掘工具對其進行挖掘,如圖1所示,目前此方法更為普遍一些.通常,間接挖掘的工作步驟如下:在領(lǐng)域知識的指導(dǎo)下,建立圖像數(shù)據(jù)庫、對圖像數(shù)據(jù)進行預(yù)處理、圖像特征抽取、建立圖像特征數(shù)據(jù)庫、應(yīng)用傳統(tǒng)的數(shù)據(jù)挖掘方法.
3.1 問題的提出
顏色、對象形狀和紋理是圖像基于內(nèi)容及信息方面的三個常見的、有代表性的特征.對于圖像及對象的識別中,顏色是最常見的識別特征.在圖像挖掘領(lǐng)域,關(guān)聯(lián)規(guī)則挖掘是重要的和典型的挖掘模式,涉及的應(yīng)用領(lǐng)域比較廣泛:氣象預(yù)測及農(nóng)業(yè)生產(chǎn)輔助[4-5]、疾病分析及輔助診斷[6]、交通運輸輔助、自然災(zāi)害預(yù)測、資源發(fā)現(xiàn)和管理等.例如,在農(nóng)業(yè)生產(chǎn)輔助中,根據(jù)遙感圖像色彩空間特征,應(yīng)用關(guān)聯(lián)規(guī)則挖掘可以確知農(nóng)作物的潛在產(chǎn)量、昆蟲和種子害蟲的群襲、農(nóng)作物的營養(yǎng)含量要求、洪災(zāi)損失等情況以及其它的現(xiàn)象等.可見,研究基于圖像信息模式的、利用色彩空間的關(guān)聯(lián)規(guī)則應(yīng)用是有價值的[7-9].
圖1 非結(jié)構(gòu)化數(shù)據(jù)的間接挖掘
3.2 圖像RGB色彩空間
RGB色彩空間是計算機系統(tǒng)色彩顯示和互聯(lián)網(wǎng)信息中常用的一種色彩格式,簡單有效,應(yīng)用廣泛.RGB圖像不使用調(diào)色板,每個像素的顏色由像素位置上的紅色、綠色、藍色的亮度組合確定.RGB圖像是24位圖像,其中紅色、綠色、藍色均為8位,這將產(chǎn)生1 600多萬種顏色,在精度上可以逼近現(xiàn)實場景中的真實顏色,所以RGB圖像又稱為真彩色圖像[10].
如果顏色有三個獨立、正交的參數(shù)即色彩由三維向量來表示,那么色彩空間就可以利用典型的三維坐標軸來表示.這樣,每一個顏色都和一個三維向量α(x,y,z )所確定的位置一一對應(yīng)起來.
3.3 圖像的色塊分割
設(shè)被處理圖像是i×j的像素矩陣,通常按照8 ×8的子矩陣塊來進行劃分(一般,i、j是8的倍數(shù),若不是也可用0補齊行、列再進行分塊處理;若不按8×8來劃分以下內(nèi)容亦適用).那么對于每一個子矩陣塊包含著一個8×8的像素矩陣,即64個像素,而整張圖像劃分成的色塊大小是
3.4 圖像色塊的RGB顏色值抽取和處理
文獻[1,2,6,7]中有一些對顏色值進行抽取和處理的方法,這里使用均值法來計算圖像塊的色彩,見公式1.對于每一個圖像塊來說,其上的像素排列是一個小方陣,每個色塊包含了64個像素,若每個像素色彩值由αij(R,G,B)來表示.若在邊界處,被劃分的色塊不滿足8×8的子矩陣塊,則令超出邊界的αij(R,G,B)= 0.把64個像素的R,G,B分量取算術(shù)平均值后作為色塊的顏色值PIJ(R,G,B),該值三個分量的計算公式如下.其中,i∈[0,7],
一張圖像被劃塊簡化后,則被抽取成I*J個顏色值,即(P00,P01,……,P10,……,P(I-1)(J-1)).
3.5 建立基于應(yīng)用需求的常用顏色數(shù)據(jù)表
RGB色彩空間的三個數(shù)字分量R、G和B的取值范圍均在0~255之間,因此可以有256×256× 256種顏色組合,根據(jù)眼睛對顏色的感知和敏感度,有些顏色的視覺效果清楚明顯;有些顏色黯淡模糊;有些顏色相互間區(qū)分很小等.通常,研究的問題和對象所蘊含的顏色值一般不是均勻地分布在整個色彩空間中,即具體問題的顏色值可能不會取到RGB色彩空間中的每個值,而是聚集出現(xiàn)在整個顏色立方體的某些區(qū)域上.比如,研究對象是土壤狀況和小麥收成的遙感信息圖像,那么就應(yīng)該選取關(guān)于土壤、小麥等對象的相關(guān)顏色(褐色、綠色、金色等)進行重點研究.所以應(yīng)根據(jù)具體問題、通過領(lǐng)域知識的指導(dǎo)來選取RGB空間中的顏色,建立常用顏色數(shù)據(jù)表進行重點研究.
常用顏色數(shù)據(jù)表的基本結(jié)構(gòu)如表1所示.根據(jù)整個RGB顏色參考表的內(nèi)容,可以把被選中顏色的詳細信息導(dǎo)入常用顏色數(shù)據(jù)表中.采用下表中的結(jié)構(gòu)建立“常用顏色數(shù)據(jù)表”.
表1 常用顏色數(shù)據(jù)表的基本結(jié)構(gòu)
3 R Int 分量R的值4 G Int 分量G的值5 B Int 分量B的值
3.6 建立圖像色塊RGB顏色值的事務(wù)數(shù)據(jù)表
建立圖像塊顏色值的事務(wù)數(shù)據(jù)表是進行關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ).按照前面的圖像分塊方法,一張圖像有64個顏色塊,把這64個三維向量值按照行優(yōu)先或者列優(yōu)先順序作為顏色事務(wù)數(shù)據(jù)表中的一條記錄進行存儲.行優(yōu)先或列優(yōu)先并不會影響挖掘結(jié)果,目的是按照某個固定的順序來取數(shù)據(jù)和存數(shù)據(jù),這樣能減少錯誤和遺漏.表2是n張圖像的色塊RGB顏色值構(gòu)成的數(shù)據(jù)表.每一張圖像色塊RGB顏色值構(gòu)成一條記錄,記錄號對應(yīng)著第幾張圖像,顯然每條記錄的項目數(shù)是一樣的.
表2 n張圖像的RGB顏色值表
參考“常用顏色數(shù)據(jù)表”,對表2的數(shù)據(jù)進行篩選,目的是減小問題規(guī)模和提高計算效率,建立關(guān)聯(lián)規(guī)則直接處理的“n張圖像的顏色值事務(wù)數(shù)據(jù)庫D”,如表3所示.
操作方法是:①順序從表2中讀出每一個RGB三維向量;②遍歷并比較,若表2中的值落在“常用顏色數(shù)據(jù)表”中,則把其在表中“colourid字段”對應(yīng)的“顏色值序號”存入表3中;③否則,不寫入表3.
表3 n張圖像RGB顏色值事務(wù)數(shù)據(jù)庫D
在“常用顏色數(shù)據(jù)表”中,對顏色的編號是集合(1,2,3,……,m),集合中的每個項取值為正整數(shù),m種顏色就有m個數(shù).即項目集合是由正整數(shù)構(gòu)成的集合,每一個整數(shù)代表“常用顏色數(shù)據(jù)表”中的一種顏色.經(jīng)過篩選處理獲得的事物數(shù)據(jù)如表3所示,表中的“編號n”仍然對應(yīng)第n張圖像.假設(shè)a,b,c,d,……,i,j,k,l,……以及這些字符的組合,分別代表不同的正整數(shù).
表3與傳統(tǒng)購物籃數(shù)據(jù)的事務(wù)數(shù)據(jù)表形式類似,其中的數(shù)據(jù)是關(guān)聯(lián)規(guī)則可以處理的布爾型數(shù)據(jù),“顏色關(guān)聯(lián)規(guī)則挖掘”的問題就回歸到了“購物籃數(shù)據(jù)”的關(guān)聯(lián)規(guī)則挖掘模式上.相對于“購物籃數(shù)據(jù)”關(guān)聯(lián)規(guī)則挖掘,建立圖像RGB值的事務(wù)數(shù)據(jù)庫D就成了應(yīng)用關(guān)聯(lián)規(guī)則挖掘的重點和關(guān)鍵性工作.這樣,把基于圖像RGB色彩特征的非結(jié)構(gòu)化數(shù)據(jù)挖掘的問題轉(zhuǎn)化成了結(jié)構(gòu)化數(shù)據(jù)的挖掘問題.
關(guān)聯(lián)規(guī)則挖掘是通過對各個項集在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率值進行運算和比較產(chǎn)生規(guī)則[11],一張靜態(tài)圖像只局限于反映某段時間某個狀態(tài)下圖像RGB顏色的信息.為了構(gòu)成概率樣本空間,需要對一組圖像進行挖掘,圖像的樣本空間數(shù)應(yīng)是一個恰當、可行的數(shù);要全面、準確地獲取知識,需要動態(tài)變化的圖像信息;圖像數(shù)據(jù)的選取要注意數(shù)據(jù)的離散化;對連續(xù)的顏色數(shù)據(jù)值要進行區(qū)間劃分;恰當?shù)剡x取被挖掘?qū)ο蟮膮^(qū)域大小,構(gòu)成的圖像尺寸要恰當,因為非變化區(qū)域的特征值挖掘沒有價值;根據(jù)領(lǐng)域知識的指導(dǎo)確定最小支持度和最小置信度的閾值;解釋獲得的規(guī)則,并對其分析、反復(fù)調(diào)整和修改才具有應(yīng)用價值.
[1]Zaiane O.R.,Han J.,Li Z.N.,Chiang J.Y.and Chee S. Multimedia Miner:A system prototype for multimedia data mining[C]. In Proceesings of 1998 ACM-SIGMOD Conference on Management of Data(SIGMOD’98), Seattle, WA, June 1998, 581-583.
[2]Ji Zhang, etc. An information-driven Framework for Image Mining[C]. Proceedings of 12th International Conference on Database and Expert Systems Applications(DEXA), Munich, Germany, 2001. 232-242.
[3]李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[4]張啟孟.基于圖像挖掘的冰雹云識別[D].天津:天津大學(xué),2007.
[5]丁未思,趙躍龍,邱建雄.基于圖像挖掘技術(shù)的降雨預(yù)測系統(tǒng)的研究[J].計算機測量與控制,2006(7):931-933.
[6]Antonie M L, Zaiane O R, Coman A. Applicationof Data Mining Techniques for Medical Image Classification[C]//MDM/KDD2001, San Francisco, CA, USA,2001:94-101.
[7]Qin Ding, Qiang Ding, William Perrizo. Association rule mining on remotely sensed images using p-trees[C]//In Proceedings of PAKDD, 2002, LNAI2336,66-79
[8]舒風(fēng)笛,毋國慶,王敏.圖象數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[J].小型微型計算機系統(tǒng),2001(11):1353-1356.
[9]孫慶先,方濤,郭達志.圖像數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則[J].計算機工程,2006(5):49-51.
[10]Rafael C. Gonzalez,Richard E. Woods,Steven L. Eddins.數(shù)字圖像處理:第二版[M].阮秋琦,等,譯.北京:電子工業(yè)出版社,2009.
[11]李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報,2014(3):45-47.
(責任編輯:鄭宗榮)
A Study on Application of Association Rule Mining Base on the Feature of Images’ RGB Colors
ZHU Bingli HUO Shandong Wu Hongjuan
(College of Computer Science and Engineering, Chongqing Three Gorges University, Wanzhou, Chongqing 404100)
This paper present ways of abstracting and processing the RGB values from the color blocks of image, building frequently-used colors’ database and affairs database based on color clocks’ RGB values, and applying association rule mining. The bottleneck problem is building color affairs database D based on n-pieces of images, with the same form as the traditional shopper affairs database that applies association rule mining. Thus, the problem arising from non-structural data from the feature of images’ RGB colors has been translated into the mining problem based on structural data.
Image Mining; RGB; non-structural data; affairs DB; Association Rule Mining
TP391.41
A
1009-8135(2015)03-0056-04
2015-02-28
朱丙麗(1977-),女,四川德陽人,重慶三峽學(xué)院講師,碩士,主要研究數(shù)字圖像處理及信息處理.
重慶市科技項目(KJ131108)階段性成果