李 敏 ,陳燕平 ,宋曰聰
(1.綿陽師范學(xué)院信息工程學(xué)院,四川綿陽621000;2.中國工程物理研究院五所四川綿陽621000)
基于四層樹狀語義模型的場景語義識別方法
李 敏1,2,陳燕平1,宋曰聰1
(1.綿陽師范學(xué)院信息工程學(xué)院,四川綿陽621000;2.中國工程物理研究院五所四川綿陽621000)
場景分類的主要方法是基于底層特征的方法和基于視覺詞包模型的方法,前者缺乏語義描述能力并且時間復(fù)雜度大,后者識別率低。借鑒兩類方法的優(yōu)勢,提出了基于四層樹狀語義模型的場景語義識別新方法。四層語義模型包括視覺層(圖像的底層特性)、概念層(場景實(shí)物的名稱)、關(guān)系層和語義層。提取訓(xùn)練樣本場景實(shí)物的顏色、顏色層次和輪廓得到視覺層;同類場景中實(shí)物的名稱(概念單詞)的交集構(gòu)成了概念層;統(tǒng)計概念單詞的頻率并對概念單詞的空間位置關(guān)系進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘得到關(guān)系層;計算關(guān)鍵概念單詞與PSB標(biāo)準(zhǔn)模型語義屬性分類樹的語義相似度得到場景高層語義。計算測試樣本的底層特征后,通過視覺層的檢索得到概念單詞。通過概念單詞的頻率和空間位置關(guān)系關(guān)聯(lián)規(guī)則的檢索得到場景分類。由場景分類、場景高層語義、場景概念單詞構(gòu)成場景語義的識別結(jié)果。實(shí)驗顯示:新方法提高了識別率,降低了識別時間,并且具有場景高層語義的描述能力。
場景語義識別;四層樹狀語義模型;位置關(guān)系關(guān)聯(lián)規(guī)則;場景高層語義;概念單詞頻率
圖像場景的分析和理解是圖像檢索、機(jī)器視覺和智能監(jiān)控發(fā)展的重要基礎(chǔ),在這幾個領(lǐng)域都成為了研究熱點(diǎn),同時也被定義為21世紀(jì)初必須攻克的關(guān)鍵技術(shù)之一[1]。目前場景分類的第一類方法是基于形狀、顏色、紋理等圖像底層分類特征來建立不同圖像的分類模型,典型的代表是Fei-fei L[2]研究了臥室、海岸、森林、辦公室等13種場景的分類方法。圖像的SIFT特征具有旋轉(zhuǎn)和尺度不變的特性[3],使其成為場景分類特征表示的主要方法。目前基于底層分類特征(ILF)的場景分類方法的發(fā)展趨勢是分類特征融合局部特征之間的空間布局信息。比如Lazebnik[4]采用的空間金字塔(SPM)匹配法,文獻(xiàn)[5]中提出的用Gensus變換獲取圖像的局部特征的空間布局信息?;诘讓臃诸愄卣鞯膱鼍胺诸惙椒ㄒ呀?jīng)有了較高的分類識別率,主要缺陷是底層視覺特征與場景高層語義之間存在語義鴻溝,分類結(jié)果缺乏對場景語義的描述。同時由于該方法未對圖像進(jìn)行壓縮描述,分類識別的時間復(fù)雜度也較大。
視覺詞包模型(bag-of-visual-words-BVW)是一種基于中間特征的場景語義建模方法,可以克服圖像底層特征與圖像高層語義之間的鴻溝[6]。但經(jīng)典詞包模型方法的識別率低于基于底層分類的場景識別方法[7]。視覺詞包模型方法和基于底層分類的場景識別方法目前都缺乏對場景高層潛在語義的描述能力。
針對這種現(xiàn)狀,本文借鑒兩類方法各自的優(yōu)勢,提出了基于四層樹狀語義模型的場景語義識別方法。四層語義樹包括視覺層(圖像的底層特性)、概念層(場景實(shí)物的名稱)、關(guān)系層和語義層。構(gòu)建四層場景語義樹時,提取訓(xùn)練樣本場景實(shí)物的顏色、顏色層次和輪廓得到視覺層;同類場景中實(shí)物的名稱(概念單詞)的交集構(gòu)成了概念層;統(tǒng)計概念單詞的頻率并對概念單詞的空間位置關(guān)系進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘得到關(guān)系層;計算概念單詞與PSB標(biāo)準(zhǔn)模型語義屬性分類樹的語義相似度得到場景高層語義。識別場景語義時,通過視覺層的計算和檢索得到概念單詞,通過概念單詞的頻率和空間位置關(guān)系的檢索得到場景分類,由場景分類、場景高層語義、場景概念單詞構(gòu)成場景語義的識別結(jié)果。
圖1是本文場景語義識別方法的技術(shù)路線圖,圖中的技術(shù)路線主要包括以測試樣本為數(shù)據(jù)源的四層語義樹構(gòu)建和以檢測樣本為數(shù)據(jù)源的場景語義識別兩個模塊。圖中的特征提取主要是場景實(shí)物的顏色、顏色層次和輪廓特征。場景實(shí)物之間的關(guān)系主要是指空間位置關(guān)系和概念單詞的詞頻分布。后續(xù)小節(jié)將分別介紹該技術(shù)路線各個環(huán)節(jié)的具體實(shí)現(xiàn)方法。圖像分割參考文獻(xiàn)[8]的方法,不在這里詳細(xì)介紹。
圖1 四層語義樹模型場景語義識別技術(shù)路線
視覺詞包模型(bag-of-visual-words)是用于跨越圖像底層視覺特征與高層語義鴻溝的一種中層特征模型,在圖像場景分類中已經(jīng)有了多年的研究[6]。視覺詞包模型包括4個基本概念:①視覺單詞;②視覺詞典;③視覺詞包;④潛在語義。視覺單詞是場景實(shí)物的不同語義概念(如高樓、街道、樹木等);視覺詞典是概念單詞的集合;視覺詞包是場景圖像中概念單詞的統(tǒng)計分布情況,常用概念單詞頻度直方圖來進(jìn)行描述;潛在語義是對單詞語義的進(jìn)一步概括或抽象。比如沙灘、天空、海洋屬于自然事物,高樓、碼頭屬于人工建筑。論文以視覺詞包模型為基礎(chǔ),提出了四層樹狀語義模型,下面介紹該模型的原理。
圖2是樹狀語義模型的結(jié)構(gòu),圖3是足球機(jī)器人比賽對應(yīng)的樹狀語義模型分解。
圖2 四層語義樹模型場景語義識別技術(shù)路線
圖3 四層語義樹模型分解過程及結(jié)果(足球機(jī)器人比賽)
將圖像的顏色、顏色層次圖、場景實(shí)物的輪廓進(jìn)行融合,得到視覺層,具體融合方法如下:設(shè)待查圖像P和數(shù)據(jù)庫中某一標(biāo)準(zhǔn)樣本Q之間的直方圖距離為D1(P,Q),則D1(P,Q)的計算方法如公式(1)所示。
公式中,Pi和Qi是待查圖形P和樣本庫Q的直方圖i的具體數(shù)值。
設(shè)待查圖像P和數(shù)據(jù)庫中某一標(biāo)準(zhǔn)樣本Q之間的顏色層次距離為D2(P,Q),則D2(P,Q)的具體計算方法如公式(2)所描述:
式(2)中PYi,QYi是P和Q第i個Y對應(yīng)的DCT系數(shù)值,PCbi,QCbi是P和Q第i個Cb對應(yīng)的DCT系數(shù)值,PCri,QCri是P和Q第i個Cr對應(yīng)的DCT系數(shù)值。(ωy,ωcb,ωcr)是對應(yīng)PYi與QYi,PCbi與QCbi,PCri與QCri的權(quán)值,在我們的方案中按照公式(3)取經(jīng)驗值,此經(jīng)驗值受圖像采集系統(tǒng)的影響,可以通過樣本訓(xùn)練進(jìn)行調(diào)整。
設(shè)D(P,Q)是線性融合后的歐幾里德距離,其計算公式如式(4)所示。
公式中的D3(P,Q)是場景實(shí)物的輪廓特征,提取方法參照文獻(xiàn)[9]進(jìn)行。ω1、ω2、ω3是聯(lián)合系數(shù),可以通過一定數(shù)量的樣本訓(xùn)練調(diào)整得到,約束條件是3個參數(shù)的和為1。
這里的概念層由場景實(shí)物的名稱組成,場景實(shí)物的顏色,顏色層次圖,輪廓形狀對應(yīng)一個場景實(shí)物的名稱,在樣本訓(xùn)練時由交互的方式輸入,在樣本測試時,通過顏色、顏色層次圖、輪廓形狀從視覺層進(jìn)行查找,找出對應(yīng)的場景實(shí)物名稱。
1)場景實(shí)物距離計算
選擇目標(biāo)物邊緣的任意一點(diǎn)(xm,ym),選擇周圍備選參照物邊緣的任意一點(diǎn)(xn,yn),按照式(5)計算目標(biāo)物與備選參照物之間的距離。
2)場景實(shí)物之間方向關(guān)系計算
借鑒Roop K[10]提出的(3×3)方向關(guān)系矩陣模型來表示整場景實(shí)物中的方向關(guān)系,以參照物為中心,方向被分成9個區(qū)域,W=左、N=上、S=下、E=右、SW=左下、其他以此類推。目標(biāo)物在9個區(qū)域中有分布,3×3矩陣對應(yīng)位置取1或0。
3)場景實(shí)物之間拓?fù)潢P(guān)系的計算
9交模型[11]被認(rèn)為是經(jīng)典的空間拓?fù)潢P(guān)系模型,其定義如下:A,B為簡單空間的兩個幾何對象,?A,?B為A,B的邊界,A0,B0為A,B的內(nèi)部,A-,B-為A,B的外部,A與B的空間拓?fù)潢P(guān)系表示為:
其中的元素都用0,1表示空和非空兩種取值。
1)關(guān)聯(lián)規(guī)則概念的引入
給定場景包含不同的項目集I={i1,i2,…,im},T={t1,t2,…,tn}是由同類場景的不同圖像構(gòu)成的空間位置關(guān)系數(shù)據(jù)庫,且有tj?I,關(guān)聯(lián)規(guī)則是類似于X→Y(X?I,Y?I,XIY=?)的蘊(yùn)涵式,若T中包含X?Y的比例為sup,則X→Y在T中的支持度為sup,T中包含X中包含Y的比例為conf,則X→Y在T中以置信度conf成立,即:
支持度表示空間位置數(shù)據(jù)庫中規(guī)則出現(xiàn)的頻率,置信度表示規(guī)則的可行程度。
2)尋找強(qiáng)關(guān)聯(lián)規(guī)則的實(shí)現(xiàn)算法[12]
算法名稱:AssociationRules
輸入:空間關(guān)系數(shù)據(jù)表,支持度閾值minsup,置信度閾值minconf;
輸出:滿足支持度(minsup)和置信度(minconf)的空間位置關(guān)系關(guān)聯(lián)規(guī)則。
算法中FIND_FREQUENT_1-ITEMSETS()是掃描整個關(guān)系數(shù)據(jù)表,統(tǒng)計每個item的支持?jǐn)?shù)和支持度,將支持度>=minsup的放入L1中;apriori_gen()是對項目集進(jìn)行組合,生成候選集Ck;sub set()是對數(shù)據(jù)關(guān)系表中的每個關(guān)系,找出所有候選集,放入Ct;genrules()設(shè)計成一個產(chǎn)生規(guī)則的遞歸函數(shù)。
為了得到場景的高層潛在語義,需要得到場景實(shí)物的分類屬性,為此需要計算場景實(shí)物名稱與標(biāo)準(zhǔn)分類庫之間的語義相似度。本文采用了比較典型的通用本體庫和Rodriguez和Egenhofer方法[13-16]。對于一個實(shí)物的名稱C,首先計算其在Word Net庫中的信息量(Information Content,IC)值,如公式(8)所示。
其中,hypo返回給定概念的下位詞量,maxwn是分類中概念的最大數(shù)量,歸一化處理后,IC∈[0,1],檢索詞Ci與模型庫語義樹某節(jié)點(diǎn)Cj的語義相似度用式(9)計算。
模型庫語義樹采用PSB(PrincetonShape Benchmark)標(biāo)準(zhǔn)庫。
實(shí)物分類的語義檢索從語義樹的葉子節(jié)點(diǎn)開始檢索,根據(jù)語義相似度找到匹配的實(shí)物名稱,根據(jù)其父節(jié)點(diǎn)或祖父節(jié)點(diǎn)得到實(shí)物的類別。
語義層為多維詞組,詞組的中文語法規(guī)則為:{高層潛在語義+場景類別+(主要場景實(shí)物+謂語+賓語)(可缺?。﹠。
前面介紹了四層場景語義樹相關(guān)具體步驟的實(shí)現(xiàn)方法,現(xiàn)在介紹語義樹分類模型的構(gòu)建算法。
名稱:Produce_four_layer_semantic_tree()
輸出:該類場景的四層場景語義樹分類模型。
1)開始周期為n的循環(huán);
2)構(gòu)建視覺圖像特征層:在每類場景中,統(tǒng)計該場景樣本中各種概念單詞出現(xiàn)的頻率,設(shè)Th為閾值參數(shù),選擇概念單詞出現(xiàn)頻率高于該閾值的場景實(shí)物的特征按照以下方法建立葉節(jié)點(diǎn)。視覺層的葉節(jié)點(diǎn)為三元組元素,,其中為場景實(shí)物的顏色特征向量,為場景實(shí)物的顏色層次特征向量,為對象的輪廓特征向量,(同類場景概念單詞的求交集不重復(fù)構(gòu)建);
3)構(gòu)建Tree4的父節(jié)點(diǎn)(概念層);
4)以場景中語義級別最高(以概念單詞的詞頻和占場景面積大小為評價依據(jù))的概念單詞作為參照物,計算場景實(shí)物之間的位置(方向、拓?fù)?、距離)關(guān)系,并進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘;
6)構(gòu)建語義層Tree1={Tk},語義層為多維詞組,詞組的中文語法規(guī)則為:{高層潛在語義+場景類別+(主要場景實(shí)物+謂語+賓語)(可缺?。?。
對于測試用的一幅新圖,對其進(jìn)行圖像分割后,首先提取其顏色、顏色層次圖、對象輪廓等參數(shù)。通過對四層語義樹葉節(jié)點(diǎn)的檢索,得到概念單詞并計算概念單詞頻率分布向量。按5.1節(jié)提供的方法得到概念單詞的空間位置關(guān)系向量,按6.1提供的方法計算出高頻率概念單詞的高層潛在分類屬性。設(shè)Wfrequency為概念單詞頻率分布向量,Sfrequency為概念單詞空間位置關(guān)系向量,則語義特征Semantic_feature的表示公式為:
其中ω1,ω2為經(jīng)驗權(quán)值系數(shù)。
對于分類模型和測試圖像均可以用式(11)計算其語義特征,判斷測試圖像屬于哪一類則用χ2相似度來進(jìn)行語義特征之間的比較,具體實(shí)現(xiàn)如公式(12)。
公式中的h是測試樣本的語義特征,Hi是某一類分類模型的語義特征,K表示語義特征的維數(shù),判斷的分類規(guī)則是χ2越小,h則屬于該Hi類圖像。
趙理君[6]在其綜述中指出,常用的場景分類庫如表1所示。從表中可以看出,F(xiàn)P是目前比較經(jīng)典的場景分類數(shù)據(jù)集,因為該數(shù)據(jù)集分出了13類場景,而其他的場景分類只有8類,LF場景庫還是專門針對運(yùn)動場景。但FP提供的是灰度圖像,不能滿足本文方法提取顏色直方圖和顏色層次圖的需要,故采取的策略是借鑒FP數(shù)據(jù)庫的場景類別,自己建立場景分類的測試庫,圖像來源包括Corel圖像集和百度搜索引擎,這樣可以保證測試樣本的普適性。實(shí)驗選擇了12類場景,每類場景400幅圖像,其中300幅用于建立對應(yīng)場景的場景語義樹,另100幅用于測試檢驗。
表1 典型的場景分類數(shù)據(jù)庫
實(shí)驗1:為了驗證算法的有效性,對各類場景做如下編號:臥室(1),高樓(2),街道(3),郊區(qū)住房(4),鄉(xiāng)村(5),辦公室(6),停車場(7),高速公路(8),商場(9),住宅小區(qū)(10),廚房(11),起居室(12)。為了進(jìn)行功能驗證和對比實(shí)驗,所有的程序都用matlab-R2009a實(shí)現(xiàn),測試在一臺配置為(CPUAMD 3600+2.00 GHz,內(nèi)存1.00G)的PC機(jī)上進(jìn)行。圖4是各種場景對應(yīng)的識別率直方圖。
從圖4中不難看出,在12類場景中,分類準(zhǔn)確率較低的是商場(9),起居室(11),廚房(12)等室內(nèi)的場景,原因是這些場景中對象數(shù)目多而且有比較復(fù)雜的位置重疊關(guān)系,所以分類準(zhǔn)確率較低,提高其分類準(zhǔn)確率需要底層圖像特征的處理技術(shù)的提升。
實(shí)驗2:為了驗證所提出的新方法與傳統(tǒng)算法相比場景語義識別能力是否提高,選擇了3個傳統(tǒng)的場景分類方法與本文提出的方法進(jìn)行了對比實(shí)驗,訓(xùn)練樣本容量為12×300=3 600幅場景圖片。實(shí)驗主要從平均分類準(zhǔn)確率,計算時間和高層語義描述能力3個方面進(jìn)行了對比,表2給出了實(shí)驗結(jié)果。
圖4 每類場景的分類準(zhǔn)確率
本文提出的方法的分類模型在構(gòu)建視覺特征層時,對每類場景概念單詞的選擇設(shè)置了閥值,壓縮了圖像的描述。而各類場景概念單詞不重復(fù)構(gòu)建原則(即求交集)也壓縮了圖像描述。與基于底層分類特征(簡稱ILF)的場景分類方法相比,本文提出的方法在實(shí)現(xiàn)概念單詞提取時,不需要象ILF方法那樣對樣本庫中每幅圖像進(jìn)行遍歷比對(語義相似度計算是少數(shù)幾次的計算,時間可以忽略)。所以,本文方法的時間復(fù)雜度理論上應(yīng)低于ILF方法,如文獻(xiàn)[4-5]中的方法。本文的方法充分考慮了圖像的底層特征和概念單詞的空間位置關(guān)系,所以識別率應(yīng)高于ILF方法和基于視覺詞包(BVW)模型方法。
從表2中的實(shí)驗結(jié)果也可以看出,本文提出的方法平均分類準(zhǔn)確性比ILF方法提高了7%,比BVW方法高10%以上。由于本文的方法采用的壓縮存儲結(jié)構(gòu),比ILF方法計算時間節(jié)約了約30%,而且具有了場景語義描述和高層潛在語義描述的能力,這是傳統(tǒng)方法所不具備的優(yōu)勢。
表2 各種識別方法性能對比
論文提出的方法實(shí)現(xiàn)了場景分類和語義描述,平均識別率約為79.3%,分類準(zhǔn)確率較低的是商場,起居室,廚房等室內(nèi)的場景,原因是這些場景中對象數(shù)目多而且有比較復(fù)雜的位置重疊關(guān)系。與傳統(tǒng)的ILF方法相比,本文提出的方法平均分類準(zhǔn)確性提高了7%,計算時間節(jié)約了約30%,識別率明顯高于BVW方法,而且具有了場景語義描述和高層潛在語義描述的能力。
將來的工作應(yīng)放在3個方面:1)如何提高底層視覺特征提取的準(zhǔn)確性,以提高復(fù)雜室內(nèi)場景的分類識別率;2)在大樣本的情況下,場景分類的計算時間復(fù)雜度還是偏大,需要降低1至2個數(shù)量級才能達(dá)到實(shí)時性的要求,將來的工作應(yīng)關(guān)注如何降低算法的時間復(fù)雜度,以達(dá)到工程應(yīng)用中實(shí)時性的要求。3)目前的方法缺乏動態(tài)場景的描述能力,這也是將來的研究方向之一。
[1]Datta R,Joshi D,Li J,et al.Image retrival:ideas,influences,and trends of the new age[J].ACM Computing Surveys,2008,40(2):1-60.
[2]Fei-fei L,Perona P,A Bayesian hierarchical model for learning natural scene categories[C]//IEEE computer Society Conference on Computer Vision and Pttern Recognition,Washington,DC,USA,2005:524-531.
[3]Mikolajczyk K,Schmid C.A performance evaluation of local descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630.
[4]Lazebnik S,Schmid C,Ponce J.Beyond bags offeature:Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recogintion ,New York City,USA,2006:2169-2178.
[5]Wu Jian-xin,Rehg J M.Where am I:Place instance and category recognition using spatial using spatial PACT[C]//ComputerVisionandPatternRecogintion,Anchorage,Alaska,2008:24-26.
[6]趙理君,唐娉,霍連志,等.場景分類中視覺詞包模型方法綜述[J].中國圖象圖形學(xué)報,2014,19(3):333-343.
[7]王宇新,郭禾,何昌欽,等.用于圖像場景分類的空間視覺詞袋模型[J].計算機(jī)科學(xué),2011,38(8):265-268.
[8]陳坤,馬燕,李順寶.基于直方圖和模糊C均值的彩色圖像分割方法[J].計算機(jī)應(yīng)用與軟件,2012,29(4):256-259.
[9]伊力哈木·亞爾買買提.基于粒子濾波的彩色圖像輪廓提取算法研究[J].計算機(jī)仿真,2013,3(15):15-20.
[10]Roop K,Goyl.Max J.CA92373-8100.USA Similarity of cardinal Directions[J].Computer Science ,2001,21(21):36-55.
[11]沈敬偉,溫永寧.時空拓?fù)潢P(guān)系描述及其推理研究[J].地理與地理信息科學(xué),2010,26(6):1-5.
[12]李德毅.不確定性人工智能[M].北京:國防工業(yè)出版社,2005.
[13]Candamo J,Shreve M,Goldgof D B,et al.Understanding transit scenes:A survey on human behavior-recognition algorithms[J].IEEE Trans.Intell.Transp.Syst,2010,11(1):206-224.
[14]R.Poppe.A survey on vision-based human action recognition[J].Image Vision Compute.,2010,28:976-990.
[15]ZHANG Lu-ming,HAN Ya-hong.Discovering discriminative graph lets for aerial image categories recognition[J].IEEE Transactions on Image Processing,2013,2(12):5071-5083.
[16]LIU Shuo-yan,F(xiàn)ENG song-he.Discriminating semantic visual words for scene classification[J].ICIE Trans.INE&SYST,2010,93(6):1580-1588.
The scene semantic recognition method based four layers treelike semantic model
LI Min1,2,CHEN Yan-ping1,SONG Yue-cong1
(1.Mian Yang Normal University Information Department,Mianyang621000,China;2.5Institute,China Academy of Engineering Physics,Mianyang621000,China)
The main ways of scene classification are based low-level image feature and based bag-ofvisual-words,the former lack the ability of semantic description and has large time complexity,the latter has low recognition rate.A new way of scene semantic recognition based four layers treelike semantic model is purposed by using the advantage of the two methods for reference.The four layers semantic model includes visual layer which is the low-level image feature and the concept layer which is the name of scene entity and relation layer and semantic layer.The visual layer is obtained by extracting the color and color gradation and outline of scene entity in training sample.The concept layer is constituted by intersection of the same kind scene entity name which is concept words.The relation layer is obtained by counting the frequency of concept words and data mining of concept words space location relationship association rules.The scene high level semantic is gotten by calculating the semantic similarity between PSB standard semantic attribute classification trees and key concept words.After calculating the lowlevel image features,the concept words are gotten by searching visual layer.The scene classification is obtained by searching the frequency and space location relationship association rules of concept words.The scene semantic recognition result is constituted by scene classification and scene high level semantic and concept words.The experiments show that the new way can improve the recognition rate and reduce the recognition time and has the ability of high level semantic description.
scene semantic recognition;four layers treelike semantic model;position relation association rules;scene high level semantic;concept word frequency
TN0
A
1674-6236(2017)23-0024-06
2016-12-01稿件編號:201612001
四川省教育廳資助項目(14ZA0257,142A0260);綿陽師范學(xué)院資助項目(2011A13,2013A10)
李敏(1975—),男,四川三臺人,博士研究生,副教授。研究方向:模式識別,人工智能。