楊建秀,康占成
(山西大同大學物理與電子科學學院,山西大同037009)
非監(jiān)督學習圖像層次組合模型的研究算法
楊建秀,康占成
(山西大同大學物理與電子科學學院,山西大同037009)
針對傳統(tǒng)的監(jiān)督學習圖像模型對訓練樣本要求苛刻的問題,本文提出一種非監(jiān)督學習算法,該算法不僅對訓練樣本要求簡單,而且學習到的層次組合模型由能在位置和方向進行擾動Gabor小波組成,是一種可變形模板,因此一定程度上提高定位及分割算法在物體發(fā)生形變情況下的魯棒性。經過多組實驗結果表明,本文所提出的層次組合模型能高效地解決目標在發(fā)生形變、存在遮擋以及復雜背景下的定位分割問題。
非監(jiān)督;層次組合;變形;分割
近年來,層次組合模型在圖像建模領域得到廣泛的關注,如文獻[1-4]。許多現(xiàn)有學習模型的方法主要是利用給定的目標邊界框進行監(jiān)督[4-5]或弱監(jiān)督[1-2]標記大致對齊的圖像得到,這些監(jiān)督學習算法對訓練圖像要求極為苛刻;在非監(jiān)督的學習算法中,文獻[6]學習的模型只是單層的變形模板,文獻[7]采用大量同種類型的目標圖像訓練而成一組HOG特征模型,該算法對感興趣物體的檢測及分割提供較好的模型,但由于大量樣本的訓練導致效率降低,而文獻[8]可以從單一圖像中重復提取目標模式,但僅學習到簡單的剛性模板,對解決目標在發(fā)生形變、存在遮擋以及復雜背景下的定位分割存在一定的困難。針對上述問題,本文提出一種非監(jiān)督方法學習層次組合模型,不僅對訓練樣本要求簡單無需標注,而且每個組合模型由在空間中可相對旋轉、縮放、發(fā)生形變的各種部件模板組成,同時每個部件模板由可在位置和方向進行局部擾動的Gabor小波組成。因此該模型對目標在發(fā)生形變或存在阻擋等情況具有一定魯棒性和高效性,為解決復雜環(huán)境下形變目標定位及分割問題提供了一條新思路,同時對領域自適應和圖像協(xié)同分割方面具有廣泛的應用前景。
圖像I可用層次組合模型表示,如圖1所示。每一層的組合模板都可分解為一組可形變的局部(部件)模板,而局部模板又進一步分解成一組可移動的Gabor小波。模型中不同層的代表性單元由分層字典Δ(j)構成。
Δ(5)是層次組合模板的字典,該層模板能夠捕捉樣本圖像中頻繁出現(xiàn)的模式。
Δ(4)包含了Δ(5)圖像中平移、旋轉和縮放的層次組合模板。對于圖像I,將其編碼為K個活動模板,這些模板都可以進行平移、旋轉及縮放尺寸,從而選擇合適的模板構成Δ(5)圖像。設是tk類型中第k個活動模板,為幾何屬性,其中分別是對應的位置、尺寸和方向。這樣集合形成一個等價類H(t)。Δ(4)是所有活動模板的并集:
Δ(3)表示為Δ(4)中可活動層次組合模板的部件模板,設P(t,v)為中第v個部件模板,其中為是部件模板的個數(shù),是第v個部件模板的幾何屬性,分別為對應的位置,大小和方向。這樣對每個層次組合模板可通過分配9個非重疊部件模板設置在3×3的網格中從而確定模型結構。Δ(3)是所有部件模板集合:
Δ(2)包括所有可變形的部件模板??紤]到不同圖像中物體的形變,允許在Δ(3)中每個P(t,v)都可以平移和旋轉一個小的有界范圍。設在有限的范圍內變化,這樣對于Δ(3)中每個P(t,v)都有一組可變形的部件模板。 ?P(t,v)表示一定變化范圍內P(t,v)的等價類,Δ(2)是所有可變形部件模板的集合:
Δ(1)包含Δ(2)中可變形部件模板的Gabor小波可變形部件模板可分解為一組Gabor小波:,其中B是文獻[9]的活動基模型中不同位置和方向的Gabor小波基元。因此,Δ(1)是一組由Δ(2)分解的Gabor小波元素:
Δ(0)包含Δ(1)中可變形Gabor小波。對于每一個小波,并且允許在有限范圍內平移和旋轉,得到一個偏移設置,其中。因此 Δ(0)是所有可變形Gabor小波的集合:
其中每個Gabor小波都可以平移和旋轉。
圖1 層次組合模型
圖像編碼過程中,假定模板字典和相應參數(shù)已知固定。首先,利用下面自底向上的模板匹配子過程計算一系列模板匹配分數(shù)圖SUM1,MAX1,SUM2,MAX2,SUM3:UP-1:計算圖像I與Gabor小波字典的匹配分數(shù)
UP-2:求局部最大值MAX1 maps:
UP-3:計算部件模板P(t,v)的匹配分數(shù)SUM2 maps,對于t=1,…,T,v=1,…,V:
其次,設定圖像I中第k個活動形狀模板為H(tk),H(tk)的幾何屬性和部件模板P(tk,v)可利用自上而下的模板定位子過程確定:
Down-1:確定圖像I中層次組合模板H(tk)的位置:
Down-2:確定圖像I中部件模板P(tk,v)的位置:,這樣,模板匹配追蹤算法可以用順序的選擇層次組合模板編碼圖像I來實現(xiàn)。在最初的matching pursuit算法中,該算法允許在編碼圖像I的K層組合模板之間有一些有限的重疊,如果沒有重疊,圖像I的一些顯著模式會通過模板間間隙落下;如果有太多的重疊,學習的有些部件模板是多余的,而真正需要的是許多不同的視覺模式。因此針對此弊端,本文提出共享匹配追蹤算法。
Step 1:對于所有l(wèi)及u=1,…,U,初始化樣本的濾波響應:,并設置i←0 。
Step 2:設,利用選擇下一個基函數(shù),其中maxδl是一定擾動范圍內的局部最大共享值。
Step 3:對于u=1,…,U,給定lt,v,i,通過檢索Step 2的局部最大共享值推算出擾動的范圍:,令。如果相關系數(shù)則令,從而濾掉重復值(默認值:ε=0.1認為Gabor小波近似正交)。
Step 4:計算λt,v,i通過最大似然方程:,同時通過能夠獲得相應的Zt,v,i,其中h()是關于局部能量單調遞增的sigmoid函數(shù)。
Step 5:如果則停止,否則返回Step 2。
圖2給出了本文方法在圖像表示中的實驗結果。(a)圖為迭代10次學習的層次組合模型,(b)圖為具有重復模式的單一圖像學習的層次組合模型,(c)圖為同一種類圖像學習的層次組合模型,(d)圖為不同類別圖像學習的層次組合模型。
圖2 非監(jiān)督算法學習層次組合模型的實驗結果
本文算法對協(xié)同分割無任何額外的監(jiān)督,學習的層次組合模型對協(xié)同分割提供重要的自上而下的信息。圖3所示為兩組采用層次組合模型實現(xiàn)的圖像編碼定位和協(xié)同分割的實驗結果,其中左列圖表示檢測圖像,中間列圖表示圖像編碼定位的結果,右列圖表示目標分割的結果。針對同一類物體的圖像分割實驗數(shù)據1表明,本文算法大大提高了圖像分割的平均精度,和文獻[10][11]相比精度提高了1.9%和2.1%。本文實驗是在Windows 7系統(tǒng)Matlab R2010a,Visual 2008 C++compiler環(huán)境下實現(xiàn)的。
圖3 圖像編碼和分割的實驗結果
表1 實驗統(tǒng)計性能分析
本文利用非監(jiān)督算法對未標注的樣本學習得到對應的層次組合模型,針對傳統(tǒng)的訓練樣本算法,該算法具有高效性;同時得到的層次組合模型可以在其位置和方向上進行局部擾動,提高目標定位分割的準確度。實驗結果表明,本文算法該方法不受光照、視角、類間變化的影響,適用于對復雜場景下結構相對復雜目標自動檢測分割,準確率高、魯棒性好、效率高,具有較強的實際應用價值,為中高級計算機視覺問題提供了良好預處理手段。
[1]Fidler S,Leonardis A.Towards scalable representations of object categories:Learning a hierarchy of parts[C].Computer Vision and Pattern Recognition,2007.
[2]Si Z Z,Zhu S C.Learning and-or templates for object modeling and recognition[J].IEEE Transactions Pattern Analysis and Ma?chine Intelligence,2013,35(9):2189-2205.
[3]Todorovic S,Ahuja N.Unsupervised category modeling,recognition,and segmentation in images[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2008,30(12):2158-2174.
[4]Zhu L,Chen Y,Yuille A,et al.Latent hierarchical structural learning for object detection[C].Computer Vision and Pattern Recogni?tion,2010.
[5]Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[6]Hong Y,Si Z Z,Hu W,et al.Unsupervised learning of compositional sparse code for natural image representation[J].Quarterly of Ap?plied Mathematics,2013,23:32-37.
[7]Singh S,Gupta A,Efros A A.Unsupervised discovery of mid-level discriminative patches[C].European Conference on Computer Vi?sion,2012.
[8]Liu J,Liu Y.Grasp recurring patterns from a single view[C].Computer Vision and Pattern Recognition,2013.
[9]Wu Y N,Si Z Z,Guo H F,et al.Learning active basis model for object detection and recognition[J].International Journal on Com?puter Vision,2010,90(2):198-235.
[10]Dai J,Wu Y N,Zhou J,et al.Cosegmentation and cosketch by unsupervised learning[C].International Conference on Computer Vision,2013.
[11]Kuettel D,Guillaumin M,Ferrari V.Segmentation propagation in imagenet[C].European Conference on Computer Vision,2012.
〔責任編輯 高彩云〕
Unsupervised Learning of Hierarchical Compositional Models in Image
YANG Jian-xiu,KANG Zhan-cheng
(School of Physics and Electronics Science,Shanxi Datong University,Datong Shanxi,037009)
Because the traditional supervised learning algorithm is rigid to training images,this paper proposed an unsupervised method for learning hierarchical compositional models for representing natural images.The method is very simple to training images,and each model is in turn a composition of Gabor wavelets that are allowed to shift their locations and orientations,so it is robust when target occurred a little deformation or the presence of occlusion.The experimental results show that hierarchical compositional models can solve the problem of localization and segmentation when the target is partly changed,occlusive or in complex background.
unsupervised;hierarchical compositional;deformation;segmentation
TP391.41
A
1674-0874(2015)03-0028-04
2015-02-25
楊建秀(1985-),女,山西朔州人,碩士,助教,研究方向:從事圖像處理、統(tǒng)計學習模式研究。