張榮國 曹俊輝 胡 靜 張 睿 劉小君
圖像分割將圖像劃分為幾個不重疊且一致的區(qū)域,是計算機視覺中目標分類和識別的關鍵步驟.在現(xiàn)有圖像分割算法中,聚類因其高效、快速的特點,成為常用的圖像分割方法之一[1].由于數據采集技術的發(fā)展,數據來自多個數據源、或可以由多個特征表示,使多視圖聚類成為聚類研究的重要方向之一[2].目前,多視圖聚類面臨的問題是如何充分利用視圖的多樣性并保持多個視圖的一致性,通過多個視圖信息獲得良好的聚類結果.近年來,研究人員提出多種多視圖聚類算法,包括基于圖的多視圖聚類算法、基于矩陣分解的多視圖聚類算法和基于深度學習的多視圖聚類算法.
在基于圖的多視圖聚類算法中,為了去除原始高維數據的噪聲和冗余,Zhu等[3]提出OMSC(One-Step Multi-view Spectral Clustering),從低維數據中學習共同親和矩陣.Ren等[4]利用l1范數,提出RAMC(Robust Auto-Weighted Multi-view Clustering).考慮到數據樣本在不同空間的結構關系,胡素婷等[5]提出基于概念分解(Concept Factorization, CF)的顯隱空間協(xié)同多視圖聚類算法(CF-Based Collaborative Multi-view Clustering Algorithm in Visible and Latent Spaces, Co-MVCF),在通過CF保持數據局部結構關系的同時,協(xié)同學習數據樣本在顯式空間和隱式空間的聚類,得到多個視圖之間統(tǒng)一的聚類結果.為了避免兩階段圖聚類算法中的后處理,Pan等[6]提出MCGC(Multi-view Contrastive Graph Clustering),學習拉普拉斯秩約束圖,直接由一致性融合圖獲得聚類結果.Zhong等[7]提出SCGLD(Simultaneous Con-sensus Graph Learning and Discretization),將共識圖學習和離散化整合到一個統(tǒng)一的框架中,避免后續(xù)的次優(yōu)聚類性能.目前,避免后處理的另一個研究方向是利用非負矩陣的可解釋性,即結合圖學習和矩陣分解.Kuang等[8]結合譜聚類與非負矩陣分解(Nonnegative Matrix Factorization, NMF),提出Sym-NMF(Symmetric NMF),在線性流形數據和非線性流形數據上均獲得較優(yōu)的聚類結果.受到文獻[8]的啟發(fā),Hu等[9]提出NESE(Multi-view Spectral Clus-tering via Integrating Nonnegative Embedding and Spec-tral Embedding),同時學習一個一致性非負嵌入矩陣和多個光譜嵌入矩陣,非負嵌入矩陣直接揭示聚類結果.
在基于矩陣分解的多視圖聚類算法中,為了保留流形的局部幾何結構,Khan等[10]提出MCNMF(Multi-view Data Clustering via NMF with Manifold Regularization),保留數據空間的局部幾何結構,在考慮到多個視圖的不同權重的同時,學習共同聚類解.由于NMF對原始數據矩陣具有非負性約束,學者們提出許多改進NMF的策略,Ding等[11]提出單側正交NMF的概念,通過對因子矩陣施加正交約束,可得到唯一的因子解.為了提高大規(guī)模多視圖聚類的效率,Yang等[12]提出FMCNOF(Fast Multi-view Clustering Model via Nonnegative and Orthogonal Factorization),結合基于錨圖的算法與矩陣分解的算法,提高大規(guī)模多視圖的聚類效率.
在基于深度學習的多視圖聚類算法中,為了充分利用多視圖圖數據中的嵌入特征,Zhang等[13]提出MDGRL(Unsupervised Multi-view Deep Graph Repre-sentation Learning),利用多個基于圖卷積網絡的自動編碼器挖掘局部結構,并融入全局結構中.Cai等[14]提出GRAE(Graph Recurrent AutoEncoder),利用全局圖卷積網絡自編碼器和局部圖卷積網絡自編碼器,同時挖掘不同視圖的全局結構和唯一結構,再融合為自適應加權融合的自訓練聚類模塊.Xia等[15]提出MVGC(Multi-view Graph Embedding Clus-tering Network),使用自表達方案對多個圖卷積網絡自編碼器生成的公式表示施加對角約束,獲得較優(yōu)的聚類能力.
基于圖的多視圖聚類算法在挖掘數據非線性結構上具有優(yōu)勢,但存在需要后處理和時間效率較低等問題.在基于矩陣分解的多視圖聚類算法中,當原始數據為非線性結構時,無法獲得良好的聚類性能,并且忽略數據的局部幾何結構.基于深度學習的多視圖聚類算法聚類能力較強,但在學習和訓練階段耗時較大.為此,本文提出基于非負正交矩陣分解的多視圖聚類圖像分割算法(Non-negative Orthogonal Matrix Factorization Based Multi-view Clustering Image Segmentation Algorithm, NOMF-MVC).首先,考慮到原始高維數據中存在噪聲和冗余問題,通過流形學習非線性降維方法,將高維數據映射到低維空間中,在低維空間中得到每個視圖的譜嵌入矩陣.然后,構建每個視圖譜嵌入矩陣的譜塊結構,并將不同視圖譜嵌入矩陣的譜塊結構通過設計的自適應權重學習到具有一致性結構的圖矩陣中.最后,通過非負正交分解將學習到的一致性圖矩陣分解為正交矩陣和非負矩陣,得到的非負矩陣直接揭示待分割圖像聚類結構.在多視圖數據集和圖像數據集上進行對比實驗,驗證本文算法在聚類性能和圖像分割上具有一定優(yōu)勢.
本文采用流形學習中拉普拉斯特征映射[16]進行圖矩陣的構造,拉普拉斯特征映射是一種非線性降維方法,能夠從高維數據中發(fā)現(xiàn)低維流形結構,得到高維數據和低維數據之間的映射關系.
拉普拉斯特征映射算法在高維空間中通常使用K-近鄰圖描述局部數據點之間的結構.若數據點xi與數據點xj互為近鄰,則采用高斯核函數
定義不同數據點之間的相似性,其中δ表示一個比例參數.若數據點xi與數據點xj不是近鄰點,則si,j=0.
設降維后的矩陣為
Y=[Y1,Y2,…,Yn]∈Rk,
n表示數據點,k表示降維后低維空間的維數.為了表示數據映射到低維空間中時依然可以保留在高維空間中的結構,設目標函數:
其中,yi、yj表示降維后的數據點,si,j表示數據點xi和xj之間的相似性,S表示鄰接矩陣.
設
D=diag(d1,d2,…,dn)
為度矩陣,其中
表示數據點i的度,
L=D-S
表示拉普拉斯矩陣,為了使最終所有節(jié)點的嵌入向量能夠盡可能填充降維后的空間,添加約束條件
YTDY=I,
其中I表示單位矩陣.根據拉普拉斯矩陣的性質,有
求解上式,轉化為廣義特征值分解的問題:
D-1LY=λY.
對上式中D-1L進行特征值分解,根據拉普拉斯矩陣最小特征值為0時,對應的特征向量為全1單位向量的性質.因此,取m個最小的非零特征值對應的特征向量組成降維后的矩陣Y.
非負矩陣分解(NMF)[17]將一個非負矩陣分解成兩個低秩的非負矩陣的乘積,可以提取數據內部特征并實現(xiàn)降維,從而節(jié)省存儲空間和計算資源.NMF可表示為
其中:V∈Rn×m表示原始數據矩陣,具有非負性;W∈Rn×k、H∈Rk×m表示分解后的低秩矩陣,約束為非負矩陣,W表示基礎矩陣,H表示系數矩陣,n表示數據點的個數,m表示原始數據點的維數,k表示分解后數據點的維數,一般情況下,k?m.
本文提出基于非負正交矩陣分解的多視圖聚類圖像分割算法(NOMF-MVC),先使用流形學習獲取圖像每個視圖的譜嵌入矩陣,構建譜塊結構,進而通過設計的自適應權值將其融合成一致性圖矩陣.分解圖矩陣,獲取非負嵌入矩陣,由此獲得多視圖特征聚類,映射后得到圖像分割結果.
2.1.1 多視圖流形學習譜嵌入矩陣
設X1,X2,…,Xv為v個視圖的數據矩陣,
為第v個視圖的數據矩陣,其中,n表示數據點的個數,dv表示第v個視圖的維數.降維后的數據矩陣為Y1,Y2,…,Yv,
為第v個視圖降維后的數據矩陣,其中mv表示第v個視圖降維后的維數.則多視圖流形學習的目標函數可表示為
s.t. (Yv)TDvYv=I,
(1)
Lv=Dv-Sv
為拉普拉斯矩陣,將式(1)轉化為求解廣義特征值分解的問題:
(Dv)-1LvYv=λYv.
(2)
對式(2)中的(Dv)-1Lv進行特征值分解,取m個最小的非零特征值對應的特征向量組成每個視圖的譜嵌入矩陣Yv,m表示降維后低維空間的維度.
2.1.2 譜嵌入矩陣的譜結構融合
考慮到不同視圖經過非線性降維后數據之間的結構會有差異,若在此階段直接將不同視圖的譜嵌入矩陣Yv融合為一致性圖矩陣,會造成數據信息受損,不能真實反映數據間的關系,而每個視圖譜嵌入矩陣的譜塊結構Yv(Yv)T為嚴格的塊對角矩陣.圖1表示從ORL數據集的4個視圖上得到每個視圖的譜塊結構Yv(Yv)T.
(a)全局特征 (b)局部二值模式(a)GIST (b)Local binary patterns
(c)方向梯度直方圖 (d)灰度共生矩陣(c)Histogram of oriented gradient(d)Grey Level co-occurrence matrices圖1 ORL數據集上4個視圖的譜塊結構Fig.1 Spectrum block structure of 4 views on ORL dataset
由圖1可以看出,每個視圖的譜塊結構大致相同,由譜塊結構可以挖掘不同視圖間潛在的一致類簇結構.因此,在學習一致性圖矩陣之前構建每個視圖譜嵌入矩陣的譜塊結構是必要的.本文通過最小化每個視圖的譜塊結構Yv(Yv)T與一致性圖矩陣S之間的差值實現(xiàn)譜結構的融合.目標函數如下:
(3)
2.1.3 自適應權重一致性圖矩陣生成
由圖1可以看出,不同視圖的重要性存在差異,因此應為每個視圖設計自適應權值δv(v=1,2,…,V).視圖中包含的有用信息越多,賦予的權值越大,反之,賦予越小的權值.通過最小化一致性圖矩陣S與不同視圖譜結構塊Yv(Yv)T之間的距離差值學習一致性圖矩陣S,目標函數可以表示為
(4)
其中:δv表示每個視圖的權值,δT1=1,0≤δv≤ 1為自適應權值δv的約束條件,δ表示元素為所有視圖權值的列向量,1表示元素全為1的列向量;si,j表示si的第j個元素;si∈Rn×1表示列向量;S表示一致性圖矩陣.
視圖的自適應權值δv由一致性圖矩陣S與不同視圖譜結構塊Yv(Yv)T的距離差值動態(tài)獲取:差值越小,表明兩者之間越相似,應賦予越大的權值;反之,賦予越小的權值.因此,自適應權值δv可以定義為
(5)
如果權值δv被固定為式(5),求解問題(4)可以等價于求解如下問題:
(6)
式(6)的拉格朗日函數為
(7)
其中,θ(Λ,S)表示由約束S≥0,1Tsi=1導出的形式化術語,Λ表示拉格朗日乘子.
對式(7)中的變量S求導,將導數設為0,可表示為
(8)
其中δv可由式(5)表示.
如果對式(4)的拉格朗日函數求導,同樣可得到式(8),因此式(4)等價于式(6).式(5)中每個視圖的權值由一致性圖矩陣S與不同視圖譜結構塊Yv(Yv)T之間的距離誤差動態(tài)獲取,使每個視圖的權重可以自動分配.
2.1.4 一致性圖矩陣聚類
由于NMF約束輸入矩陣和輸出矩陣均為非負矩陣,存在一定的局限性,Ding等[11]提出單側正交NMF的概念,將一個數據矩陣分解為兩個因子矩陣,對分解后的矩陣分別施加正交約束和非負約束.分解后的正交矩陣可以保證解的唯一性,非負矩陣具有聚類可解釋性,可作為聚類指標矩陣.單側正交NMF可表示為
其中,X∈Rn×m表示原始數據矩陣,H∈Rn×k表示非負矩陣,F∈Rm×k表示正交矩陣,n表示數據點的個數,m表示原始數據點的維數,k表示分解后數據點的維數,一般情況下,k?m.
由式(4)得到一致性圖矩陣后,對其進行單側正交NMF,直接揭示聚類結果,避免后處理帶來的不確定性.結合式(4),結合一致性圖矩陣學習和非負正交矩陣分解的目標,對生成的一致性圖矩陣分解,最終的目標函數為:
(9)
其中:S表示由式(4)得到的一致性圖矩陣;F表示矩陣分解后得到的正交矩陣,每列表示一個基本向量;H表示矩陣分解后得到的非負矩陣,具有可解釋性,故最終的聚類結果由非負矩陣直接獲得;I表示單位矩陣.
目標函數(9)中第一部分首先構建每個視圖譜嵌入矩陣的譜塊結構Yv(Yv)T,然后將不同視圖譜嵌入矩陣的譜塊結構通過設計的自適應權重學習到具有一致性圖矩陣S中.第二部分對一致性圖矩陣進行非負正交分解,通過非負正交約束重新構造一致性圖矩陣,最終獲得的非負矩陣作為聚類指標矩陣,直接得到聚類結果,進而獲得圖像分割結果.通過最小化目標函數的這兩部分,使兩部分相互學習,避免以往譜聚類后處理中聚類結果會受到初始一致性相似矩陣質量影響的問題.
目標函數(9)中有3個變量.由于該目標函數具有非凸性,很難直接求解.因此,采用固定其它變量以更新一個變量的方法,求解該目標函數的最優(yōu)解.優(yōu)化算法主要過程如下.
1)固定變量S和F,更新變量H.當固定一致性圖矩陣S和正交矩陣F時,目標函數(9)可以簡化為
由于正交矩陣F具有正交性,FFT=I,上式可以等價為
則變量H的解可以表示為
H=max(SF,0).
(10)
2) 固定變量S和H,更新變量F.當固定一致性圖矩陣S和非負矩陣H時,目標函數(9)可以簡化為
將上式轉化為矩陣跡的形式:
去掉多項式中全部為固定變量的項,可以轉化為
(11)
其中ST、H為固定變量,因此令
Q=STH,
則式(11)可以表示為
在上式中,設矩陣Q的左奇異值U∈Rn×c和右奇異值V∈Rc×c,若給定一個矩陣M∈Rn×c,那么問題
中變量W的最優(yōu)解為
F=UVT.
(12)
3)固定H和F,更新變量S.當固定非負矩陣H和正交矩陣F時,目標函數(9)可以表示為
將上式表述為矩陣跡的形式:
去掉多項式中全部為固定變量的項,可以轉化為
合并同類項,上式可以轉化為
繼續(xù)轉化為
則獲得變量S的最優(yōu)解:
(13)
NOMF-MVC根據像素特征數據之間的相似性分類,將像素特征數據劃分為不同的組.為此,先將圖像劃分為多個超像素塊[19],提取每個超像素塊的多個不同視圖特征,再進行多視圖聚類和圖像分割.NOMF-MVC具體步驟如下.
算法1NOMF-MVC
輸入待分割圖像,超像素個數n
輸出分割后的圖像
step 1 將圖像劃分為n個超像素.
step 2 提取超像素的多個不同視圖特征作為多視圖數據矩陣Xv(v=1,2,…,V).
step 3 根據式(1)和式(2)計算非線性降維后的譜嵌入矩陣Yv.
step 4 計算每個視圖譜嵌入矩陣的譜塊結構Yv(Yv)T.
step 5 根據式(3)和式(4)得到融合不同視圖譜塊結構后的一致性圖矩陣S.
step 6 根據式(9)得到非負矩陣H和正交矩陣F.
step 7 判斷是否滿足收斂條件.若滿足,轉step 12;否則,轉step 8.
step 8 通過式(10)更新非負矩陣H.
step 9 通過式(12)更新正交矩陣F.
step 10 通過式(13)更新一致性矩陣S.
step 11 轉step 7.
step 12 由非負矩陣H同行不同列的最大值索引得到聚類結果.
step 13 將聚類結果映射到超像素中.
step 14 輸出分割結果圖.
算法1中的時間復雜度主要在step 3中計算變量Yv和step 9中更新變量F,step 3中對(Dv)-1Lv進行特征值分解的時間復雜度為O(n3),step 9中對矩陣STH進行奇異值分解的時間復雜度為O(n3),其中n表示數據量.因此,NOMF-MVC總的時間復雜度為O(2tn3),其中t表示迭代次數.
本文實驗在安裝Windows 10,CPU 2.40 GHz,16 GB RAM的計算機上通過 Matlab 2021a實現(xiàn).
3.1.1 實驗數據集
本文在多視圖數據集COIL20、Outdoor Scene、ORL和圖像數據集Berkeley、COCO上分別進行多視圖聚類實驗和圖像分割對比實驗,驗證NOMF-MVC的聚類性能和圖像分割效果.
COIL20數據集包含1 440幅圖像,分成20組,每組有72幅圖像.Outdoor Scene數據集包含2 688幅圖像,分成8組.ORL數據集包含10組400幅圖像.Berkeley數據集包括500幅圖像,大小為481×321或321×481.COCO數據集包含328 000個影像和2 500 000個標注.
3.1.2 基線算法
為了驗證本文算法的性能,選擇如下7種算法進行對比.
1)NESE[9].將非負嵌入和譜嵌入集成到統(tǒng)一框架中的多視圖聚類算法.
2)S-MVSC(Sparse Multi-view Spectral Clus-tering)[20].從多個視圖中學習具有稀疏結構的一致相似矩陣的多視圖聚類算法.
3)SMVSC(Scalable Multi-view Subspace Clus-tering with Unified Anchors)[21].將錨學習和圖構建結合到一個統(tǒng)一的優(yōu)化框架中的大規(guī)模多視圖聚類.
4)UOMVSC(Unified One-Step Multi-view Spec-tral Clustering)[22].集成光譜嵌入和k-means進入統(tǒng)一的框架,直接獲得離散聚類標簽的多視圖聚類算法.
5)SFFCM(Superpixel-Based Fast Fuzzyc-means)[23].基于超像素的快速FCM聚類的圖像分割算法.
6)RSSFCA(Robust Self-Sparse Fuzzy Clus-tering Algorithm)[24].用于圖像分割的魯棒自稀疏模糊聚類算法.
7)Mask2Former(Masked-Attention Mask Trans-former)[25].能夠處理多種圖像分割任務(全景、實例或語義)的基于深度學習的圖像分割算法.
3.1.3 評價指標
為了驗證算法的有效性, 本文采用邊緣召回率(Boundary Recall, BR)、F1、分割精度(Segmenta-tion Accuracy, SA)[24]、交并比(Intersection Over Union, IOU)、邊緣位移誤差(Boundary Displace-ment Error, BDE)[26]和運行時間這6個評價指標進行驗證.另外,為了驗證本文算法的抗噪魯棒性,選取峰值信噪比(Peak Signal to Noise Ratio, PSNR)作為量化指標.
BR為衡量真值邊界和算法生成邊界之間一致性程度的指標.BR 值越高,生成的分割邊界與真實邊界越接近.
F1是召回率(Recall)和精確率(Precision)的加權調和平均,綜合召回率和準確率的結果,值越大,實驗結果越優(yōu).
SA指正確分類的像素點占總分割像素點的百分比,SA 值越高,分割效果越優(yōu).
IOU指分割結果與真值之間交集與并集的比值.IOU值越大,分割結果越接近真實分割.
PSNR作為評價聚類算法抗噪性能強弱的指標,定義為
其中,均方誤差
Iij表示無噪聲干擾圖像分割結果的像素值,Kij表示噪聲干擾圖像分割結果的像素值,m×n表示圖像大小.PSNR值越大表明聚類分割算法抗噪性能越優(yōu),對噪聲抑制能力越強.
為了更直觀地表現(xiàn)本文算法的聚類性能,在COIL20數據集上,分別給出由本文算法構造的3個單視圖相似矩陣可視化結果和NESE、UOMVSC、NOMF-MVC多視圖融合后的相似矩陣可視化結果.具體如圖2所示,圖中對角線塊表示數據的相似性,對角線塊結構越清晰,表明聚類性能越優(yōu).
由圖2(a)~(c)可見,對角線塊結構較分散,(b)的對角線塊結構比(a)更清晰,表明視圖2的性能優(yōu)于視圖1,也體現(xiàn)出不同視圖之間存在重要性差異.(d)~(f)中對角線塊結構明顯清晰,表明多視圖可以探索出各視圖間的互補信息.對比(d)~(f),發(fā)現(xiàn)(f)的對角線塊最清晰,表明NOMF-MVC能夠探索出各個視圖之間的相關性,獲得最佳的聚類結果.
(a)視圖1 (b)視圖2(a)View1 (b)View2
(c)視圖3 (d)NESE(c)View3
(e)UOMVSC (f)NOMF-MVC圖2 相似矩陣可視化結果Fig.2 Similarity matrix visualization
在多視圖數據集Outdoor Scene上,應用t-SNE(t-Distributed Stochastic Neighbor Embedding)非線性降維技術將高維空間中的數據映射到二維坐標軸上,實現(xiàn)視圖可視化.圖3為降維后的可視化視圖,其中,(a)~(d)為4個單視圖的可視化視圖.將4個單視圖拼接為一個長向量,(e)為拼接后的可視化視圖.(f)為NOMF-MVC多個視圖融合后的可視化視圖.(g)為NOMF-MVC聚類后的可視化視圖.由圖3可見,相比(a)~(d)中的單視圖,(f)中相同顏色的數據點分布在一定區(qū)域內相對集中,表明NOMF-MVC融合后的視圖是基于每個單視圖相似性獲取的.相比(e),(f)中具有相同顏色的數據點分布更集中,表明NOMF-MVC優(yōu)于傳統(tǒng)的拼接方法.相比(f),(g)中具有相同顏色的數據點基本分布在同一個區(qū)域內,表明NOMF-MVC具有良好的聚類性能.
(a)視圖1 (b)視圖2(a)View 1 (b)View 2
(c)視圖3 (d)視圖4(c)View 3 (d)View 4
(e)拼接后視圖 (f)融合后視圖 (g)聚類后視圖(e)Spliced view (f)Fused view (g)Clustered view圖3 降維后的可視化視圖Fig.3 Reduced-dimension visual view
為了在視覺上直觀地對比各算法的分割效果,在Berkeley、COCO數據集上分別選取部分圖像進行圖像分割實驗,8種算法的圖像分割結果如圖4所示.
由圖4可見,S-MVSC和SMVSC需要后處理,聚類結果容易受到初始圖質量的影響,導致在圖像分割時圖像前景輪廓容易受到背景干擾,出現(xiàn)誤分割和過分割的現(xiàn)象.NESE忽略特定視圖嵌入矩陣的信息,只考慮指標矩陣的非負性,聚類性能受到限制,導致在圖像分割中表現(xiàn)不穩(wěn)定,如在圖像80273上出現(xiàn)誤分割現(xiàn)象.UOMVSC整體分割效果較優(yōu),但在保留原始數據框架時受噪聲影響,會出現(xiàn)少量的誤分割現(xiàn)象.RSSFCA考慮到圖像的局部空間信息,能分割出圖像的前景輪廓,但在細節(jié)中信息丟失過多.SFFCM整體分割效果相對較優(yōu),但僅提取直方圖特征,導致細節(jié)部分分割不理想,如在圖像23025上未分割出小女孩的臉部.Mask2Former在Transformer解碼器中使用屏蔽注意力,并使用多尺度高分辨率特征幫助模型分割小區(qū)域,故分割效果較理想.
(a)原始圖像(a)Original images
(b)SMVSC
(c)S-MVSC
(d)NESE
(e)UOMVSC
(f)RSSFCA
(g)SFFCM
(h)Mask2former
(i)NOMF-MVC圖4 各算法的圖像分割結果對比Fig.4 Comparison of image segmentation results of different algorithms
NOMF-MVC在目標和背景相對復雜的圖像上,均能分割出整體輪廓,如圖4(i)所示.黃色方塊標記為表現(xiàn)較好的細節(jié)部分,這是由于NOMF-MVC考慮到圖像數據固有的流形結構,挖掘出數據內部的局部幾何結構,故在細節(jié)分割上表現(xiàn)較優(yōu);在數據融合階段考慮到不同視圖內部結構和重要性的差異,故出現(xiàn)相對較少的細節(jié)丟失現(xiàn)象.
為了定量說明NOMF-MVC的有效性,對上述圖像在BR、F1、SA、IOU、BDE和運行時間上進行對比,結果如表1所示.
表1 各算法的性能指標評估結果對比Table 1 Comparison of performance index evaluation of different algorithms
由表1可以看出,NOMF-MVC的分割效果在總體上表現(xiàn)較優(yōu).在BR和F1上,NOMF-MVC次優(yōu)于Mask2Former,優(yōu)于其它算法.在SA上,NOMF-MVC表現(xiàn)最優(yōu),比Mask2Former提升4.73%,比SMVSC提升10.14%,表明NOMF-MVC在細節(jié)分割上具有較大優(yōu)勢,這是由于本文應用非線性降維方法,充分探索出數據的局部幾何結構,并通過譜塊結構保留數據的局部特征.在BDE上,NOMF-MVC在部分圖像上次優(yōu)于Mask2Former和SFFCM,但SFFCM不穩(wěn)定,如在80273這類圖像上出現(xiàn)邊緣位移誤差較大的現(xiàn)象.在時間效率上,NOMF-MVC是其它算法的1到12倍,表現(xiàn)最優(yōu),這是由于本文的非線性降維方法去除數據冗余,減小數據規(guī)模,另外,非負正交分解方法避免后處理,節(jié)省時間成本,故在保證分割精度最優(yōu)的條件下提高時間效率.
為了進一步驗證NOMF-MVC的有效性,對Berkeley 數據集上的全部500幅圖像進行測試,圖5為各算法分別對500幅圖像的6個評價指標取平均值后的結果對比.由圖可以看出,NOMF-MVC在6個評價指標上均有良好的表現(xiàn),特別是在時間效率上有倍數級的提高.
(a)BR (b)F1
(c)SA (d)IOU
(e)BDE (f)運行時間(f)Running time圖5 各算法在Berkeley數據集上的評價指標平均值對比Fig.5 Average value comparison of evaluation indexes of different algorithms on Berkeley dataset
在Berkeley、COCO數據集上選取部分圖像添加高斯噪聲,并選取分割效果較優(yōu)的SFFCM和NESE與NOMF-MVC在原圖和噪聲圖上進行圖像分割實驗,分割結果如圖6所示.
(a)原始圖像和噪聲圖(a)Original images and noisy images
(b)SFFCM
(c)NESE
(d)NOMF-MVC圖6 各算法對原圖與噪聲圖的分割結果Fig.6 Segmentation results of different algorithms for original images and noisy images
圖中第1列和第4列是各算法對原始圖像的分割結果,第2列和第5列是各算法對加入方差為0.01、均值為0.1高斯噪聲圖的分割結果,第3列和第6列是各算法對加入方差為0.01、均值為0.2高斯噪聲圖的分割結果.
由圖6可見,各算法對噪聲圖分割時均會出現(xiàn)不同程度的誤分割現(xiàn)象.SSFCM和NESE受噪聲影響較大,尤其是NESE,噪聲分割圖的整體輪廓丟失.而NOMF-MVC受噪聲影響較小,這是因為NOMF-MVC通過非線性降維方式去除原始數據中噪聲和冗余,故抗噪魯棒性較優(yōu).
為了定量驗證NOMF-MVC的抗噪魯棒性,分別為原始圖像加入方差為0.01、均值為0.1~0.5的高斯噪聲,不同算法在不同噪聲下的PSNR值如圖7所示.
(a)23025
(b)80273圖7 各算法在2個圖像上的PSNR對比Fig.7 PSNR comparison of different algorithms on 2 images
由圖7可以看出,所有算法的PSNR值隨著高斯噪聲均值的增大而變小,表明噪聲越大,聚類分割算法的抗噪性能越差.當高斯噪聲的均值相同時,NOMF-MVC的PSNR值均大于其它算法,表明其抗噪性能最優(yōu).
各算法在ORL、COIL20兩個多視圖數據集和Berkeley 數據集上的評價指標對比如圖8所示,對Berkeley數據集上500幅圖像的評價指標取平均值得到(c)的柱狀圖.
(a)ORL
(b)COIL20
(c)Berkeley圖8 各算法在3個數據集上的評價指標對比Fig.8 Evaluation index comparison of different algorithms on 3 datasets
由圖8可以看出,當去除NOMF-MVC中關鍵部分后,聚類性能和分割效果均會下降,這表明NOMF-MVC中的每個組成成分都是有效的.
本文提出基于非負正交矩陣分解的多視圖聚類圖像分割算法(NOMF-MVC),通過非線性降維方法去除原始數據中存在的噪聲和冗余,挖掘數據的局部幾何結構.計算每個視圖譜嵌入矩陣的譜塊結構,使不同視圖具有一致的類簇結構,并在融合階段通過設計的自適應權值學習一致性圖矩陣.對一致性圖矩陣進行非負正交分解,直接揭示聚類結果,提高時間效率.在多視圖數據集、Berkeley、COCO數據集上的實驗驗證NOMF-MVC在聚類性能和圖像分割上均具有明顯優(yōu)勢.因為NOMF-MVC主要集中在對完整多視圖圖像的聚類分割,因此對不完全多視圖圖像的聚類分割將是下一步研究的方向.