蔡 昊,劉 波
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006)
在大數(shù)據(jù)時(shí)代,許多應(yīng)用領(lǐng)域均包含大量的圖像數(shù)據(jù)[1-2],圖像聚類能夠有效地處理這些圖像數(shù)據(jù),因此得到了廣泛的關(guān)注。目前大量的圖像聚類方法[3-4]已經(jīng)被提出。例如,Ren等[3]提出了一種基于深度密度的圖像聚類框架,其首先使用深度卷積自編碼去提取圖像的低維度特征,而后使用基于密度的聚類方法進(jìn)行聚類。Yang等[4]為圖像聚類提出了一種對(duì)偶約束的非負(fù)矩陣分解算法,其中一個(gè)約束用來(lái)保持圖像標(biāo)簽特征,而另一個(gè)約束用來(lái)增強(qiáng)圖像表示的稀疏性。
近年來(lái),多示例學(xué)習(xí)也在圖像處理中引起了廣泛的關(guān)注[5-6]。針對(duì)于多示例圖像聚類,Zhang等[6]提出了一種大邊緣的多示例圖像聚類框架,他們首先識(shí)別最相關(guān)的示例,而后劃分這些示例進(jìn)入幾個(gè)不同的組。此外,在圖像聚類中,人們可以獲得除了圖像本身之外的其他信息。例如文本信息,其能夠完整地描述相應(yīng)圖像的內(nèi)容。在現(xiàn)實(shí)生活中,很容易收集到大量的圖像信息和文本信息,并構(gòu)造它們成兩個(gè)視角的數(shù)據(jù)集去解決圖像聚類問(wèn)題。進(jìn)一步地,也可以為少量的圖像添加標(biāo)簽信息,以提高聚類的性能。
本文提出了一種半監(jiān)督兩個(gè)視角的多示例聚類模型,其將文本視角引入圖像視角去解決具有少量標(biāo)簽的圖像聚類問(wèn)題。該模型首先嵌入概念分解[7]和多示例核成為一個(gè)整體,學(xué)習(xí)每個(gè)視角的關(guān)聯(lián)矩陣和兩個(gè)視角所共享的聚類指示矩陣;隨后,模型引入l2,1范數(shù)去學(xué)習(xí)最優(yōu)的關(guān)聯(lián)矩陣和聚類指示矩陣。進(jìn)一步地,為了提高包之間的判別力,模型強(qiáng)迫具有相同標(biāo)簽包的聚類指示向量間的相似性趨于1,不同標(biāo)簽包的指示向量間的相似性趨于0。本文的主要貢獻(xiàn)如下:
(1) 提出了一個(gè)新的模型,即半監(jiān)督兩個(gè)視角的多示例圖像聚類模型。該模型引入 l2,1范數(shù)提高了包與聚類中心的關(guān)聯(lián)度,同時(shí)也獲得了理想的聚類指示矩陣。
(2) 基于已知的標(biāo)簽信息,提出的模型強(qiáng)迫包的聚類指示向量間的相似性趨于1或0,提高了包之間的判別力,有助于進(jìn)一步區(qū)分包。
(3) 真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示:與已有的模型相比,提出的模型能夠獲得一個(gè)更好的聚類結(jié)果。
通常而言,多視角學(xué)習(xí)一般先從不同的視角中學(xué)習(xí)多個(gè)特征,而后引入一個(gè)聯(lián)合框架來(lái)融合這些特征?,F(xiàn)有的多視角學(xué)習(xí)方法主要基于共識(shí)原則和互補(bǔ)原則[8]。共識(shí)原則認(rèn)為不同視角之間存在一致性信息,這種信息應(yīng)該得到最大化。而互補(bǔ)原則認(rèn)為每個(gè)視角均包含其他視角所不具備的信息,應(yīng)該使用多個(gè)視角去更全面地描述數(shù)據(jù)對(duì)象?;诠沧R(shí)原則,Zhou等[9]為每一個(gè)視角構(gòu)建一個(gè)完整的圖,而后通過(guò)自動(dòng)加權(quán)方法強(qiáng)迫所有構(gòu)造的圖趨于一個(gè)共識(shí)圖?;诨パa(bǔ)原則,Cao等[10]利用希爾伯特-斯密特獨(dú)立性準(zhǔn)則去實(shí)現(xiàn)不同視角間的多樣性,從而增強(qiáng)多視角表示之間的互補(bǔ)性;Wang等[11]提出了一種多樣性的非負(fù)矩陣分解算法,其定義一個(gè)多樣性項(xiàng),該項(xiàng)迫使不同視角表示兩兩正交,從而實(shí)現(xiàn)視角間的互補(bǔ)。對(duì)于兩種原則的組合,Liu等[12]提出了部分共享潛因子學(xué)習(xí)算法,該算法主要學(xué)習(xí)一個(gè)潛在表示,該表示是由多個(gè)視角所共享的一致信息和每個(gè)視角的互補(bǔ)信息所組成。
多示例學(xué)習(xí)是一種弱監(jiān)督學(xué)習(xí)方法,其訓(xùn)練數(shù)據(jù)以包的形式存在,而包由多個(gè)示例組成。數(shù)據(jù)的標(biāo)簽信息與整個(gè)包相關(guān)聯(lián),而包中示例標(biāo)簽是未知的?,F(xiàn)有的多示例學(xué)習(xí)方法主要基于包水平和示例水平[13]?;诎降姆椒ㄍǔ⒚總€(gè)包視為一個(gè)整體,而后從每個(gè)包中提取目標(biāo)概念來(lái)預(yù)測(cè)包的標(biāo)簽。相反,基于示例水平的方法嘗試識(shí)別關(guān)鍵示例,通過(guò)預(yù)測(cè)關(guān)鍵示例的標(biāo)簽來(lái)獲得包標(biāo)簽。在基于包水平的方法中,Melki等[14]提出了多示例表示支持向量機(jī)。它學(xué)習(xí)一個(gè)包的表示選擇器,其能夠選擇出對(duì)分類影響較大的示例,并將其作為包的表示卷入到支持向量機(jī)中去尋找最優(yōu)的分離超平面。在基于示例水平的方法中,一個(gè)典型的例子是多示例支持向量機(jī) (Multipleinstance Support Vector Machine,mi-SVM[15]),通過(guò)對(duì)訓(xùn)練包中的示例進(jìn)行分類,mi-SVM得到一個(gè)最優(yōu)的分離超平面,該超平面可以在每個(gè)正的訓(xùn)練包中至少分離出一個(gè)正示例。因此,當(dāng)一個(gè)未知包通過(guò)該超平面獲得一個(gè)正示例時(shí),未知包被預(yù)測(cè)為正。
本節(jié)首先提出半監(jiān)督兩個(gè)視角的多示例聚類模型,而后給出一個(gè)迭代更新算法去優(yōu)化這個(gè)目標(biāo)模型,最后,為提出的目標(biāo)模型引入兩個(gè)多示例核函數(shù)。
此外,少量的標(biāo)簽信息也很容易獲得。如果兩個(gè)包具有相同的標(biāo)簽信息,則它們的聚類指示向量應(yīng)該相同或者高度相似;反之,標(biāo)簽信息不同,則聚類指示向量應(yīng)該不同或者極其不相似。為了方便,這里使用內(nèi)積去權(quán)衡相似性,即相同標(biāo)簽包的聚類指示向量間的內(nèi)積應(yīng)趨于1,不同標(biāo)簽包的指示向量間的內(nèi)積應(yīng)趨于0。具體公式表達(dá)如下:
由于式(8)的變量 Wv和 H 均是未知的,因此目標(biāo)模型無(wú)法求得全局最優(yōu)解。但是可以使用一個(gè)迭代更新算法去求其局部最優(yōu)解。通過(guò)定義Kv=φ(Bv)Tφ(Bv),式(8)被重寫(xiě)為
其中
通過(guò)迭代的更新式(16)和式(17),目標(biāo)模型(8)能夠被優(yōu)化。
本節(jié)介紹兩個(gè)多示例核方法,它們能夠嵌入到目標(biāo)模型(8)中。
2.3.1 混合模型核
對(duì)于提出的兩個(gè)視角的多示例聚類模型,它能夠使用兩個(gè)多示例核函數(shù),即混合模型核與極大極小核。將兩個(gè)核的模型分別命名為Ker1和Ker2。為了驗(yàn)證Ker1和Ker2的有效性,本文使用以下4種基線作為比較:
(1) 基線1為BAMIC1[18],其使用最小Hausdorff距離度量計(jì)算兩個(gè)包中示例的最小距離,而后采用k-Medoids算法去劃分包。定義最小Hausdorff距離度量為
(2) 基線2為BAMIC2[18],其使用最大Hausdorff距離度量計(jì)算兩個(gè)包之間的示例距離,最后采用k-Medoids算法去劃分包。定義最大Hausdorff距離度量為
(3) 基線3為BAMIC3[18],其使用平均Hausdorff距離度量計(jì)算兩個(gè)包之間的示例距離,最后采用k-Medoids算法去劃分包。定義平均Hausdorff距離度量為
(4) 基線4為unKer1和unKer2,其是提出模型的兩種無(wú)監(jiān)督的比較方法,它們沒(méi)有使用標(biāo)簽信息,而是直接初始化 P=Q=I,基線4的目的是驗(yàn)證半監(jiān)督學(xué)習(xí)的優(yōu)越性。
上述所有的基線均根據(jù)原始文獻(xiàn)的建議設(shè)置參數(shù)。對(duì)于Ker1和Ker2,隨機(jī)抽取每一類的5%的標(biāo)簽信息作為監(jiān)督信息,其余標(biāo)簽信息未知。Ker1和Ker2中參數(shù)α , β 的范圍被設(shè)置為[0.0001, 0.001, 0.01,0.1, 1, 10, 100, 1000] 。在Ker1中,設(shè)置參數(shù)K =100;對(duì)于Ker2,參考文獻(xiàn)[17]設(shè)置參數(shù) p=5。為了避免隨機(jī)性,基于不同的初始化值,算法運(yùn)行10次,并記錄相應(yīng)的平均聚類精度。聚類精度定義為
其中, N表示圖像包的總數(shù)目, ti為真實(shí)標(biāo)簽, ri為算法所學(xué)習(xí)到的聚類標(biāo)簽;m ap(ri)為映射函數(shù),其目的是映射 ri, 使之能與 ti匹配;δ (x,y)為 δ 函數(shù),當(dāng) x=y時(shí),δ(x,y)=1, 否則δ (x,y)=0。
NUS-WIDE數(shù)據(jù)集[19]是由新加坡國(guó)立大學(xué)所創(chuàng)立的圖像數(shù)據(jù)集,其包含有269 648張圖片,每張圖片均有對(duì)應(yīng)的文本描述。實(shí)驗(yàn)是從NUS-WIDE數(shù)據(jù)集中選擇圖像和相應(yīng)的文本去構(gòu)建2個(gè)不同的數(shù)據(jù)集。其一為NUS-WIDE1數(shù)據(jù)集,該數(shù)據(jù)集包含6種混合圖像(actor,car_racing,fruit,insect,leopard,tunnel),共有2 605張圖片。其二為NUS-WIDE2數(shù)據(jù)集,該數(shù)據(jù)集包含6種不同的花(即chrysanthemums,lily,orchid,poppies,rose,tulip),共有2 522張圖片。
對(duì)于上述數(shù)據(jù)集,每一個(gè)文本被分割成一個(gè)文本包,每一張圖像也被分割成一個(gè)圖像包。3種不同的分割方法[20]分割圖像并獲得圖像包,即K均值分割(K-means Segmentation,K-meansSeg)、局部二值模式(Local Binary Patterns,LBP) 和尺度不變特征變換(Scale Invariant Feature Transform,SIFT)。
表1和表2分別列出了不同模型在NUS-WIDE1數(shù)據(jù)集和NUS-WIDE2數(shù)據(jù)集的聚類精度,其中Avg為平均精度。對(duì)于Ker1和Ker2,表中列出的是模型在 α=0.01, β=0.01的聚類精度。從表1和表2能夠觀察到提出的模型在聚類精度上是優(yōu)于其他模型的。以NUS-WIDE1數(shù)據(jù)集為例,在K-meansSeg中,Ker1比其他的模型在平均精度上至少提高了4.17%;在LBP中,Ker2比其他的模型在平均精度上至少提高了5.91%;在SIFT中,Ker1比其他的模型在平均精度上至少提高了4.07%。這是因?yàn)樘岢龅哪P褪褂昧藰?biāo)簽信息,其監(jiān)督著模型的學(xué)習(xí)進(jìn)程,從而有效地提高了聚類的性能。
表1 在NUS-WIDE1數(shù)據(jù)集中各模型的聚類精度對(duì)比Table 1 The clustering accuracy comparisons of models on NUS-WIDE1 dataset %
表2 在NUS-WIDE2數(shù)據(jù)集中各模型的聚類精度對(duì)比Table 2 The clustering accuracy comparisons of models on NUS-WIDE2 dataset%
本節(jié)著重構(gòu)造實(shí)驗(yàn)研究參數(shù) α, β對(duì)模型性能的影響。對(duì)于模型Ker1和Ker2,參數(shù)的選擇范圍為[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]。在不同的正則化參數(shù)下,實(shí)驗(yàn)在NUS-WIDE1數(shù)據(jù)集中的兩類數(shù)據(jù)上執(zhí)行,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果被展示在圖1和圖2中。從圖1中,能夠觀察到Ker1在參數(shù)α , β的大多數(shù)情況下的聚類精度均超過(guò)了65%。從圖2中,能觀察到Ker2的聚類精度在K-meansSeg和SIFT中隨著參數(shù)α, β 變化保持穩(wěn)定;對(duì)于LBP,當(dāng)α ≤100, β ≤1時(shí),Ker2的聚類精度大多數(shù)超過(guò)了75%。此外,從圖1和圖2中,還可以觀察到參數(shù) β設(shè)置不大于1更合適??傊?,Ker1和Ker2的聚類性能對(duì)于參數(shù)α , β的調(diào)整是相對(duì)魯棒的。
提出的模型采用迭代更新規(guī)則發(fā)現(xiàn)目標(biāo)方程的局部極小值。為了研究模型的收斂性,有必要可視化模型(Ker1和Ker2)在更新規(guī)則下的收斂曲線。圖3和圖4分別展示了提出的模型在NUS-WIDE1數(shù)據(jù)集內(nèi)的兩類數(shù)據(jù)上的收斂曲線。從圖3和圖4中,能夠觀察到Ker1和Ker2隨著迭代次數(shù)的增加是逐漸收斂的。
圖1 NUS-WIDE1數(shù)據(jù)集內(nèi)的兩類數(shù)據(jù)的Ker1參數(shù)敏感性實(shí)驗(yàn)Fig.1 Parameter sensitivity of Ker1 on the two-class data of NUS-WIDE1
圖2 NUS-WIDE1數(shù)據(jù)集內(nèi)的兩類數(shù)據(jù)的Ker2參數(shù)敏感性實(shí)驗(yàn)Fig.2 Parameter sensitivity of Ker2 on the two-class data of NUS-WIDE1
圖3 NUS-WIDE1數(shù)據(jù)集內(nèi)的兩類數(shù)據(jù)的Ker1的收斂曲線Fig.3 Convergence curve of Ker1 on the two-class data of NUS-WIDE1
圖4 NUS-WIDE1數(shù)據(jù)集內(nèi)的兩類數(shù)據(jù)的Ker2的收斂曲線Fig.4 Convergence curve of Ker2 on the two-class data of NUS-WIDE1
本文提出了一種新的半監(jiān)督兩個(gè)視角的多示例聚類模型,其將文本視角和圖像視角結(jié)合,有效地解決帶有少量標(biāo)簽多示例圖像聚類問(wèn)題。通過(guò)嵌入概念分解和多示例核函數(shù)為一個(gè)整體,該模型為每個(gè)視角學(xué)習(xí)了一個(gè)關(guān)聯(lián)矩陣,同時(shí)也獲得了被兩個(gè)視角所共享的聚類指示矩陣。而后,通過(guò)在關(guān)聯(lián)矩陣和聚類指示矩陣上引入 l2,1范數(shù),模型不僅提高了包與聚類中心的關(guān)聯(lián)度,也獲得了最優(yōu)的聚類指示矩陣。隨后,基于已知的標(biāo)簽信息,模型強(qiáng)迫相同標(biāo)簽包的聚類指示向量的相似性趨于1,不同標(biāo)簽的指示向量相似性趨于0,這有效地提高了包之間的判別力。最后,一個(gè)迭代更新算法被提出,有效地優(yōu)化了提出的模型。在真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,提出的模型在聚類精度上優(yōu)于現(xiàn)有的多示例聚類模型。