郭文忠,姚杰,王石平
(福州大學(xué)計算機(jī)與大數(shù)據(jù)學(xué)院,福建 福州 350108)
科技的發(fā)展促使信息傳播速度越來越快,傳播范圍越來越廣,數(shù)據(jù)也更容易獲得. 但是數(shù)據(jù)所包含的信息量也越來越龐大,僅僅通過單個視角已經(jīng)不足以全面描述所得到的數(shù)據(jù),因此需要從多個不同的視角來處理獲得的數(shù)據(jù). 真實世界中的多視角數(shù)據(jù)已經(jīng)相當(dāng)普遍,而多視角學(xué)習(xí)(multi-view learning)也成為了機(jī)器學(xué)習(xí)(machine learning)以及圖像處理(image processing)中的一個重要研究方向.
根據(jù)是否使用樣本的標(biāo)簽信息, 傳統(tǒng)的機(jī)器學(xué)習(xí)方法可以劃分為全監(jiān)督學(xué)習(xí)方法(supervised learning)以及無監(jiān)督學(xué)習(xí)方法(unsupervised learning). 在處理真實世界任務(wù)時,所得到的數(shù)據(jù)一般只帶有少量的標(biāo)簽信息,因而進(jìn)行全監(jiān)督學(xué)習(xí)時,需要對大量未帶標(biāo)簽的樣本進(jìn)行標(biāo)注,這需要付出較多的人力與物力成本. 無監(jiān)督學(xué)習(xí)雖然不需要數(shù)據(jù)的標(biāo)簽信息,但多數(shù)情況下不足以滿足性能需求,如圖像分類任務(wù)等. 為此半監(jiān)督學(xué)習(xí)(semi-supervised learning)結(jié)合了全監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí),只需要少量的帶標(biāo)簽的樣本就能獲得不錯的性能,引起了眾多學(xué)者的注意[1-2].
隨著多視角學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展,多視角半監(jiān)督學(xué)習(xí)也迎來了長足的進(jìn)展. 本研究整理并實驗比較了近年來一些先進(jìn)的多視角半監(jiān)督分類算法,旨在為從事相關(guān)領(lǐng)域的研究人員提供一定借鑒及啟示, 以便能更快和詳盡地了解這一領(lǐng)域的發(fā)展近況.
面對真實世界的問題時,如圖像分類、 文本分類等,獲得的數(shù)據(jù)通常有多個特征源,每一個特征源對應(yīng)于一個視角(view),該數(shù)據(jù)稱作多視角數(shù)據(jù). 例如可以從一張圖像中提取多個不同的視覺特征; 又如一張RGB圖像可以從紅綠藍(lán)三個顏色通道中提取3個不同的特征. 以上所述的這些數(shù)據(jù)都可以稱作多視角數(shù)據(jù).
多視角學(xué)習(xí)的目標(biāo)是對每一個視角進(jìn)行建模,然后聯(lián)合優(yōu)化所有視角的模型以提高學(xué)習(xí)性能[3]. 多視角學(xué)習(xí)被廣泛地應(yīng)用在多視角聚類[4-15]、 多視角分類[16-22]、 多任務(wù)多視角學(xué)習(xí)[23-26]等問題上. 多視角問題的一個簡單解決方法就是將所有視角的數(shù)據(jù)融合成一個視角,從而將多視角問題轉(zhuǎn)化為一個單視角問題來解決. 但是這種解決方法并沒有考慮到多視角數(shù)據(jù)之間的互補(bǔ)性與一致性,只是簡單地把多視角數(shù)據(jù)合并成單視角的數(shù)據(jù),會增加數(shù)據(jù)的冗余,通常實驗性能也并不理想. 與此相反的是,針對一個單視角的數(shù)據(jù)集,使用多個不同的特征提取算法從單視角數(shù)據(jù)中提取出多個不同維度的特征來生成多視角數(shù)據(jù),再使用多視角算法來解決該問題,最終實驗性能相比于單視角算法能夠有所提升.
近年來,為解決某些特定的機(jī)器學(xué)習(xí)任務(wù),學(xué)者們先后提出多種基于多視角學(xué)習(xí)的算法. Fu等[27]通過典型相關(guān)分析在多視角嵌入空間建立了一個超圖解決零次學(xué)習(xí)任務(wù). Cao等[28]考慮了多視角子空間上的排序?qū)W習(xí)問題,并提出了相應(yīng)的有效算法. Xue等[29]提出一種基于支持向量機(jī)的線性多視角學(xué)習(xí)框架用以解決多標(biāo)簽分類問題. Kan等[30]提出一種多視角判別分析算法, 對所有視角尋求一個共同的判別空間進(jìn)行對象識別.
以上所述的這些方法,將是否使用樣本的標(biāo)簽信息作為分類依據(jù),這些多視角學(xué)習(xí)算法大致可總結(jié)為兩類: 多視角無監(jiān)督學(xué)習(xí)和多視角監(jiān)督學(xué)習(xí). 其中多視角監(jiān)督學(xué)習(xí)又可以根據(jù)標(biāo)簽信息的多少細(xì)分為多視角半監(jiān)督學(xué)習(xí)和多視角全監(jiān)督學(xué)習(xí). 本研究主要針對多視角半監(jiān)督學(xué)習(xí)中的分類算法進(jìn)行介紹和總結(jié).
整理了近年來提出的多視角半監(jiān)督分類算法,將這些算法粗略總結(jié)為四種主流范式: 基于圖的方法、 基于子空間的方法、 基于回歸的方法, 以及基于分歧的方法.
1) 基于圖的方法. 為每一個視角的數(shù)據(jù)都構(gòu)建一個圖,然后以某種算法將所有的圖融合成一個一致圖,在該圖上進(jìn)行標(biāo)簽信息的傳播.
2) 基于子空間的方法. 旨在通過子空間學(xué)習(xí)為所有的視角學(xué)習(xí)一個共同的子空間,然后在該子空間上進(jìn)行標(biāo)簽傳播.
3) 基于回歸的方法. 為每個視角都建立一個回歸模型,并使用指示矩陣作為所有回歸函數(shù)共同的回歸目標(biāo),最后聯(lián)合優(yōu)化所有的回歸函數(shù).
4) 基于分歧的方法. 利用標(biāo)簽信息在每個視角建立一個分類器,各個分類器之間互相學(xué)習(xí)直到收斂, 或者達(dá)到預(yù)先設(shè)置的迭代次數(shù).
基于圖的半監(jiān)督分類算法這幾十年來一直吸引著眾多學(xué)者的注意. Zhu等[33]提出一種基于高斯場和調(diào)和函數(shù)的算法(GFHF),該算法將標(biāo)簽信息從帶標(biāo)簽的頂點傳播到未帶標(biāo)簽的頂點. Jiang等[34]提出一種圖卷積學(xué)習(xí)網(wǎng)絡(luò)(GLCN)聯(lián)合了圖學(xué)習(xí)和圖卷積來解決半監(jiān)督分類問題. Kang等[35]在構(gòu)造圖時捕獲了數(shù)據(jù)的全局結(jié)構(gòu)以及局部結(jié)構(gòu),并通過添加秩約束項保證了構(gòu)造圖的連通分支個數(shù)與樣本的類別數(shù)一致.
(1)
2.1.1自權(quán)重多視角學(xué)習(xí)模型
對于基于圖的方法,如何以合適權(quán)重融合每個視角的信息是一個關(guān)鍵問題.Nie等[36]通過擴(kuò)展傳統(tǒng)的譜聚類方法提出一種自權(quán)重多視角學(xué)習(xí)模型(auto-weighted multiple graph learning,AMGL),該方法能夠自動地學(xué)習(xí)每個視角的權(quán)重而不需要任何超參數(shù).
考慮樣本的標(biāo)簽信息,譜聚類算法轉(zhuǎn)變?yōu)橐粋€直推式半監(jiān)督學(xué)習(xí)問題,可以表示為:
(2)
上式中F=[f1, …,fl,fl+1, …,fn]T∈Rn×c為指示矩陣,fi=[fi1,fi2, …,fic]∈R1×c指示了第i個樣本所屬的類別,與標(biāo)簽矩陣類似,將指示矩陣劃分為F=[Fl,Fu]T. AMGL算法將其擴(kuò)展到多視角情形:
(3)
為解決公式(3)中帶約束的最小值問題,可以使用拉格朗日乘子法進(jìn)行求解.
2.1.2自適應(yīng)鄰居的多視角學(xué)習(xí)算法
在處理具體的學(xué)習(xí)任務(wù)時,獲得的原始數(shù)據(jù)往往是帶有噪聲的,由此導(dǎo)致原始的圖構(gòu)造是不可靠的. 為此,一種自適應(yīng)鄰居的多視角學(xué)習(xí)算法(multi-view learning with adaptive neighbors,MLAN)[37]被提出,其直接從原始數(shù)據(jù)中學(xué)習(xí)一個相似圖,不需要在每個視角都構(gòu)造一個圖.
考慮一個單視角問題,對于輸入的每一個樣本xi,將所有的樣本點都視為xi的一個鄰居.使用sij來表示兩個樣本之間的相似程度,則相似矩陣S=(sij)n×n∈Rn×n可以視為如下最小化問題的解:
(4)
針對多視角問題,需對每個視角都分配一個權(quán)重α(v),并引入正則項使得權(quán)重分布更平滑:
(5)
其中:γ是超參數(shù).
回歸分析是一種建立兩種或兩種以上變量關(guān)系的預(yù)測方法. 在解決單視角問題時,算法的目標(biāo)函數(shù)為:
(6)
其中:f(·)是分類器; loss(·)是損失函數(shù);Ω(·)是一個正則化項.以上問題可以擴(kuò)展到多視角情形:
(7)
基于回歸的方法在每個視角都學(xué)習(xí)一個投影矩陣W(v)并使用指示矩陣F作為共同的回歸目標(biāo).
2.2.1自適應(yīng)鄰居的多視角半監(jiān)督分類算法
自適應(yīng)鄰居的多視角半監(jiān)督分類算法(multi-view semi-supervised classification via adaptive regression,MVAR)[38]使用最小二乘損失作為算法的損失函數(shù)并使用Frobenius范數(shù)對投影矩陣添加約束. 為便于理解,先討論單視角情形下的MVAR算法,算法的目標(biāo)函數(shù)如下:
(8)
以上方法只是將每個樣本的損失簡單地疊加在一起而忽略了樣本的標(biāo)簽信息. 在半監(jiān)督分類中帶標(biāo)簽的樣本與不帶標(biāo)簽的樣本扮演著不同的角色,因此對每個樣本添加一個得分ri來衡量不同樣本的重要性:
(9)
將上式擴(kuò)展成多視角半監(jiān)督分類算法,那么MVAR算法的目標(biāo)函數(shù)為:
(10)
上式中t>1的取值用來調(diào)整權(quán)重的分布[39].
2.2.2聯(lián)合一致性和多樣性的多視角半監(jiān)督分類模型
多數(shù)基于回歸的方法都面臨著損失項不準(zhǔn)確的問題[40]. 聯(lián)合一致性和多樣性的多視角半監(jiān)督分類模型(joint consensus and diversity for multi-view semi-supervised classification,JCD)[41]使用了二次折頁損失作為損失函數(shù)克服了該問題,并擴(kuò)展文獻(xiàn)[42]中的方法, 提出了一個新穎的回歸目標(biāo).
(11)
(12)
(13)
子空間學(xué)習(xí)(subspace learning,SL)是一種將原始數(shù)據(jù)的高維特征投影到低維子空間,在低維子空間中保留特定的統(tǒng)計屬性來解決機(jī)器學(xué)習(xí)任務(wù)的方法[43]. 考慮多視角問題時,子空間學(xué)習(xí)的目的是尋找一個共同的潛在子空間,并在這個子空間上使用某種算法來學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)表示[44].
對于多視角半監(jiān)督分類問題,基于子空間的方法先從原始數(shù)據(jù)中學(xué)習(xí)一個子空間表示,再根據(jù)得到的子空間表示來構(gòu)造鄰接矩陣,最后使用基于圖的方法來求解. 基于子空間的方法有以下形式:
(14)
式中:Z(v),E(v)分別為第v個視角的重構(gòu)系數(shù)矩陣和重構(gòu)損失矩陣.
2.3.1超拉普拉斯正則化多線性多視角自表示模型
傳統(tǒng)的多視角子空間學(xué)習(xí)方法假定數(shù)據(jù)分布在某個線性流形上,但是在真實世界的問題中,數(shù)據(jù)特征可能是來自多個非線性的子空間. 為此Xie等[45]提出了超拉普拉斯正則化多線性多視角自表示模型(hyper-Laplacian regularized multilinear multi-view self-representation model,HLR-M2VS),該方法分別在張量空間和特定視角的自表示特征空間中學(xué)習(xí)各個視角之間的相關(guān)性以及數(shù)據(jù)的局部幾何結(jié)構(gòu).
HLR-M2VS算法是在一種基于多視角子空間聚類的張量奇異值分解模型(t-SVD-MSC)[46]的基礎(chǔ)上考慮了數(shù)據(jù)的局部幾何結(jié)構(gòu)并將算法擴(kuò)展到半監(jiān)督分類,該算法的目標(biāo)函數(shù)可以表示為以下形式:
(15)
上式的等式約束問題可以通過增廣拉格朗日乘子法(ALM)[47]求解.
2.3.2張量多視角子空間表示學(xué)習(xí)
大部分基于子空間學(xué)習(xí)的多視角方法只捕獲了多視角數(shù)據(jù)之間成對的相關(guān)性,忽略了數(shù)據(jù)的高階相關(guān)性. 為此Zhang等[48]提出張量多視角子空間表示學(xué)習(xí)(tensorized multi-view subspace representation learning,TMSRL)方法. TMSRL在t-SVD-MSC的基礎(chǔ)上引入必連約束[49],該約束構(gòu)造了一個判別性的矩陣以確保具有相同標(biāo)簽的樣本有同樣的子空間表示.
假定l個帶標(biāo)簽的樣本屬于c個集合,其中同一個集合中的樣本屬于同一個類別,那么每一個集合都有一個必連約束,剩余的n-l個不帶約束的樣本被看作是屬于n-l個不同的集合.則n個樣本被分為n-l+c個集合,且在相同集合中的樣本屬于一個共同的子空間.基于此可以構(gòu)造一個約束矩陣Q∈Rn×(n-l+c),其中當(dāng)?shù)趇個樣本屬于第j個集合時Qij=1.為保證同一個集合中的樣本能分到同一個類,對每個視角都引入了輔助矩陣U(v)∈Rn×(n-l+c),令Z(v)=U(v)Q.則目標(biāo)函數(shù)可以表示為:
(16)
由定理1,公式(16)可以簡化為:
(17)
以上問題同樣可以采用增廣拉格朗日乘子法求解.
基于分歧的方法源于協(xié)同訓(xùn)練[50], 協(xié)同訓(xùn)練要求輸入的每個視角的數(shù)據(jù)是充分冗余且相互獨立的,也就是說各個視角之間是互補(bǔ)的. 當(dāng)輸入的數(shù)據(jù)只有兩個視角時,協(xié)同訓(xùn)練方法先在兩個視角上使用帶標(biāo)簽的樣本各自學(xué)習(xí)一個分類器,再從兩個分類器的未帶標(biāo)簽樣本中取置信度最高的樣本分配“偽標(biāo)簽”放入另一個分類器中,以此達(dá)到擴(kuò)大訓(xùn)練集的目的. 再使用擴(kuò)大后的訓(xùn)練集各自更新分類器,不斷地迭代這一過程直至收斂或者達(dá)到先前定義的訓(xùn)練次數(shù)[51].
基于分歧的方法也可以用來解決單視角問題. 在同一個數(shù)據(jù)集上訓(xùn)練多個分類器,分類器之間互相學(xué)習(xí)以達(dá)到更好的分類性能. 例如Zhou等[52]在單視角數(shù)據(jù)上訓(xùn)練了三個不同的分類器,使用投票機(jī)制來確定樣本的偽標(biāo)簽. Chen等[53]提出了Tri-Net模型從原始數(shù)據(jù)生成了三個深度神經(jīng)網(wǎng)絡(luò),在訓(xùn)練過程中通過微調(diào)各個網(wǎng)絡(luò)來保證每個模型的差異性以達(dá)到互相學(xué)習(xí)的目的.
對于多視角數(shù)據(jù),基于分歧的方法對每一個視角都訓(xùn)練一個分類器,利用各個分類器之間的差異性來互相學(xué)習(xí). Li等[54]通過在每一個視角建立一個圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)并聯(lián)合拉普拉斯矩陣來挖掘多視角信息,提出了基于協(xié)同訓(xùn)練的圖卷積網(wǎng)絡(luò)(Co-GCN). 其中每個圖卷積神經(jīng)網(wǎng)絡(luò)的傳播規(guī)則為:
(18)
(19)
在實驗中選擇12個常用的數(shù)據(jù)集: 3Source、 BBCnews、 BBCsports、 ALOI、 Caltech101-7、 Caltech101-20、 Caltech101-all、 NUS-WIDE、 Youtube、 HW、 MNIST、 MSRC-v1. 實驗中一共對比了10個算法,為體現(xiàn)單視角算法與多視角算法的區(qū)別,選取了3個經(jīng)典的單視角半監(jiān)督分類算法,分別是隨機(jī)森林(random forest,RF)[56]、 支持向量機(jī)(support vector machine,SVM)[57]和K最近鄰算法(K-nearest neighbor,KNN)[58]. 同時選擇了基于圖的方法AMGL和MLAN,基于回歸的方法MVAR和JCD,基于子空間學(xué)習(xí)的方法HLR-M2VS,基于分歧的方法Co-GCN以及自權(quán)重判別性回歸(AWDR)[59]作為對比算法. 所有的實驗均在CPU為E5-2620以及內(nèi)存為128G的服務(wù)器上實現(xiàn)且均未使用GPU.
以下簡要介紹本研究使用的每個數(shù)據(jù)集:
3Source數(shù)據(jù)集. 由948篇發(fā)布在三家在線新聞網(wǎng)站上的新聞報道組成, 實驗中選擇了同時發(fā)布在三家新聞網(wǎng)站上的169篇報道作為實驗數(shù)據(jù),這些新聞報道包含了6個主題.
BBCnews數(shù)據(jù)集. 由來自英國廣播公司新聞網(wǎng)站對5個熱點話題的新聞報道,分別是: 商業(yè)、 娛樂、 政治、 體育、 科技,共有685篇報道,對每篇新聞報道提取了4類語義特征.
BBCsports數(shù)據(jù)集. 由英國廣播公司體育網(wǎng)站上的544篇體育報道組合,這些報道囊括了5個競技項目: 田徑、 板球、 足球、 橄欖球、 網(wǎng)球,對每篇體育報道提取了2類語義特征.
ALOI數(shù)據(jù)集. 包含1 000個小物件的彩色圖像,每個物件有近100張在不同相機(jī)視角和光照顏色下的圖像. 選擇了10個物件共1 080張圖像進(jìn)行實驗,每張圖像提取4個圖像特征.
Caltech101圖像數(shù)據(jù)集. 包含101個對象類別和一個背景類別的圖像. 實驗中選取了該數(shù)據(jù)集的3個子集進(jìn)行實驗,分別選取了該數(shù)據(jù)集中的7個類別Caltech101-7,20個類別Caltech101-20以及所有類別Caltech101-all的圖像,對應(yīng)的圖像張數(shù)分別為1 474張、 2 386張和9 144張,對每張圖像提取6類圖像特征.
NUS-WIDE數(shù)據(jù)集. 一個真實世界的數(shù)據(jù)集,包含了269 648張共81個類別的圖像. 本次實驗選擇了其中8個類別共1 600張圖像,對每一張圖像都提取了6類低維特征.
Youtube數(shù)據(jù)集. 由Google發(fā)布的人臉圖像數(shù)據(jù)集,選擇了該數(shù)據(jù)集中10個類別共2 000張圖像進(jìn)行實驗,其中對每一張圖像都提取了6類視覺特征.
HW數(shù)據(jù)集. 由2 000個手寫數(shù)字圖像構(gòu)成,分成0~9共10個類別,每個類都有200個數(shù)據(jù),同時針對每一張圖像都提取了6類相關(guān)特征.
MNIST數(shù)據(jù)集. 包含0到9的60 000張手寫數(shù)字圖像,本次實驗中對每個類別都選擇了200張圖像進(jìn)行實驗,對每張圖像都提取了3類特征.
MSRC-v1數(shù)據(jù)集. 包含240張8個類別的圖像, 選擇了其中7個類別的圖像進(jìn)行實驗,每個類別有30張圖像,從每張圖像中提取了5類視覺特征.
本次實驗的監(jiān)督率范圍為0.05~0.80,即帶標(biāo)簽的數(shù)據(jù)占樣本數(shù)據(jù)總數(shù)的5%~80%. 性能評價指標(biāo)為分類準(zhǔn)確率(ACC),各算法在每個數(shù)據(jù)集上都運(yùn)行了10次并對結(jié)果取均值. 對于算法中出現(xiàn)的參數(shù),采取原論文中提供的值. 其中對于單視角算法,將多視角數(shù)據(jù)拼接成一個單視角數(shù)據(jù)進(jìn)行實驗. 當(dāng)監(jiān)督率的取值為0.05、 0.10時的實驗結(jié)果見表1~2,表中加粗的字體表示最優(yōu)性能,帶下劃線的表示為次優(yōu)性能.
表1 對比算法在監(jiān)督率為0.05時的分類準(zhǔn)確率Tab.1 Classification accuracy of compared algorithms when the supervision rate is 0.05
觀察表1~2,可以得出以下兩個結(jié)論:
1) 相比于單視角半監(jiān)督分類算法RF、 SVM、 KNN,多視角半監(jiān)督分類算法所有數(shù)據(jù)集下都達(dá)到了最優(yōu)或者次優(yōu)的性能,這也論證了利用多視角數(shù)據(jù)之間的互補(bǔ)性能夠達(dá)到更優(yōu)的分類性能. 因此多視角半監(jiān)督分類算法是具有潛力及研究意義的.
2) 就監(jiān)督率為0.05、 0.10時多視角半監(jiān)督分類算法的分類精度而言. 可以發(fā)現(xiàn)基于回歸的方法JCD以及基于子空間的方法HLR-M2VS達(dá)到最優(yōu)分類精度的次數(shù)是最多的,同時還可以注意到基于分歧的方法Co-GCN在絕大多數(shù)數(shù)據(jù)集上都能達(dá)到較高的分類精度.
為觀察分類精度隨監(jiān)督率變化時的變化情況,統(tǒng)計了當(dāng)監(jiān)督率從0.1變化到0.8時,以上10種算法在所有數(shù)據(jù)集上的圖像分類精度的變化情況,繪制而成的折線圖如圖1所示.
(a) 3Source
(b) BBCnews
(c) BBCsports
(d) ALOI
(e) Caltech101-7
(f) Caltech101-20
(g) Caltech101-all
(h) NUS-WIDE
(i) Youtube
(j) HW
(k) MNIST
(l) MSRC-v1圖1 對比算法在監(jiān)督率為0.1~0.8時在所有數(shù)據(jù)集上性能變化Fig.1 The performance change of the compared algorithms on all datasets when the supervision rate is 0.1~0.8
觀察圖1,可以發(fā)現(xiàn)單視角算法的分類精度普遍低于多視角分類算法,且在監(jiān)督率低于0.4時,分類精度受監(jiān)督率的影響較大,而當(dāng)監(jiān)督率大于0.4時,分類精度增加的幅度不明顯. 同時可以發(fā)現(xiàn)JCD算法在多個數(shù)據(jù)集上都能達(dá)到最高的分類精度; HLR-M2VS與Co-GCN算法比較穩(wěn)定,在所有數(shù)據(jù)集上都能達(dá)到比較高的分類精度; 基于圖的方法AMGL與MLAN在不同的數(shù)據(jù)集上的分類精度落差較大; 基于回歸的方法MVAR與JCD在部分?jǐn)?shù)據(jù)集上的監(jiān)督率較低時分類精度會有起伏.
除了分類精度之外,時間復(fù)雜度也是算法在實際應(yīng)用中需要重點考慮的. 為此統(tǒng)計了在監(jiān)督率為0.1時,上述10種算法在12個數(shù)據(jù)集上的運(yùn)行時間,如圖2所示.
圖2 實驗算法在多個數(shù)據(jù)集上的運(yùn)行時間比較Fig.2 Runtime of the experimental algorithms on multiple datasets
由柱狀圖可見,相比于單視角算法,多視角算法的時間成本普遍比較高. 而就多視角算法而言,JCD與AWDR算法的時間成本較低,其次是AMGL、 MLAN與MVAR算法,而Co-GCN與HLR-M2VS算法的時間成本一般會高于其他方法. 因此在處理現(xiàn)實世界中的分類任務(wù)時,可以根據(jù)自身需求結(jié)合算法的分類精度以及運(yùn)行時間選擇適當(dāng)?shù)姆诸愃惴? 例如在Caltech101-all這個數(shù)據(jù)集上,HLR-M2VS算法的時間成本最高,但同時該算法的分類精度也較為理想.
多視角半監(jiān)督分類是一種結(jié)合多視角學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的圖像分類方法,適用于數(shù)據(jù)有多個特征源或者多個模態(tài)且只有少量帶標(biāo)注的樣本的圖像分類任務(wù). 多視角半監(jiān)督分類方法也能用于解決單視角分類任務(wù),且實驗論證了在大多數(shù)情況下多視角半監(jiān)督分類算法的分類性能相比于單視角半監(jiān)督分類算法有所提升.
目前看來有以下四個潛在方向值得進(jìn)一步研究與探討:
1) 深度共享神經(jīng)網(wǎng)絡(luò). 如何學(xué)習(xí)多個視角的潛在特征是一個值得研究的問題. 在文章的第二部分討論了基于子空間學(xué)習(xí)的方法,該方法通過學(xué)習(xí)一個共同的子空間表示來學(xué)習(xí)數(shù)據(jù)的子空間表示,Co-GCN算法則是對每個視角都建立了圖卷積神經(jīng)網(wǎng)絡(luò). 更一般地,可以對每個視角都建立一個深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)每個視角數(shù)據(jù)的潛藏特征,并通過共享權(quán)重或者共享隱藏層的方式來挖掘多視角學(xué)習(xí)中的一致性,這是一個值得探索的方向.
2) 偽標(biāo)簽學(xué)習(xí). 多視角半監(jiān)督學(xué)習(xí)面臨著在監(jiān)督率較低時,某一類或者某幾類的標(biāo)注樣本過少的問題. 除了人工標(biāo)注外,第二部分所述的協(xié)同訓(xùn)練方法也不失為一種解決方式,但該方法需要保證能從帶標(biāo)注的樣本中學(xué)習(xí)到判別性強(qiáng)的分類器. 如何為樣本添加高置信度的偽標(biāo)簽達(dá)到擴(kuò)展或增強(qiáng)訓(xùn)練集的目的,也需要更進(jìn)一步的研究.
3) 聚類指導(dǎo). 在多視角半監(jiān)督分類問題中,大部分方法都只使用帶標(biāo)注的樣本構(gòu)建分類器,而大量未帶標(biāo)注的樣本所攜帶的信息被忽視了. 在處理現(xiàn)實世界的任務(wù)時,與帶標(biāo)注的樣本相比未帶標(biāo)注的樣本是非常容易獲取的. 因此若能利用未帶標(biāo)注的樣本建立聚類模型,使用聚類標(biāo)簽來指導(dǎo)分類任務(wù)是個有潛力的方向.
4) 不完整的多視角半監(jiān)督分類. 處理多視角任務(wù)時,獲得的多視角數(shù)據(jù)在某個視角或者某些視角的數(shù)據(jù)缺失情況是非常普遍的. 針對這些數(shù)據(jù)的分類任務(wù)被稱作不完整的多視角半監(jiān)督分類,該問題的研究工作對實際應(yīng)用非常有意義,因此不完整的多視角半監(jiān)督分類也是一個值得研究的方向.
隨著人工智能技術(shù)的發(fā)展,在計算機(jī)視覺領(lǐng)域已經(jīng)涌現(xiàn)出了許多優(yōu)秀的圖像分類算法. 多視角半監(jiān)督分類作為一種圖像分類方法在很多圖像分類問題上都取得了不錯的性能. 本文整理了近五年間發(fā)表的一些優(yōu)秀的算法并探討了多視角半監(jiān)督分類算法的研究現(xiàn)狀,同時對該方向未來的發(fā)展進(jìn)行了展望,希望能為該方向的讀者提供一定的借鑒和啟示.