劉慧婷 冷新楊 王利利 趙鵬
單個(gè)對(duì)象含有多個(gè)標(biāo)簽注釋的學(xué)習(xí)與挖掘是眾多領(lǐng)域中經(jīng)常遇到和研究的問(wèn)題[1?7].例如:在文本分類中,每個(gè)文檔可能會(huì)被賦予幾個(gè)預(yù)先定義的主題;在生物學(xué)領(lǐng)域中,每個(gè)基因可能會(huì)同時(shí)含有幾種不同的功能片段、如新陳代謝功能、轉(zhuǎn)錄功能和蛋白質(zhì)合成功能等;在場(chǎng)景圖片分類中,每張場(chǎng)景圖片從不同的角度分析會(huì)有不同含義,如人物、沙灘和天空等.這些問(wèn)題都有一個(gè)共同特點(diǎn),即單個(gè)實(shí)例同時(shí)含有多個(gè)標(biāo)簽,或被同時(shí)分為多個(gè)類別,被稱為多標(biāo)簽問(wèn)題.
近年來(lái),多標(biāo)簽學(xué)習(xí)問(wèn)題被眾多學(xué)者關(guān)注與研究,提出了一系列的多標(biāo)簽學(xué)習(xí)算法.例如,基于二元相關(guān)(Binary relevance,BR)的方法[5]將多標(biāo)簽學(xué)習(xí)問(wèn)題分割成多個(gè)獨(dú)立的二元分類問(wèn)題,即為每一個(gè)標(biāo)簽訓(xùn)練一個(gè)分類器;基于標(biāo)簽排序的方法[8?9]將標(biāo)簽成對(duì)比較進(jìn)行排序,把多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為標(biāo)簽排序問(wèn)題:基于算法改編的方法[10?13]將單標(biāo)簽學(xué)習(xí)的算法進(jìn)行改進(jìn)使之適用于多標(biāo)簽學(xué)習(xí).隨著深度學(xué)習(xí)技術(shù)[14]的發(fā)展,文本表示能力的進(jìn)一步提高,基于表示學(xué)習(xí)的多標(biāo)簽算法[15]被提出;此外,基于樹(shù)的方法[16?17]和基于嵌入的方法[18?28]被提出用于提高多標(biāo)簽分類性能和減少面對(duì)高維數(shù)據(jù)時(shí)產(chǎn)生的昂貴的時(shí)間開(kāi)銷.
現(xiàn)存的多標(biāo)簽分類算法可分為兩大類:問(wèn)題轉(zhuǎn)化法(Problem transformation methods,PTM)和算法改編法(Algorithm adaption methods,AAM).PTM 在解決多標(biāo)簽分類問(wèn)題時(shí),算法具有簡(jiǎn)單,易于理解與實(shí)現(xiàn)等優(yōu)點(diǎn).但PTM 缺點(diǎn)也比較明顯,如基于二元相關(guān)的方法忽略了標(biāo)簽間關(guān)系:考慮到標(biāo)簽間的高階相關(guān)性的標(biāo)簽冪集法(Label powerset)[29]因含有指數(shù)級(jí)的標(biāo)簽空間,不僅會(huì)導(dǎo)致訓(xùn)練時(shí)間復(fù)雜度過(guò)高,而且還可能存在標(biāo)簽類別的不平衡性等問(wèn)題;基于鏈?zhǔn)綐?biāo)簽法的算法[9,30],性能完全依賴于鏈?zhǔn)綐?biāo)簽排序,但最優(yōu)排序未知.AAM 通過(guò)改進(jìn)已有的機(jī)器學(xué)習(xí)算法來(lái)解決多標(biāo)簽學(xué)習(xí)問(wèn)題,如基于SVM 改進(jìn)的RankSVM 算法[10?11]、基于kNN 改進(jìn)的IMLLA 算法[12]及基于樸素貝葉斯改進(jìn)的NBML 算法[13];這些改進(jìn)型的算法避免了為每個(gè)標(biāo)簽單獨(dú)學(xué)習(xí)而忽略了標(biāo)簽間的關(guān)系,當(dāng)遇到具有高維特性的多標(biāo)簽數(shù)據(jù)時(shí),不僅需要較大的時(shí)間消耗,性能還會(huì)有所損失.
主成分分析算法(Principal component analysis,PCA)[31]、線性判別分析(Linear discriminant analysis,LDA)[32]及局部線性嵌入(Locally linear embedding,LLE)[33]等各種嵌入技術(shù)常被用于多標(biāo)簽分類任務(wù).矩陣分解技術(shù)在低維嵌入過(guò)程中可同時(shí)得到低維嵌入表示C及解碼矩陣D,相比于使用PCA 及LDA 需要兩個(gè)獨(dú)立步驟(編碼與解碼),降低了誤差.
為了解決PTM 與AAM 面臨的問(wèn)題,考慮到矩陣分解技術(shù)的優(yōu)勢(shì),本文提出基于去噪自編碼器(Stack denoising autoencoder,SDAE)和矩陣分解的聯(lián)合嵌入學(xué)習(xí)算法Deep AE-MF,該算法不但能夠得到一個(gè)具有深層語(yǔ)義的文本表示,還能在降低時(shí)間復(fù)雜度的同時(shí)探索標(biāo)簽間的關(guān)系.它能夠?qū)DAE 對(duì)特征學(xué)習(xí)到的深層語(yǔ)義低維表示和矩陣分解得到的標(biāo)簽低維表示聯(lián)合在一起共同學(xué)習(xí),得到一個(gè)高效的多標(biāo)簽分類模型.與BR 型算法對(duì)比,Deep AE-MF 在學(xué)習(xí)時(shí)能夠利用矩陣分解技術(shù)對(duì)標(biāo)簽間的關(guān)系進(jìn)行間接探索;與AAM 型算法相比較,Deep AE-MF 使用SDAE 技術(shù)對(duì)特征進(jìn)行了非線性學(xué)習(xí),得到了深層語(yǔ)義的文本表示;與特征/標(biāo)簽嵌入類算法相比,Deep AE-MF 整合了SDAE 和矩陣分解兩種技術(shù)對(duì)特征與標(biāo)簽同時(shí)進(jìn)行聯(lián)合嵌入學(xué)習(xí),使得模型的預(yù)測(cè)與嵌入兩個(gè)學(xué)習(xí)階段同時(shí)進(jìn)行.
在Deep AE-MF 算法中,特征部分的學(xué)習(xí)利用SDAE 能夠?qū)\層特征挖掘出深層語(yǔ)義的特性得到一個(gè)深層語(yǔ)義的低維表示;標(biāo)簽部分的學(xué)習(xí)則使用矩陣分解技術(shù)得到低維嵌入表示C及解碼矩陣D,避免了采用不合適的編碼函數(shù)的風(fēng)險(xiǎn)同時(shí),解決了編碼與解碼需要單獨(dú)學(xué)習(xí)的代價(jià);最后將特征與標(biāo)簽部分學(xué)習(xí)得到的低維表示聯(lián)系在一起,使得特征嵌入和標(biāo)簽嵌入能夠共同學(xué)習(xí)并得到一個(gè)共享潛在子空間用于模型的學(xué)習(xí)和預(yù)測(cè)階段.本文主要貢獻(xiàn)點(diǎn)如下:
1)Deep AE-MF 方法緊密耦合了SDAE 和矩陣分解,是一種新的基于深度學(xué)習(xí)和矩陣分解聯(lián)合學(xué)習(xí)的多標(biāo)簽分類算法.
2)特征嵌入過(guò)程使用SDAE 能夠有效地學(xué)習(xí)到數(shù)據(jù)淺層特征對(duì)應(yīng)的深層語(yǔ)義表示.
3)Deep AE-MF 方法將特征嵌入和標(biāo)簽嵌入進(jìn)行聯(lián)合學(xué)習(xí),能夠?yàn)樘卣髋c標(biāo)簽空間找到一個(gè)有效的潛在共享子空間,提高多標(biāo)簽分類算法的泛化性能.
4)實(shí)驗(yàn)部分通過(guò)在6 個(gè)常用的數(shù)據(jù)集上對(duì)比10 種多標(biāo)簽分類算法,證明了提出的Deep AE-MF方法的有效性.
隨著互聯(lián)網(wǎng)技術(shù)的普及,信息呈現(xiàn)指數(shù)式的爆炸增長(zhǎng),使得數(shù)據(jù)信息具有高維、無(wú)序及冗余等特點(diǎn).例如,在一個(gè)網(wǎng)絡(luò)社區(qū)中對(duì)某張圖片進(jìn)行標(biāo)記注解時(shí),其標(biāo)記可能需要從百萬(wàn)候選標(biāo)記中選擇.這些高維數(shù)據(jù)的出現(xiàn),使現(xiàn)有的基于PTM 和AAM 的多標(biāo)簽分類方法變的不可行[18],因?yàn)檫@些方法面對(duì)高維數(shù)據(jù)問(wèn)題時(shí),所需要的時(shí)間代價(jià)是不可負(fù)擔(dān)的.
為了解決上述問(wèn)題,文獻(xiàn)[34]提出利用標(biāo)簽之間存在的依賴關(guān)系對(duì)標(biāo)簽構(gòu)造一棵樹(shù)結(jié)構(gòu)用于多標(biāo)簽分類;文獻(xiàn)[35]采用部分標(biāo)簽代替全體標(biāo)簽的方法.這些方法只是在一定程度上緩解了高維多標(biāo)簽學(xué)習(xí)存在的時(shí)間花銷過(guò)高的問(wèn)題.
圖1 基于嵌入方法的兩種模型圖Fig.1 Illustration of models based on embedding method
為了更加有效地緩解高維數(shù)據(jù)帶來(lái)的時(shí)間花費(fèi)過(guò)大而影響算法性能的問(wèn)題,維度約減/嵌入技術(shù)被用于多標(biāo)簽學(xué)習(xí).維度約減/嵌入的方法大致可分為兩類:基于特征的維度約減(Feature space dimension reduction,FSDR)[19?23]和基于標(biāo)簽的維度約減(Label space dimension reduction,LSDR)[24?28].如圖1(a)所示,FSDR 首先將高維的特征空間X轉(zhuǎn)化至低維潛在空間C,接著在C與Y之間學(xué)習(xí)到一個(gè)映射h(C);對(duì)未知標(biāo)簽實(shí)例進(jìn)行預(yù)測(cè)時(shí),先將其對(duì)應(yīng)的高維特征轉(zhuǎn)化為低維表示,再利用映射h(C)得到最終的預(yù)測(cè).文獻(xiàn)[19]在BR算法框架上對(duì)每個(gè)獨(dú)立的二元分類問(wèn)題學(xué)習(xí)時(shí),使用無(wú)監(jiān)督線性方式將原始特征空間轉(zhuǎn)化為低維潛在空間,有效地減少了時(shí)間開(kāi)銷.文獻(xiàn)[20]指出在BR框架下,每個(gè)學(xué)習(xí)問(wèn)題的輸入都是相同的,可通過(guò)維度約減學(xué)習(xí)得到一個(gè)共享的子空間,不僅可以減少時(shí)間開(kāi)銷,還解決了當(dāng)標(biāo)簽高維時(shí)參數(shù)過(guò)多的問(wèn)題.文獻(xiàn)[19?20]均是采用線性方式對(duì)高維特征進(jìn)行低維嵌入學(xué)習(xí),但是在現(xiàn)實(shí)世界中,數(shù)據(jù)的高維表示與低維表示之間的關(guān)系,大都是非線性的.文獻(xiàn)[21]則是利用非線性的核函數(shù)對(duì)原始特征進(jìn)行非線性轉(zhuǎn)化,文獻(xiàn)[22?23]利用深度學(xué)習(xí)能夠挖掘提取特征之間深層關(guān)系的特性,進(jìn)一步對(duì)非線性關(guān)系探索,但由于只考慮到特征信息限制了模型的性能.LSDR 型嵌入學(xué)習(xí)則是針對(duì)高維的標(biāo)簽向量而提出的一種嵌入技術(shù),如圖1(b)所示,該方法先對(duì)高維的標(biāo)簽空間Y進(jìn)行編碼至低維潛在空間C,接著再進(jìn)行學(xué)習(xí)由X與C之間的映射h(X);當(dāng)對(duì)未知標(biāo)簽實(shí)例進(jìn)行預(yù)測(cè)時(shí),首先由映射h(X)得到低維標(biāo)簽表示的預(yù)測(cè)結(jié)果,然后再使用Q(解碼)得到最終的預(yù)測(cè)結(jié)果.文獻(xiàn)[24]首次采用基于標(biāo)簽嵌入的方法進(jìn)行多標(biāo)簽分類,它通過(guò)對(duì)稀疏的原始標(biāo)簽進(jìn)行探索,提出使用線性技術(shù)CS(Compress senseing)將原始標(biāo)簽空間轉(zhuǎn)化為低維標(biāo)簽空間C,再利用CoSaMP 重構(gòu)方法將C解碼為原始標(biāo)簽空間表示.作為對(duì)文獻(xiàn)[24]的進(jìn)一步研究,文獻(xiàn)[18]將標(biāo)簽重構(gòu)過(guò)程和分類模型預(yù)測(cè)過(guò)程進(jìn)行聯(lián)合優(yōu)化,提出基于貝葉斯框架的BLM-CS 方法用于進(jìn)行多標(biāo)簽分類.雖然文獻(xiàn)[18,24]能夠有效地減少面對(duì)高維數(shù)據(jù)時(shí)的多標(biāo)簽學(xué)習(xí)的時(shí)間開(kāi)銷,但是在對(duì)低維標(biāo)簽空間C轉(zhuǎn)化時(shí)未考慮標(biāo)簽之間存在的關(guān)系,限制了其模型的性能.于是文獻(xiàn)[25]提出PLST 方法在原始標(biāo)簽空間與低維標(biāo)簽空間重構(gòu)解碼過(guò)程中使用PCA 降維技術(shù),在對(duì)高維標(biāo)簽向量進(jìn)行約減的同時(shí)探索到標(biāo)簽間的關(guān)系.文獻(xiàn)[26]指出PLST 方法在進(jìn)行維度約減時(shí)只是單純地考慮標(biāo)簽信息卻沒(méi)有使用相關(guān)的特征信息,因此在PLST 方法基礎(chǔ)上提出CPLST 方法,在原始標(biāo)簽空間重構(gòu)的過(guò)程中引入相關(guān)的特征信息,進(jìn)一步提高模型對(duì)未標(biāo)記數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確率.文獻(xiàn)[27]提出FaIE 方法,在對(duì)原始標(biāo)簽矩陣空間Y轉(zhuǎn)化時(shí)使用矩陣分解技術(shù)得到低維空間表示C和解碼過(guò)程Q;與PLST 和CPLST 方法使用的顯式編碼相比,減少不恰當(dāng)使用編碼函數(shù)的風(fēng)險(xiǎn).文獻(xiàn)[28]也是基于標(biāo)簽嵌入型的方法.LSDR 與FSDR 均是以找到一個(gè)合適且有效的低維表示空間為目標(biāo),因此又可統(tǒng)一被稱為基于嵌入的方法.
由上述介紹可知,現(xiàn)有基于嵌入的方法中,少數(shù)工作利用核函數(shù)(如:多項(xiàng)式核、高斯核等)進(jìn)行非線性方式轉(zhuǎn)化;更少有工作在轉(zhuǎn)化時(shí)同時(shí)利用特征與標(biāo)簽信息.因此,本文提出Deep AE-MF 方法,將模型的預(yù)測(cè)與學(xué)習(xí)過(guò)程緊密耦合共同優(yōu)化學(xué)習(xí),在聯(lián)合嵌入學(xué)習(xí)過(guò)程中,不僅能夠?qū)⑻卣鞯姆蔷€性表示用于標(biāo)簽嵌入學(xué)習(xí)過(guò)程中,還能對(duì)標(biāo)簽間的關(guān)系進(jìn)行探索并加以利用,從而得到一個(gè)高效的多標(biāo)簽分類模型.
給定一個(gè)含有N個(gè)樣本的數(shù)據(jù)集其中X=[x1,x2,···,xN]T∈RN×d,Y∈RN×K,X指數(shù)據(jù)集的特征空間,Y指數(shù)據(jù)集的標(biāo)簽空間,N是數(shù)據(jù)集中樣本的個(gè)數(shù),d是特征向量的維度,K是標(biāo)簽向量的維度.對(duì)于實(shí)例對(duì)(xi,yi),xi是數(shù)據(jù)集中第i個(gè)實(shí)例對(duì)應(yīng)的特征向量,yi則是數(shù)據(jù)集中第i個(gè)實(shí)例對(duì)應(yīng)的標(biāo)簽向量,當(dāng)其含有第j個(gè)標(biāo)簽時(shí)有yij=1;否則,有yij=?1.在模型訓(xùn)練學(xué)習(xí)輸入時(shí)統(tǒng)一用(xtr,ytr)表示訓(xùn)練實(shí)例對(duì),測(cè)試輸入時(shí)統(tǒng)一用(xtest,ytest)表示測(cè)試實(shí)例對(duì),xtr和ytr分別指訓(xùn)練與測(cè)試時(shí)使用的實(shí)例對(duì)應(yīng)的特征向量,xtest和ytest分別指訓(xùn)練與測(cè)試時(shí)使用的實(shí)例對(duì)應(yīng)的標(biāo)簽向量.
定義1.多標(biāo)簽分類是指利用給定數(shù)據(jù)集學(xué)習(xí)到一個(gè)映射F:X →Y,當(dāng)給定一個(gè)測(cè)試實(shí)例(xtest,ytest),輸入xtest由映射F可正確地預(yù)測(cè)出ytest.
定義2.在多標(biāo)簽分類學(xué)習(xí)中,若在標(biāo)簽i出現(xiàn)的實(shí)例中,總是有標(biāo)簽j出現(xiàn)或標(biāo)簽j幾乎都不出現(xiàn),這種標(biāo)簽之間的共現(xiàn)或非共現(xiàn)現(xiàn)象被認(rèn)為標(biāo)簽間具有相關(guān)性;前者被稱作標(biāo)簽間正相關(guān)性,后者則是標(biāo)簽間負(fù)相關(guān)性.二者形式化定義分別如下:
式(1)統(tǒng)計(jì)的是任意兩個(gè)不同的標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)次數(shù),次數(shù)越大則認(rèn)為二者具有更強(qiáng)的正相關(guān)性(即二者具有更強(qiáng)的“正向依賴”關(guān)系);式(2)統(tǒng)計(jì)的是任意兩個(gè)不同的標(biāo)簽在數(shù)據(jù)集中的非共現(xiàn)次數(shù),次數(shù)越大則認(rèn)為二者具有更強(qiáng)的負(fù)相關(guān)性(即二者具有更強(qiáng)的“負(fù)向依賴”關(guān)系).
圖2 Deep AE-MF 算法模型圖Fig.2 The model of algorithm deep AE-MF
在標(biāo)簽嵌入方法的思想上結(jié)合深度學(xué)習(xí),提出一種多標(biāo)簽分類方法Deep AE-MF.如圖2 所示,Deep AE-MF 是基于SDAE 和矩陣分解的聯(lián)合嵌入學(xué)習(xí)模型.由文獻(xiàn)[36]可知使用SDAE 對(duì)原始特征矩陣X探索與學(xué)習(xí),可得到一個(gè)具有深層語(yǔ)義的低維表示L(即Fe(X));矩陣分解則是對(duì)標(biāo)簽矩陣Y直接分解學(xué)習(xí)得到Y(jié)在低維空間的潛在表示C及其解碼矩陣D(即Y=CDT).在訓(xùn)練過(guò)程中,將訓(xùn)練實(shí)例對(duì)(xtr,ytr)輸入到Deep AE-MF 模型中,由SDAE 和矩陣分解分別得到對(duì)應(yīng)的特征與標(biāo)簽低維空間表示,再利用CCA (Canonical correlation analysis)技術(shù)將兩者對(duì)應(yīng)的低維空間表示耦合在一起,使二者對(duì)應(yīng)的低維潛在表示具有最大相關(guān)性,即更小的差異性,以此為模型學(xué)習(xí)到合適的潛在低維空間C.于是,Deep AE-MF 方法的目標(biāo)函數(shù)如下所示:
其中,Φ1為特征嵌入學(xué)習(xí)損失,Φ2是標(biāo)簽嵌入學(xué)習(xí)損失,Φ3是指X與Y聯(lián)合嵌入學(xué)習(xí)共同子空間損失,Φ4則是模型中參數(shù)Θ 的正則化,α、β、λ、γ則是用于平衡各種損失的超參數(shù).
當(dāng)Deep AE-MF 模型學(xué)習(xí)完成后,能夠?qū)θ我廨斎腩A(yù)測(cè)其對(duì)應(yīng)的標(biāo)簽.即在Deep AE-MF 模型中輸入測(cè)試實(shí)例xtest后,首先xtest通過(guò)SDAE 中Fe編碼轉(zhuǎn)化為低維空間表示,接著再利用矩陣D進(jìn)行解碼得到最終預(yù)測(cè)結(jié)果ytest(即ytest=DFe(xtest)).下面將按照特征嵌入、標(biāo)簽嵌入及聯(lián)合嵌入三部分詳細(xì)介紹Deep AE-MF 模型.
2.2.1 特征低維嵌入學(xué)習(xí)
為了能夠?qū)⒏呔S特征空間X有效地轉(zhuǎn)化至低維嵌入空間L,且更好地探索二者間的非線性關(guān)系,使用SDAE 對(duì)特征進(jìn)行低維嵌入學(xué)習(xí).SDAE 是一種以自身輸入作為輸出的前饋神經(jīng)網(wǎng)絡(luò).如圖2 上部分所示,SDAE 結(jié)構(gòu)由5 層網(wǎng)絡(luò)構(gòu)成,以中間層為界,左邊幾層稱之為編碼層Fe,右邊幾層稱之為解碼層Fd,本文取SDAE 的中間層即Fe(X)作為X對(duì)應(yīng)的低維潛在空間L的表示.為了避免過(guò)擬合,保證找到有效潛在空間L,在對(duì)SDAE 輸入時(shí)加入高斯噪聲ε,式(3)中Φ1即為對(duì)特征低維嵌入學(xué)習(xí)時(shí)SDAE 產(chǎn)生的損失,其詳細(xì)形式如下所示:
其中,X ∈RN×d是對(duì)應(yīng)的未加入噪聲的真實(shí)輸入特征向量,ε ∈RN×d是指通過(guò)高斯分布產(chǎn)生的噪聲矩陣,矩陣內(nèi)的元素值均在0 與1 之間,X+ε ∈RN×d指加入高斯噪聲后的輸入,Fd(Fe(X+ε))是SDAE 的預(yù)測(cè)輸出,是指傅里葉標(biāo)準(zhǔn)化(即矩陣F-范數(shù)).為了簡(jiǎn)便,除非特別說(shuō)明,在下面的論述中(X+ε)均用X代替.
2.2.2 標(biāo)簽低維嵌入學(xué)習(xí)
如圖1(b)所示,現(xiàn)有的大多數(shù)的標(biāo)簽嵌入學(xué)習(xí)包括編碼P與解碼Q兩個(gè)獨(dú)立部分,通常對(duì)于編碼部分是基于某種假設(shè)得到編碼函數(shù)P.但基于某種假設(shè)構(gòu)造的顯式編碼函數(shù)可能會(huì)得到一個(gè)不恰當(dāng)、不準(zhǔn)確的低維嵌入轉(zhuǎn)化,弱化了模型的性能.為了避免這種風(fēng)險(xiǎn),本文對(duì)標(biāo)簽空間Y進(jìn)行無(wú)假設(shè)嵌入學(xué)習(xí)—使用矩陣分解技術(shù)直接得到Y(jié)的低維嵌入表示C和對(duì)應(yīng)的解碼矩陣D,同時(shí)隱式地對(duì)標(biāo)簽之間的關(guān)系進(jìn)行探索.為了提高對(duì)Y重構(gòu)的能力,Y與C、D之間的差異被期望最小化,式(3)中的Φ2(Y,C,D)是對(duì)Y與C、D之間差異的描述,具體形式如下表示:
Y指標(biāo)簽空間,yij是指Y中第i行第j列的元素值,C=[c1,c2,···,cN]T∈RN×s是對(duì)標(biāo)簽嵌入學(xué)習(xí)時(shí)利用矩陣分解得到的Y對(duì)應(yīng)的潛在空間表示,ci是指潛在空間表示C的第i列,D=[d1,d2,···,dK]T∈RK×s則是矩陣分解得到對(duì)C的解碼矩陣,dj是指潛在空間表示D的第j列,Pos(xi)是指xi含有的標(biāo)簽集合.為了簡(jiǎn)便,除非特別說(shuō)明,在接下來(lái)的論述中的形式均為C=[c1,c2,···,cN]T∈RN×s和D=[d1,d2,···,dK]T∈RK×s.
2.2.3 特征與標(biāo)簽聯(lián)合嵌入學(xué)習(xí)
為了提高對(duì)低維嵌入C的可預(yù)測(cè)性,C的學(xué)習(xí)過(guò)程中應(yīng)與實(shí)例的特征有著更強(qiáng)的相關(guān)性[37].本文使用CCA 技術(shù)將X與Y緊密耦合在一起,并使二者在低維空間具有最大相關(guān)性,以此得到一個(gè)共享潛在子空間C提高模型的性能.作為相關(guān)跨域數(shù)據(jù)(例如,輸入特征數(shù)據(jù)X及其標(biāo)簽數(shù)據(jù)Y)的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)方法,CCA 在最大化兩個(gè)域的投影空間的相關(guān)性時(shí)找到對(duì)應(yīng)的投影W1及W2,即最大化corr(WT1,WT2).當(dāng)使用DNN (Deep neural network)取代CCA 中對(duì)應(yīng)的兩個(gè)線性投影函數(shù)時(shí),就得到了DCCA 方法.該方法能夠以梯度下降法學(xué)習(xí)和更新與DNN 模型中具有類似目標(biāo)函數(shù)的參數(shù).
在本文中,Φ3(Fe,C)用于衡量特征和標(biāo)簽在低維潛在表示中的差異性,是標(biāo)簽與特征之間聯(lián)系的紐帶,對(duì)Φ3(Fe,C)使用CCA 技術(shù)并加入恒等約束[37],Φ3(Fe,C)有著如下的形式:
Fe指SDAE 中的編碼層,Fe(X)∈RN×s是指X經(jīng)過(guò)Fe得到潛在空間表示,Is ∈Rs×s是一個(gè)單位矩陣,s則是潛在空間的維度大小,C ∈RN×s是指對(duì)標(biāo)簽嵌入時(shí)得到的潛在空間表示.由文獻(xiàn)[38]可知,式(6)不僅具有的功能等同于標(biāo)準(zhǔn)CCA 方法的最大化相關(guān)性功能,而且能夠使用梯度下降方法有效地對(duì)參數(shù)更新.
多標(biāo)簽數(shù)據(jù)集中有相當(dāng)一部分比例的樣本含有的標(biāo)簽數(shù)量少于2,因此,在對(duì)Deep AE-MF 模型進(jìn)行訓(xùn)練學(xué)習(xí)時(shí),由于缺少豐富的標(biāo)簽共現(xiàn)信息(即標(biāo)簽間的正相關(guān)信息)不能對(duì)標(biāo)簽間的正相關(guān)信息進(jìn)行有效探索與利用,限制了模型的性能;然而,這些所含標(biāo)簽數(shù)量少于2 的樣本,卻擁有著豐富非共現(xiàn)信息(即標(biāo)簽間的負(fù)相關(guān)信息).為了能夠有效地利用標(biāo)簽間的這種負(fù)相關(guān)信息,本文在Deep AEMF 模型中引入標(biāo)簽負(fù)采樣策略,為每個(gè)實(shí)例采樣其對(duì)應(yīng)的負(fù)相關(guān)標(biāo)簽并用于模型訓(xùn)練學(xué)習(xí);關(guān)于采樣的具體方案見(jiàn)算法1.結(jié)合式(3)~式(6)Deep AE-MF+neg 的目標(biāo)函數(shù)可表示為:
Fe和Fd分別指SDAE 中的編碼層和解碼層,Fe(X)∈RN×s指X經(jīng)過(guò)Fe得到的低維表示,C ∈RN×s、D ∈RK×s分別指對(duì)標(biāo)簽嵌入時(shí)學(xué)習(xí)到的潛在空間表示與解碼矩陣,矩陣是由算法1 生成.若第i個(gè)實(shí)例含有標(biāo)簽j或通過(guò)采樣到標(biāo)簽j,則Mneg[i,j]=1;否則,Mneg[i,j]=0,Is ∈Rs×s是一個(gè)單位矩陣,s則是低維空間的維度大小,Φ4(Θ)表示對(duì)參數(shù)的正則化,其詳細(xì)描述見(jiàn)式(8).
這里的Wl和bl分別指SDAE 中每層的權(quán)值矩陣和偏置,1≤l ≤5,dj為D中的第j列.同理,Deep AE-MF 的目標(biāo)函數(shù)可表示成如下形式:
這里的M與式(7)中Mneg有所不同,Deep AEMF 算法在學(xué)習(xí)時(shí)未進(jìn)行負(fù)采樣,矩陣M中元素只與數(shù)據(jù)集的訓(xùn)練實(shí)例含有的標(biāo)簽有關(guān),即當(dāng)?shù)趇個(gè)實(shí)例含有標(biāo)簽j時(shí),有M[i,j]=1;否則,M[i,j]=0.
為了能夠得到Deep AE-MF 和Deep AEMF+neg 模型,需要對(duì)式(9)與式(7)進(jìn)行優(yōu)化學(xué)習(xí).由式(3)可知模型訓(xùn)練時(shí)的總損失表示中,Φ1(X)、Φ2(Y,C,D)、Φ3(Fe,C)、Φ4(Θ)分別是指特征低維嵌入損失,標(biāo)簽低維嵌入損失,子空間的學(xué)習(xí)損失,參數(shù)的正則化項(xiàng).
以Deep AE-MF 為例進(jìn)行優(yōu)化,Deep AE-MF模型包括SDAE 和矩陣分解兩個(gè)部分,對(duì)于SDAE部分的參數(shù)優(yōu)化,與現(xiàn)有的DNN 模型優(yōu)化方法一致使用梯度下降法;而對(duì)于矩陣分解部分的參數(shù)優(yōu)化則采用坐標(biāo)上升法.從圖2 和式(9)可以看出,Φ1(X)和Φ3(Fe,C)的梯度用于SDAE 部分參數(shù)優(yōu)化,Φ2(Y,C,D)和Φ3(Fe,C)的梯度則是用于矩陣分解部分的優(yōu)化,Φ4(Θ)對(duì)應(yīng)的是正則化項(xiàng),在兩部分參數(shù)更新時(shí)會(huì)有選擇的使用到其對(duì)應(yīng)的梯度.
對(duì)于矩陣分解部分的參數(shù)ci和dj進(jìn)行優(yōu)化,首先要給定SDAE 中的參數(shù)值,然后根據(jù)式(9)分別計(jì)算出參數(shù)ci和dj的梯度值,ci和dj的更新如下所示:
其中,Mi=diag{mi1,mi2,···,miK} ∈RK×K與Mj=diag{m1j,m2j,···,mNj} ∈RN×N分別是由矩陣M中的第i行、第j列生成的對(duì)角矩陣,矩陣M=[m1,m2,···,mN]T∈RN×K,C=[c1,c2,···,cN]T∈RN×s,D=[d1,d2,···,dK]T∈RK×s,Yi=(Yi1,Yi2,···,YiK)T∈RK×1是由標(biāo)簽矩陣Y的第i行組成.
關(guān)于SDAE 中參數(shù)Wl和bl更新,首先固定C和D的當(dāng)前值,接著使用反向傳播學(xué)習(xí)算法對(duì)SDAE 中的每層參數(shù)進(jìn)行更新,每層參數(shù)更新如下所示:
其中,Fe是指SDAE 中的編碼層,Fd則是指SDAE的解碼層,η是參數(shù)更新時(shí)的學(xué)習(xí)速率.
利用上述的方式對(duì)相應(yīng)的參數(shù)進(jìn)行更新優(yōu)化,可以學(xué)習(xí)到Deep AE-MF 模型,對(duì)于Deep AEMF+neg 進(jìn)行優(yōu)化學(xué)習(xí)時(shí),只需將式(10)與(11)中對(duì)應(yīng)的Mi和Mj替換為Mnegi和Mnegj即可.Deep AE-MF+neg 的學(xué)習(xí)過(guò)程偽代碼見(jiàn)算法1 與算法2.算法1 描述的是對(duì)標(biāo)簽進(jìn)行負(fù)采樣生成采樣矩陣的具體過(guò)程,它利用由式(2)得到的負(fù)相關(guān)性矩陣Neg對(duì)實(shí)例含有的標(biāo)簽采樣對(duì)應(yīng)負(fù)標(biāo)簽,采樣個(gè)數(shù)隨機(jī)生成.算法2 描述的是Deep AE-MF+neg的學(xué)習(xí)過(guò)程,它的輸入是特征空間X與標(biāo)簽空間Y及相關(guān)的超參數(shù)值.首先,在訓(xùn)練之前初始化模型所需的權(quán)值矩陣(步驟1);接著,由算法1 生成標(biāo)簽采樣矩陣Mneg(步驟2);然后,由輸入?yún)?shù)與前兩步的生成結(jié)果組成所需目標(biāo)函數(shù)(即式(7)),并按照式(10)~式(13)對(duì)目標(biāo)函數(shù)式(7)中的參數(shù)進(jìn)行迭代更新,直至目標(biāo)函數(shù)值不再變化或變化小于一定閾值(收斂)或達(dá)到最大迭代次數(shù)(步驟3).當(dāng)模型學(xué)習(xí)完成后,對(duì)于任意一個(gè)的測(cè)試實(shí)例xtest,可由ytest=DFe(xtest)的方式得到對(duì)應(yīng)標(biāo)簽預(yù)測(cè)值.
算法1.標(biāo)簽的負(fù)采樣過(guò)程
輸入.標(biāo)簽矩陣Y,標(biāo)簽數(shù)量K,樣本實(shí)例數(shù)量N.
輸出.標(biāo)簽負(fù)相關(guān)性矩陣Mneg.
步驟1.由式(2)和Y計(jì)算得到矩陣Neg ∈RK×K.
步驟2.初始化一個(gè)零矩陣Mneg∈RN×K.
步驟3.利用Y與Neg進(jìn)行采樣,得到Mneg
算法2.Deep AE-MF+neg 學(xué)習(xí)過(guò)程
輸入.特征矩陣X,標(biāo)簽矩陣Y,超參數(shù)λ、α、β、γ及潛在空間大小s.
輸出.Fe,Fd,D.
步驟1.隨機(jī)初始化Fe,Fd,C,D,高斯分布產(chǎn)生一個(gè)噪聲矩陣ε.
步驟2.由算法1 得到矩陣Mneg.
步驟3.重復(fù)步驟3 直至目標(biāo)函數(shù)收斂(即函數(shù)值不再變化或變化小于一定的閾值)或達(dá)到最大迭代次數(shù).
步驟3.1.按照式(7)計(jì)算出總損失,
步驟3.2.按照式(10)與式(11)更新矩陣分解中的參數(shù)C與D
步驟3.3.按照式(12)與式(13)更新Fe,Fd
為了驗(yàn)證本文提出的Deep AE-MF 和Deep AE-MF+neg 方法的性能,選取了6 個(gè)多標(biāo)簽數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測(cè)試,分別為enron、ohsumed1http://meka.sourceforge.net/、movieLens2https://grouplens.org/datasets/movielens/、Delicious、EURLex-4K3http://manikvarma.org/downloads/XC/XMLRepository.html和TJ4http://tjzhifei.github.io/resource.html,其中前5 個(gè)是英文類型的多標(biāo)簽數(shù)據(jù)集,最后一個(gè)則是中文類型數(shù)據(jù)集.由于enron、ohsumed、movieLens和TJ 這4 個(gè)數(shù)據(jù)集是原始字符數(shù)據(jù),為了能夠用于實(shí)驗(yàn),需要進(jìn)一步對(duì)這些數(shù)據(jù)進(jìn)行處理,對(duì)于英文類型的數(shù)據(jù)集進(jìn)行處理時(shí),刪除數(shù)據(jù)集中的停用詞、詞頻出現(xiàn)少于20 詞的單詞及一些非字符符號(hào)等,每個(gè)實(shí)例的特征向量表示在這里使用8 000 維的詞袋進(jìn)行表示;而對(duì)于中文數(shù)據(jù)集的處理,步驟與處理英文大體相同,但由于中文字詞之間不像英文有空格作為分割,在預(yù)處理之前,我們首先要進(jìn)行分詞,分詞采用通用的中文分詞工具ANSJ5https://github.com/NLPchina/ansjseg.數(shù)據(jù)集更詳細(xì)的描述見(jiàn)表1 和表2,由于EURLex-4K 和Delicious 數(shù)據(jù)集是非原始字符數(shù)據(jù),故在表2 中無(wú)須再介紹兩者的有關(guān)字符信息.
表1 多標(biāo)簽數(shù)據(jù)集相關(guān)統(tǒng)計(jì)Table 1 Multi-label datasets and associate statistics
多標(biāo)記學(xué)習(xí)框架中,每個(gè)實(shí)例可能同時(shí)擁有多個(gè)類別標(biāo)簽,因此,與單標(biāo)簽學(xué)習(xí)系統(tǒng)相比,多標(biāo)簽學(xué)習(xí)系統(tǒng)的評(píng)價(jià)準(zhǔn)則相對(duì)會(huì)更加復(fù)雜些.到目前為止,已有多種評(píng)價(jià)準(zhǔn)則被提出并廣泛地用于評(píng)價(jià)多標(biāo)簽學(xué)習(xí)系統(tǒng)的性能.現(xiàn)選取以下5 種評(píng)價(jià)準(zhǔn)則,即hamming loss[39]、基于標(biāo)簽的Macro-F1-label(或稱Macro-F1)與Micro-F1-label(或稱MicroF1)[40]、基于樣本實(shí)例的F1 值[41]及Precision at top K (P@K)[42],用于評(píng)價(jià)多標(biāo)簽學(xué)習(xí)系統(tǒng)的性能.在這5 個(gè)評(píng)價(jià)準(zhǔn)則中,后4 個(gè)的值越大表示模型的性能越好,最優(yōu)結(jié)果值均為1;而第1 個(gè)則是值越小表示模型的性能越好,最優(yōu)結(jié)果值為0.
為了驗(yàn)證本文提出的方法Deep AE-MF與Deep AE-MF+neg 的有效性,將Deep AEMF 和Deep AE-MF+neg 算法與10 個(gè)多標(biāo)簽學(xué)習(xí)算法,即BR[5]、LS-ML[20]、CCA-SVM[20]、CCAridge[20]、PLST[25]、CPLST[26]、FaIE[27]、LEML[28]、PD-sparse[43]、和 ML-CSSP[44]進(jìn)行實(shí)驗(yàn)比較.對(duì)比算法可分為三類:BR 代表的是經(jīng)典的問(wèn)題轉(zhuǎn)化算法;LS-ML、CCA-SVM、CCA-ridge代表的是基于特征嵌入/約減(FSDR)型的算法:MLCSSP、PLST、CPLST、FaIE、LEML、PDsparse 則是基于標(biāo)簽嵌入/約減(LSDR)型的算法,其中LEML、PD-sparse 主要是針對(duì)極限多標(biāo)簽分類的算法.對(duì)比算法代碼全部都是基于MatLab 實(shí)現(xiàn)的,其中BR 算法選擇SVM 作為其基分類器.對(duì)LS-ML、CCA-SVM 和CCA-ridge 三個(gè)方法的參數(shù)設(shè)置均按照文獻(xiàn)[27]最好的結(jié)果設(shè)置.對(duì)于MLCSSP、PLST、CPLST、FaIE、LEML、PDsparse 算法,超參數(shù)按照對(duì)應(yīng)文獻(xiàn)中的默認(rèn)值進(jìn)行設(shè)置.對(duì)于本文提出的Deep AE-MF 方法,SDAE 使用5 層的網(wǎng)絡(luò)結(jié)構(gòu),其中學(xué)習(xí)率選取大小范圍是{0.0001,0.001,0.01,0.1},對(duì)于平衡損失的超參數(shù)λ、α、β及γ設(shè)置范圍則均為{0.001,0.01,0.05,0.1,0.5,1,5,10,50,100,500,1 000},潛在空間維度大小選取范圍則是{0.1K,0.2K,···,K},K表示對(duì)應(yīng)數(shù)據(jù)集具有的標(biāo)簽個(gè)數(shù).實(shí)驗(yàn)結(jié)果表明:當(dāng)設(shè)置損失平衡超參數(shù)λ=100,β=1,α=50,γ=0.1,s=0.6K,學(xué)習(xí)率η=0.001 時(shí),Deep AE-MF 方法具有較好的穩(wěn)定的性能.為了能夠充分利用標(biāo)簽間的關(guān)系,Deep AE-MF+neg 模型考慮了標(biāo)簽間的負(fù)相關(guān)性(非共現(xiàn))信息,實(shí)驗(yàn)結(jié)果顯示利用加入的標(biāo)簽間的負(fù)相關(guān)性(非共現(xiàn))信息能夠提升模型性能.
將Deep AE-MF 和Deep AE-MF+neg 與其他10 種常見(jiàn)的多標(biāo)簽算法:BR、CCA-SVM、CCAridge、LS-ML、PLST、CPLST、MLCSSP、FaIE、LEML 和PD-sparse 進(jìn)行實(shí)驗(yàn)比較.根據(jù)5 種評(píng)價(jià)方式,表3~表7 分別列出了本文提出的方法與其他10 種對(duì)比算法在表1 中數(shù)據(jù)集上的詳細(xì)的實(shí)驗(yàn)結(jié)果,且對(duì)最好的結(jié)果進(jìn)行加粗表示(‘–’ 表示缺少實(shí)驗(yàn)結(jié)果數(shù)據(jù)).
表3 顯示算法Deep AE-MF 和Deep AEMF+neg 在6 個(gè)數(shù)據(jù)集中均有4 個(gè)數(shù)據(jù)集相比于對(duì)比算法有著更小的hamming loss 值,即有著最好的性能,而且在這4 個(gè)數(shù)據(jù)集中有3 個(gè)相對(duì)于次優(yōu)結(jié)果的算法分別有著3%~10% 左右的性能提高.但二者在ohsumed 和Delicious 上排在了較差的位置,與最優(yōu)結(jié)果相比有1.5% 左右的差距,從表1 的分析可以看出,ohsumed 數(shù)據(jù)集標(biāo)簽的平均密度相比于其他數(shù)據(jù)集過(guò)小,Delicious 數(shù)據(jù)集的特征維度偏小.在movieLens 數(shù)據(jù)中,Deep AEMF+neg 的性能略低于Deep AE-MF 性能,原因是Deep AE-MF+neg 沒(méi)有像Deep AE-MF 在預(yù)測(cè)時(shí)偏好于將大部分的標(biāo)簽預(yù)測(cè)為?1,在數(shù)據(jù)集中標(biāo)簽為?1 相對(duì)1 所占的比例是非常大的,故而將標(biāo)簽預(yù)測(cè)為?1,可有效地減少預(yù)測(cè)錯(cuò)誤率(即得到hamming loss 值更小).從6 個(gè)數(shù)據(jù)集中的綜合結(jié)果來(lái)看,Deep AE-MF 和Deep AE-MF+neg 是優(yōu)于其對(duì)比算法的.
從表4 中的結(jié)果可以看出:Deep AE-MF 和Deep AE-MF+neg 這兩種方法在6 個(gè)數(shù)據(jù)集上均取得了最好的結(jié)果,優(yōu)于所有的對(duì)比算法,表明SDAE 學(xué)習(xí)得到的非線性表示有利于分類模型性能的提高.其中Deep AE-MF+neg 方法好于Deep AE-MF 方法,說(shuō)明通過(guò)利用標(biāo)簽的負(fù)相關(guān)性(非共現(xiàn))信息可進(jìn)一步提高模型的性能.從表4 中可看出BR 方法的性能較差,而基于嵌入方法的性能大都排在中間位置.
從表5 中的顯示的結(jié)果看:Deep AEMF 和 Deep AE-MF+neg 方-法-在 movie-Lens、TJ、enron、Delicious 及EURLex-4K 這5 個(gè)數(shù)據(jù)集上取得了最好的性能,且在Delicious 和EURLex-4K 上與第3 名結(jié)果有接近10% 左右的性能提高;在ohsumed 中,基于特征嵌入的幾種方法取得了比較好的結(jié)果,比Deep AE-MF 方法提高了1.5% 左右,但是在其他數(shù)據(jù)集上的性能與Deep AE-MF 和Deep AE-MF+neg 方法相比要差很多.所以,在6 個(gè)數(shù)據(jù)上進(jìn)行綜合性能的比較,Deep AE-MF 和Deep AE-MF+neg 方法排在前兩位,采用了基于嵌入方法的算法排在中間位置,BR 最差.
表2 多標(biāo)簽數(shù)據(jù)集字符數(shù)量統(tǒng)計(jì)Table 2 The number of characters in a multi-label dataset
表3 基于hamming loss的性能比較Table 3 The hamming loss of ten multi-label algorithms with respect to different data sets
表4 基于Micro-F1-label 的性能比較Table 4 The Micro-F1-label of ten multi-label algorithms with respect to different data sets
表5 基于Macro-F1-label 的性能比較Table 5 The Macro-F1-label of ten multi-label algorithms with respect to different data sets
表6 基于F1 的性能比較Table 6 The F1 of ten multi-label algorithms with respect to different data sets
從表6 中的顯示的結(jié)果看:Deep AE-MF 和Deep AE-MF+neg 在enron、ohsumed、Delicious及EURLex-4K 上取得了最好的結(jié)果,但在movie-Lens 數(shù)據(jù)集中Deep AE-MF 和Deep AE-MF+neg則排在次優(yōu)位.原因是使用了線性與非線性轉(zhuǎn)化的LS-ML 方法能夠?qū)γ總€(gè)實(shí)例含有的標(biāo)簽進(jìn)行較好的預(yù)測(cè),但與LS ML 相比本文的方法也只相差2%和1.5%.對(duì)于數(shù)據(jù)集TJ,Deep AE-MF+neg 排在了第一位置,Deep AE-MF 則排在了中間偏低的位置,原因是這些LSDR 型算法在標(biāo)簽維度約減的過(guò)程都直接或間接的利用了標(biāo)簽關(guān)系信息,與Deep AE-MF 相比能夠找到一個(gè)更加有效的潛在低維標(biāo)簽空間.從綜合性能上,Deep AE-MF 和Deep AEMF+neg 仍然領(lǐng)先于對(duì)比算法,尤其是BR 方法和FSDR 型的方法.
表7 基于P@K 的性能比較Table 7 The P@K of six multi-label algorithms with respect to different data sets
表7 中的數(shù)據(jù)是有關(guān)Deep AE-MF 和Deep AE-MF+neg 與極限多標(biāo)簽分類算法在標(biāo)簽數(shù)量較大的數(shù)據(jù)集中實(shí)驗(yàn)結(jié)果,在性能比較時(shí),采用極限多標(biāo)簽分類常用的度量準(zhǔn)則P@K (Precision at top K).實(shí)驗(yàn)結(jié)果顯示當(dāng)取不同的K值時(shí),Deep AEMF 和Deep AE-MF+neg 均取得了最優(yōu)的結(jié)果,表明了本文提出的算法能夠較好解決標(biāo)簽維度過(guò)高的問(wèn)題,且有著不錯(cuò)的性能.
表3~表7 中在5 種評(píng)價(jià)標(biāo)準(zhǔn)上的實(shí)驗(yàn)結(jié)果顯示,提出的Deep AE-MF 和Deep AE-MF+neg 的方法明顯優(yōu)于其對(duì)比算法.在聯(lián)合嵌入學(xué)習(xí)過(guò)程中,SDAE 得到的非線性表示Fe(X),矩陣分解直接得到的低維標(biāo)簽表示C和解碼矩陣D,有利于學(xué)習(xí)找到一個(gè)泛化能力更好的分類模型.從表中可以看出Deep AE-MF+neg 的性能幾乎一直優(yōu)于Deep AE-MF,表明在對(duì)標(biāo)簽嵌入時(shí)利用標(biāo)簽之間的非共現(xiàn)信息可以進(jìn)一步提高算法的性能.
為了在統(tǒng)計(jì)上比較提出的算法與其對(duì)比算法在6 個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,采用顯著性水平為5% 的Students t test[45].在Deep AE-MF 與除Deep AE-MF+neg 外的算法對(duì)比檢驗(yàn)時(shí),以Deep AEMF 的性能差于或等于其對(duì)比算法的性能作為零假設(shè),以Deep AE-MF 的性能好于其對(duì)比算法性能作為備選假設(shè).從表8 中可以看出Deep AE-MF與每個(gè)對(duì)比算法在6 個(gè)數(shù)據(jù)集上的P值,在hamming loss 上只有一個(gè)是大于0.05 (即支持原假設(shè));在Micro-F1-label 上所有P值均小于0.05,即均支持Deep AE-MF 的性能是好于其對(duì)比算法;在Macro-F1-label 上,僅有兩個(gè)P值是大于0.05;綜合分析說(shuō)明Deep AE-MF 的性能優(yōu)于其他算法.對(duì)于Deep AE-MF 與Deep AE-MF+neg 性能檢驗(yàn)時(shí),以二者性能相當(dāng)作為零假設(shè),從表8 中可以看出在3 種評(píng)價(jià)準(zhǔn)則與6 個(gè)數(shù)據(jù)集上,18 個(gè)P值中只有2 個(gè)是大于0.05 (支持原假設(shè)),因此可認(rèn)為二者的性能是有顯著差異的.上述t test 的結(jié)果與分析驗(yàn)證本文提出算法的有效性.
3.5.1 超參α 的敏感性分析
為了驗(yàn)證超參數(shù)α對(duì)Deep AE-MF 性能的影響,在{1,5,10,···,1 000}中選擇不同值進(jìn)行實(shí)驗(yàn).本文在兩個(gè)數(shù)據(jù)集上使用三種評(píng)價(jià)方式來(lái)研究參數(shù)α對(duì)實(shí)驗(yàn)性能的影響,結(jié)果如圖3 所示.
從圖3 可以看出,對(duì)于hamming loss 在enron和TJ 兩個(gè)數(shù)據(jù)集上,隨著α的增加,曲線先下降再升高(即性能先上升再下降);對(duì)于基于標(biāo)簽的Macro-F1 和Micro-F1 在enron 和TJ 兩個(gè)數(shù)據(jù)集上,隨著α的增加,曲線先上升再下降(即性能先上升再下降).
由圖3 中可以得出α=50 附近時(shí),在enron 和TJ 上模型均有著最佳的性能.通過(guò)分析可以認(rèn)為,當(dāng)α <50 時(shí),特征和標(biāo)簽聯(lián)合嵌入所占比重過(guò)小,使得在對(duì)標(biāo)簽探索嵌入時(shí),過(guò)于注重對(duì)標(biāo)簽空間Y的重構(gòu),在學(xué)習(xí)標(biāo)簽潛在表示空間C時(shí)未能充分利用特征信息;當(dāng)α >50 時(shí),特征和標(biāo)簽聯(lián)合嵌入時(shí)所占比重過(guò)大,表明標(biāo)簽嵌入時(shí)在學(xué)習(xí)標(biāo)簽潛在表示空間C時(shí)偏好于使用特征信息,使模型降低對(duì)標(biāo)簽空間Y的學(xué)習(xí),導(dǎo)致對(duì)Y的重構(gòu)或預(yù)測(cè)能力下降.綜合對(duì)實(shí)驗(yàn)結(jié)果權(quán)衡分析,選取α=50 作為最終取值.
3.5.2 參數(shù)s 的敏感性分析
為找出能夠使Deep AE-MF 性能最佳時(shí)的潛在空間維度s值,在{0.1K,0.2K,···,K}中選擇不同s值進(jìn)行實(shí)驗(yàn),其中K表示數(shù)據(jù)集標(biāo)簽的個(gè)數(shù).本文在兩個(gè)數(shù)據(jù)集上使用三種評(píng)價(jià)方式來(lái)研究參數(shù)s對(duì)實(shí)驗(yàn)性能的影響,結(jié)果如圖4 所示.
表8 Students t test 結(jié)果P 值(加粗表示P 值大于0.05)Table 8 P value of Students t test results (Bold indicates that P value is greater than 0.05)
表8 Students t test 結(jié)果P 值(加粗表示P 值大于0.05)Table 8 P value of Students t test results (Bold indicates that P value is greater than 0.05)
圖3 α 的不同取值對(duì)數(shù)據(jù)集TJ 和enron 使用不同度量方式的性能體現(xiàn)Fig.3 The performance of Deep AE?MF on data sets TJ and Enronis with respect to different values of α and different metrics
圖4 s/K 的不同取值對(duì)數(shù)據(jù)集EURLex-4K 和enron 使用不同度量方式的性能體現(xiàn)Fig.4 The performance of Deep AE?MF on data sets EURLex-4K and enron with respect to different values of s/K and different metrics
從圖4 可以看出,對(duì)于hamming loss 在EURLex-4K 和enron 兩個(gè)數(shù)據(jù)集上,隨著s的增加,曲線總體先下降再升高(即性能先上升再下降);對(duì)于基于標(biāo)簽的Macro-F1 和MicroF1 在EURLex-4K 和enron 兩個(gè)數(shù)據(jù)集上,隨著s的增加,曲線總體先上升再下降(即性能先上升再下降).綜合衡量圖4 中的實(shí)驗(yàn)結(jié)果,EURLex-4K 和enron在s取值為0.6K附近時(shí)均達(dá)到最佳性能,因此選取s為0.6K作為最終的取值.
本文提出基于SDAE 和矩陣分解的多標(biāo)簽分類算法Deep AE?MF 及Deep AE?MF+neg.Deep AE?MF 算法通過(guò)對(duì)SDAE 和MF 進(jìn)行耦合得到一個(gè)特征嵌入和標(biāo)簽嵌入聯(lián)合學(xué)習(xí)框架,能夠有效地對(duì)特征非線性關(guān)系學(xué)習(xí)并同時(shí)用于標(biāo)簽嵌入學(xué)習(xí)中.Deep AE?MF+neg 算法在學(xué)習(xí)時(shí)利用標(biāo)簽之間的負(fù)相關(guān)(非共現(xiàn))信息特點(diǎn),提高標(biāo)簽嵌入學(xué)習(xí)以此最終提高模型的性能.實(shí)驗(yàn)結(jié)果表明,Deep AE?MF 及Deep AE?MF+neg 優(yōu)于對(duì)比算法,能夠有效地完成相關(guān)多標(biāo)簽分類任務(wù).