唐朝輝 朱清新 洪朝群 祝峰
基于自編碼器及超圖學習的多標簽特征提取
唐朝輝1,2朱清新1洪朝群2祝峰3
在實際應用場景中越來越多的數(shù)據(jù)具有多標簽的特性,且特征維度較高,包含大量冗余信息.為提高多標簽數(shù)據(jù)挖掘的效率,多標簽特征提取已經成為當前研究的熱點.本文采用去噪自編碼器獲取多標簽數(shù)據(jù)特征空間的魯棒表達,在此基礎上結合超圖學習理論,融合多個標簽對樣本間幾何關系的影響以提升特征提取的性能,構建多標簽數(shù)據(jù)樣本間幾何關系所對應超圖的Laplacian矩陣,并通過Laplacian矩陣的特征值分解得到低維投影空間.實驗結果證明了本文所提出的算法在分類性能上是有效可行的.
深度學習,自編碼器,多標簽,超圖,特征提取
引用格式唐朝輝,朱清新,洪朝群,祝峰.基于自編碼器及超圖學習的多標簽特征提取.自動化學報,2016,42(7): 1014-1021
多標簽學習是數(shù)據(jù)挖掘和信息檢索中很重要的主題[1[6]、圖像標注[10]以及圖像情景分類[11]等.多標簽學習面臨兩個重要的挑戰(zhàn).首先,傳統(tǒng)的單標簽學習中樣本的分類是互斥的,而多標簽學習中的分類類型相互依賴、相互關聯(lián).比如圖像標注應用中,一個圖像可能同時具有“樹”、“雨水”、“彩虹”以及“湖水”等標簽,而另一個圖則具有“樹”、“太陽”、“彩虹”以及“沙漠”等標簽,即不同的樣本可能具有部分相同的標簽.其次,多標簽數(shù)據(jù)通常具有較高維度的特征向量.比如一張圖像數(shù)據(jù)的維度可能是幾兆,一個文本的維度通常可以10k以上,而高維度的數(shù)據(jù)很容易導致“維度災難”.為了解決這個問題,研究者們已經提出了一些多標簽降維算法[1,12-14],雖然這些算法可以在一定程度上有效地融合多個標簽之間關系以實現(xiàn)高維多標簽數(shù)據(jù)的降維,但這些算法忽略了多標簽數(shù)據(jù)內含的噪聲以及樣本間幾何關系對于多標簽數(shù)據(jù)特征空間降維的影響,而這對于提高多標簽特征提取算法的性能至關重要.
為了有效提取高維多標簽數(shù)據(jù)的低維表達性能,本文首先利用去噪自編器對原始特征空間進行多層次抗干擾處理,以便提取出比原始特征空間更魯棒的表達;其次,利用超圖理論來挖掘多標簽特征空間樣本之間的幾何關系,并有效融合多個標簽對樣本間幾何關系的影響,構建出完備的Laplacian矩陣并通過矩陣的標準特征值分解獲得低維特征空間.
1.1多標簽學習
本文多標簽學習算法中,X表示特征空間,C 與Y表示標簽空間,并且它們都是非空有限集.
傳統(tǒng)學習機L=(X,C,T)的目標是通過學習獲得一個特征空間X與標簽空間C的映射,其中|C|=1,即單標簽分類器.大量的學者對單標簽分類器進行了深入研究,也取得了良好的分類性能,但單標簽分類器基于一個分類樣本只有一個特定的標簽的假設,而這個假設在很多實際應用場景中并不成立[6,11].因此越來越多的學者通過構建多標簽學習機來處理實際應用中越來越多的多標簽數(shù)據(jù)[4,9].
ML=(X,Y,T)定義了一個多標簽學習機,其中X是特征空間,Y是標簽空間是一個訓練集.是其中的一個訓練樣本,包含了一個對象所有的特征值是xi對應的標簽集合,n是訓練集中樣本的個數(shù),通常多標簽學習機的目標是通過學習獲得一個映射函數(shù)通常又稱為一個多標簽分類器.
多標簽特征提取算法假設所有的標簽共享一個特征子集.ARMLNRS[13]采用鄰域粗糙集技術以及貪婪策略對多標簽數(shù)據(jù)進行特征約簡,但不適用于圖像和文本處理;MLFSIE(Multi-label feature selection algorithm based on information entropy)[12]通過挖掘標簽與特征之間的信息增益來提取有效特征子集;Yu等[15]使用基于無監(jiān)督學習的潛在語義索引技術來獲取多標簽數(shù)據(jù)的低維特征空間,從而不能充分利用標簽與特征之間的關系來提升多標簽學習性能;Zhang等[1]通過最大化特征與標簽之間的依賴來識別最優(yōu)特征子集;Sun等[7]利用超圖理論分別構建特征空間與標簽空間的超圖并計算出保留超圖信息的特征子空間,該方法充分利用了特征與標簽之間的關系來提取特征,但忽略了樣本間幾何結構對提取特征子空間的影響.
1.2超圖學習
傳統(tǒng)采用圖與子空間的機器學習理論通?;诹餍渭僭O.首先,假設存在一個低維流形空間,在該空間上的一個較小的局部鄰域內樣本具有相似的性質,建立在此流形空間上的決策函數(shù)也具有局部平滑性;其次,在傳統(tǒng)圖模型中,樣本之間的關系是成對的,沒有考慮多個樣本之間存在一致的關聯(lián)[16-17].但在多標簽數(shù)據(jù)中多個樣本具有相同的性質,即包含相同的標簽,則需要構建多條邊來表達[18].
在超圖中,具有相同性質的多個頂點共享一條邊,因而可以使用超圖來提高樣本間幾何關系表達的效率和可靠性[19].基于超圖的樣本幾何關系表達已經用于多種應用,比如分類[20[22]以及信息檢索[23-24].
2.1自編碼器
深度學習在挖掘圖像潛在表達上非常有用,已經成為計算機視覺領域的研究熱點.自編碼器基于深度學習理論,是一種無監(jiān)督的特征學習方法,自編碼器的內層可以有效抽取圖像的內在表達,其學習策略可以抽象成一個最小化重構誤差的凸優(yōu)化問題:
對于去噪自編碼器,數(shù)據(jù)輸入x1,···,xn的局部數(shù)據(jù)被隨機地替換,從而對原始數(shù)據(jù)加入了人為的噪聲.表示加入噪聲后的結果,表示用來重構帶有人為噪聲輸入數(shù)據(jù)的一種映射.因此重構誤差的目標函數(shù)可以定義為:
最小化目標函數(shù)(2)的解在很大程度上取決于輸入數(shù)據(jù)的哪些特征被隨機損壞,為了降低重構過程的方差,本文采用MDA(Marginalized denoising auto-encoder)[25]對訓練數(shù)據(jù)進行多次處理,并且在每次處理過程中對輸入數(shù)據(jù)加入不同的隨機噪聲.最小二乘的損失函數(shù)可以重新定義為:
為了提高算法的處理效率,本文對輸入數(shù)據(jù)進行矩陣化處理.其中為輸入數(shù)據(jù)矩陣表示X的m次拷貝,而是加入隨機噪聲后的數(shù)據(jù).因為1/(2mn)是常量,對最小化損失函數(shù)無影響,因此損失函數(shù)(3)可簡化為式(4):
其中tr(·)代表矩陣的求跡操作.最小化式(4)是一個具有全局最優(yōu)解的最小二乘問題,其解為:
證明.因為式(4)是關于W的凸函數(shù),只需要滿足目標函數(shù)的極值必要條件,即將其方向導數(shù)所有分量置零,便可以求出問題的全局最優(yōu)解.
自編碼階段對原始多標簽數(shù)據(jù)特征空間進行了特征提取,提取的特征空間抗干擾能力更強,但由于沒有考慮標簽與特征空間之間的關聯(lián),且特征空間維度沒有減小,故在此基礎上構建的多標簽分類算法的學習精度和時間性能都會受到一定的制約.基于以上考慮,本文在自編碼的基礎上采用基于監(jiān)督的多標簽超圖學習以降低多標簽數(shù)據(jù)的特征維度.
2.2基于超圖的多標簽特征提取
為了更加清晰地描述本文提出的方法,首先定義幾個重要的標記,如表1所示.超圖中每個頂點對應一個樣本,每條超邊描述了多個樣本的共同屬性.為了求解超圖在平滑約束下的Laplacian矩陣,可以將問題近似為一個實值函數(shù)的優(yōu)化問題[18,22]:
為提高計算效率,將式(8)轉換成矩陣的形式:
其中,fLfT可視為f相對于超圖Laplacian矩陣L的平滑性度量,由式(8)可得L:
Zhang等[26]首次提出了批對齊框架(Patch alignment framework,PAF),該框架統(tǒng)一了基于譜分析的流形學習方法,是一個強大的流形學習分析、開發(fā)工具,它包含兩個階段:局部批構建階段與全局對齊階段.超圖的幾何結構可以由超圖對應的Laplacian矩陣表征,對于多標簽數(shù)據(jù)的每個標簽l,可以構建出一個Laplacian矩陣.
表1 重要的標記定義Table 1 Definitions of important notations
在局部批構建階段,PAF將高維的特征空間I映射到低維特征空間S,同時盡可能保持超圖的局部幾何結構不變,本文中I是通過自編碼器抽取的特征空間.對于每個標簽l以及每個單個的訓練樣本通過計算出ks個與具有相同l標簽值(0或1)的最近鄰的樣本集合knns以及kd個與具有不同l標簽值的最近鄰的樣本集合knnd,可以構建出局部批形成了一條超邊,對應一個代表局部幾何結構的子超圖,可以通過式(10)來構建局部Laplacian矩陣Li.相對應地,在低維特征空間S中,可以用相同的方式計算出在低維特征空間的局部批其中是xi∈I對應于低維特征空間的值.為了維持pi與集合中包含的樣本以及樣本排序的最大一致性,局部批優(yōu)化的目標函數(shù)可以表示成:
全局對齊階段,PAF利用樣本選擇矩陣Pi,滿足pi=IPi,來建立全局低維特征空間S與局部批的映射關系,即代入式(11)得到單個標簽l下的目標優(yōu)化函數(shù):
其中Ll定義為:
為了有效融合多個標簽對特征選擇的影響,本文將所有標簽對應的Laplacian矩陣Ll進行加權求和作為全局超圖幾何結構的表征矩陣,記為Lg.本文假設每個標簽的貢獻是均等的,因此Lg融合了多個標簽對樣本間局部幾何結構的影響,如式(14)所示.
其中|Y|是多標簽數(shù)據(jù)集標簽的個數(shù).
最后,通過Lg矩陣的標準特征值分解,得到r個最小非零特征值對應的特征向量(最小特征值可能為零),便得到了訓練集特征空間約簡后的特征空間.
2.3算法結構
本文新提出的多標簽特征提取算法稱之為MLFS-AH.MLFS-AH(Muti-label feature selection with autoencoders and hypergraph learning)首先采用去噪自編碼器對原始多標簽數(shù)據(jù)進行預處理,然后再使用基于超圖的多標簽學習融合多個標簽對多標簽數(shù)據(jù)特征提取的影響,并采用MLKNN[27]對特征提取的結果進行分類檢驗. MLFS-AH的具體步驟如下所示:
步驟1.構建m層的去噪自編碼器,該自編碼器接受多標簽數(shù)X為輸入,通過m層的自編碼處理,求解一個具有全局最優(yōu)解的最小二乘優(yōu)化問題提取出樣本空間的魯棒表達,從而有效提高多標簽數(shù)據(jù)的抗干擾性.重構數(shù)據(jù)的映射矩陣由式(5)得出,重構后的數(shù)據(jù)記為X′.
步驟2.對于單個標簽l∈Y以及單個訓練樣本xi∈X′,計算出ks個與xi∈X′具有相同標簽的最近鄰的樣本集合knns以及kd個與xi∈I具有不同標簽的最近鄰的樣本集合knnd.xi∪knns∪knnd形成了一條超邊,對應的局部批可以由式(10)計算得出,全局對齊則由式(13)給出,記為Ll.
步驟3.重復步驟2直到遍歷所有的標簽.
步驟4.對于所有的標簽{l|l∈Y},融合多個標簽對樣本間幾何結構的影響,由式(14)得到全局超圖樣本間幾何結構的表征矩陣Lg.
步驟5.求解Laplacian矩陣Lg的標準特征值分解,得到r個最小的非零特征值對應的特征向量集合,該集合構成的特征空間即是約簡后的特征空間,該特征空間的樣本維度是r.
步驟6.使用MLKNN多標簽分類算法對提取出來的特征空間進行多標簽分類,驗證特征提取算法的分類性能.
2.4算法分析
算法的復雜度包含空間復雜度和時間復雜度.算法主要分為兩個階段:去噪自編碼和特征約簡.去噪自編碼是具有全局最優(yōu)解的凸優(yōu)化問題,所以算法復雜度相對較小,本節(jié)主要討論特征約簡算法的復雜度.
特征約簡階段的空間復雜度主要在于超圖的矩陣表達,包含Dv,De,?,H.其中超圖中頂點數(shù)目|V|等于多標簽數(shù)據(jù)的樣本個數(shù),超邊數(shù)目|E|=|V|×|Y|,其中|Y|表示標簽的個數(shù).矩陣表達的空間復雜度如表2所示.
表2 算法空間復雜度Table 2 Space consumption
特征約簡階段的時間復雜度主要在Laplacian矩陣的特征值分解,為O(|V|3).
3.1數(shù)據(jù)集與度量指標
本文提出的多標簽特征提取算法在5個公開數(shù)據(jù)集上測試,數(shù)據(jù)集的具體信息如表3所示.
表3 數(shù)據(jù)集信息Table 3 Information of data sets
實驗在如表3所示的數(shù)據(jù)集上做十折交叉驗證.在此過程中,每個數(shù)據(jù)集都被分成了10個近似大小的子集,在每次的交叉驗證中,其中的1個子集被保留作為測試集,剩下的作為算法的訓練集,所以這個過程會重復10次以提高測試的準確性和結果的可推廣性.
檢驗一個多標簽算法的有效性通常比檢驗單標簽算法更加復雜.給定一個測試集T={(xi,li)|1≤i≤n},可以采用目前流行和有效的多標簽評價指標來驗證算法的有效性,本文采用其中4個評價指標[27]:OneError,Coverage,RankingLoss和AveragePrecision.
OneError用來衡量所有單個訓練樣本xi∈X中具有最高rank(xi,yi)值的標簽yi∈Y被分類器預測為不屬于該樣本的次數(shù).OneError(Conf,T)值越小,多標簽分類器的分類性能越好.
Coverage用來計算所有訓練樣本以及預測出來的標簽序列T,需要平均移動多少步才可以遍歷完所有正確預測的標簽.Coverage(Conf,T)的值越小,表明多標簽分類器的分類性能越好.
RankingLoss用來度量對于所有的單個訓練樣本,預測結果中出現(xiàn)不相關標簽比相關標簽具有更低rank值的次數(shù).RankingLoss(Conf,T)的值越小,表明多標簽分類器的分類性能越好.
假設Precision是某個樣本xi∈X 預測標簽中 rank值低于某個特定被正確預測標簽的所有標簽的百分比,AveragePrecision則是所有訓練樣本的 Precision的平均值. AveragePrecision(Conf,T)值越大,表明多標簽分類器的分類性能越好.
本文所有的實驗均在 4GB RAM 以及2.40GHz Intel至強4核處理器的主機上完成.
3.2參數(shù)優(yōu)化
MLFS-AH中有三個重要的參數(shù)ks,kd與r.參數(shù)的取值對算法的性能有直接的影響,所以在對比MLFS-AH與其他的算法性能前,需要對ks,kd與r進行一定的調優(yōu).由于不同數(shù)據(jù)集特征維度的差異較大,本文實驗中r分別取r∈[5:5:350],通過充分的實驗表明,r對于數(shù)據(jù)集Emotions,Yeast,Scene,Birds,Computer分別取15,30,20,45,60時算法MLFS-AH的訓練結果最好,其值繼續(xù)增加不能顯著提高算法的分類性能,故以下實驗中對于表3中給出的5個數(shù)據(jù)集r分別取15,30,20,45,60.對于ks,kd,在算法訓練階段對參數(shù)進行調優(yōu)過程中,先固定其中一個參數(shù)的值,然后調整另一個參數(shù).結果分別如圖1和圖2所示.
圖1 參數(shù)ks對AveragePrecision的影響(kd=3)Fig.1 The influences of ksto AveragePrecision(kd=3)
圖2 參數(shù)kd對AveragePrecision的影響(ks=8)Fig.2 The influences of kdto AveragePrecision(ks=8)
由圖1可知,當ks分別取8,7,8,8,7且kd=3時,算法MLFS-AH在AveragePrecision上的性能最優(yōu);由圖2可知,當kd分別取3,3,3,2,2且ks=8時,算法MLFS-AH在AveragePrecision上的性能最優(yōu).
3.3算法比較
本文將MLFS-AH與ARMLNRS[13],MLFSIE[12],F(xiàn)MLFS[28]三個多標簽特征提取算法進行性能對比.為保證可對比性,本文均采用MLKNN作為分類器,對提取出來的特征進行分類檢驗.OE,Cov,RL以及AP分別代表OneError,Coverage,RankingLoss和AveragePrecision. 實驗結果如表4~8所示,其中params=(ks,kd,r)是一個三元組,且每個評價指標的最優(yōu)結果用粗體標出.需要指明的是表中只列出了十折交叉驗證的均值,沒有列出十次結果的標準方差;對于每一個評價指標,↓表示越小越好,↑則相反.下文中對比算法采用代號,分別是a0:MLKNN;al:ARMLNRS;a2:MLFSIE;a3:FMLFS.
表4 數(shù)據(jù)集Emotions測試結果(params=(8,3,15))Table 4 Results on Emotions(params=(8,3,15))
為了更清晰地描述算法性能差異的顯著性,本文定義一個偏序?.對于每個數(shù)據(jù)集以及選中某個評價指標,如果一個算法alg1在統(tǒng)計上顯著優(yōu)于算法alg2,那么可以表示為:alg1?alg2.首先,本文采用十折交叉驗證測試某個算法的性能可獲得的一組數(shù)值結果,包含10個數(shù)值;然后采用雙尾成對t檢驗,驗證對比的兩個算法性能是否在給定評價指標上存在顯著的差異,其中顯著性水平置為5%,即如果統(tǒng)計出兩個算法平均性能相等的概率小于5%,則可以等價地認為兩個算法的平均性能在特定顯著性水平下存在顯著差異.
對數(shù)據(jù)集Emotions上的實驗結果做雙尾成對t檢驗,得到以下性能差異顯著性結果:對于OE,RL,AP,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,MLFS-AH?a3;對于Cov,除a3 ?MLFS-AH外,均有MLFS-AH?a0,MLFS-AH ?a1,MLFS-AH?a2.
對數(shù)據(jù)集Yeast上的測試結果做雙尾成對t檢驗,得到以下性能差異顯著性結果:對于OE,Cov,AP,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,MLFS-AH?a3;對于RL,a3稍優(yōu)于MLFS-AH,且MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,如表5所示.
表5 數(shù)據(jù)集Yeast測試結果(params=(7,3,30))Table 5 Results on Yeast(params=(7,3,30))
對數(shù)據(jù)集Scene上的測試結果做雙尾成對t檢驗,得到以下性能差異顯著性結果:對于OE,RL,AP,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,MLFS-AH?a3;對于Cov,a3稍優(yōu)于MLFS-AH,且MLFS-AH?a0,MLFS-AH ?a1,MLFS-AH?a2,如表6所示.
表6 數(shù)據(jù)集Scene測試結果(params=(8,3,20))Table 6 Results on Scene(params=(8,3,20))
對數(shù)據(jù)集Birds上的測試結果做雙尾成對t檢驗,得到以下性能差異顯著性結果:對于OE,RL,AP,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,MLFS-AH?a3;對于Cov,除a3稍優(yōu)于MLFS-AH外,均有MLFS-AH?a0,MLFSAH?a1,MLFS-AH?a2,如表7所示.
對數(shù)據(jù)集Computer上的測試結果做雙尾成對t檢驗,得到以下性能差異顯著性結果:對于OE,Cov,AP,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,MLFS-AH?a3;對于RL,除a3稍優(yōu)于MLFS-AH外,均有MLFS-AH?a0,MLFS-AH?a1,MLFS-AH?a2,如表8所示.
綜上,MLFS-AH的總體性能顯著優(yōu)于MLFSIE,ARMLNRS以及FMLFS.FMLFS和MLFSAH都考慮了樣本之間幾何關系對特征提取性能的影響,但由于MLFS-AH對原始的特征空間做了抗干擾處理,且對于同一個標簽在構建超邊時同時考慮了同類近鄰與異類近鄰對樣本幾何關系的影響,并對多個標簽的影響進行融合,所以幾何關系的表達更加精確,特征提取的性能總體上更優(yōu).
表7 數(shù)據(jù)集Birds測試結果(params=(8,2,45))Table 7 Results on Birds(params=(8,2,45))
表8 數(shù)據(jù)集Computer測試結果(params=(7,2,60))Table 8 Results on Computer(params=(7,2,60))
本文提出了一個基于自編碼器與超圖學習的多標簽數(shù)據(jù)特征提取算法.首先該算法采用去噪自編碼器提取原特征空間的魯棒表達,使得特征提取算法抗干擾性更強;然后基于超圖理論和PAF框架構建每個標簽產生的樣本之間的幾何結構,并融合多個標簽對幾何結構的影響得到全局Laplacian矩陣;最后通過Laplacian矩陣的特征值分解得到約簡的特征空間.針對公開數(shù)據(jù)集的實驗結果表明本文的算法優(yōu)于對比算法,是有效可行的.
References
1 Zhang Y,Zhou Z H.Multi-label dimensionality reduction via dependence maximization.In:Proceedings of the 23rd AAAI Conference on Artificial Intelligence.Chicago,USA:AAAI Press,2008.1503-1505
2 Fu Zhong-Liang.Cost-sensitive ensemble learning algorithm for multi-label classification problems.Acta Automatica Sinica,2014,40(6):1075-1085(付忠良.多標簽代價敏感分類集成學習算法.自動化學報,2014,40(6):1075-1085)
3 Zhang Chen-Guang,Zhang Yan,Zhang Xia-Huan.Normalized dependence maximization multi-label semi-supervised learning method.Acta Automatica Sinica,2015,41(9):1577-1588(
張晨光,張燕,張夏歡.最大規(guī)范化依賴性多標記半監(jiān)督學習方法.自動化學報,2015,41(9):1577-1588)
4 Zhang M L,Zhang K.Multi-label learning by exploiting label dependency.In:Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.Washington,USA:ACM,2010.999-1008
5 Hariharan B,Zelnik-Manor L,Vishwanathan S V N,Varma M.Large scale max-margin multi-label classification with priors.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel:Omnipress,2010. 423-430
6 Elisseeff A,Weston J.A kernel method for multi-labelled classification.In:Proleedings of the 2001 Advances in Neural Information Processing Systems 14.British Columbia,Canada:MIT Press,2001.681-687
7 Sun L,Ji S W,Ye J P.Hypergraph spectral learning for multi-label classification.In:Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Las Vegas,USA:ACM,2008.668-676
8 Zhang M L,Zhou Z H.A review on multi-label learning algorithms.IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1819-1837
9 Gibaja E,Ventura S.A tutorial on multi-label learning. ACM Computing Surveys,2015,47(3):Article No.52
10 Tian Feng,Shen Xu-Kun.Large scale web image online annotation by learning label set relevance.Acta Automatica Sinica,2014,40(8):1635-1643(田楓,沈旭昆.基于標簽集相關性學習的大規(guī)模網絡圖像在線標注.自動化學報,2014,40(8):1635-1643)
11 Boutell M R,Luo J B,Shen X P,Brown C M.Learning multi-label scene classification.Pattern Recognition,2004,37(9):1757-1771
12 Zhang Zhen-Hai,Li Shi-Ning,Li Zhi-Gang,Chen Hao. Multi-label feature selection algorithm based on information entropy.Journal of Computer Research and Development,2013,50(6):1177-1184(張振海,李士寧,李志剛,陳昊.一類基于信息熵的多標簽特征選擇算法.計算機研究與發(fā)展,2013,50(6):1177-1184)
13 Duan Jie,Hu Qing-Hua,Zhang Ling-Jun,Qian Yu-Hua,Li De-Yu.Feature selection for multi-label classification based on neighborhood rough sets.Journal of Computer Research and Development,2015,52(1):56-65(段潔,胡清華,張靈均,錢宇華,李德玉.基于鄰域粗糙集的多標記分類特征選擇算法.計算機研究與發(fā)展,2015,52(1):56-65)
14 Sun L,Ji S W,Ye J P.Multi-label Dimensionality Reduction.Britain:Chapman and Hall/CRC Press,2013.34-49
15 Yu K,Yu S P,Tresp V.Multi-label informed latent semantic indexing.In:Proceedings of the 28th Annual International ACM SIGIR Conference on Research&Development in Information Retrieval.Salvador,Brazil:ACM,2005.258-265
16 Tao D C,Li X L,Wu X D,Maybank S J.General tensor discriminant analysis and Gabor features for gait recognition. IEEE Transactions on Pattern Analysis&Machine Intelligence,2007,29(10):1700-1715
17 Tao D C,Li X L,Wu X D,Maybank S J.Geometric mean for subspace selection.IEEE Transactions on Pattern Analysis&Machine Intelligence,2009,31(2):260-274
18 Zhou D Y,Huang J Y,Sch¨olkopf B.Learning with hypergraphs:clustering,classification,and embedding.In:Proceedings of the 2007 Advances in Neural Information Processing Systems.Vancouver,Canada:MIT Press,2007,1601-1608
19 Berge C.Hypergraphs:Combinatorics of Finite Sets.Amsterdam:North-Holland,1989.83-96
20 Gao Y,Chua T S.Hyperspectral image classification by using pixel spatial correlation.In:Proceedings of the 19th International Conference on Advances in Multimedia Modeling.Huangshan,China:Springer,2013.141-151
21 Yu J,Tao D C,Wang M.Adaptive hypergraph learning and its application in image classification.IEEE Transactions on Image Processing,2012,21(7):3262-3272
22 Shi J B,Malik J.Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis&Machine Intelligence,2000,22(8):888-905
23 Gao Y,Wang M,Tao D C,Ji R R,Dai Q H.3-D object retrieval and recognition with hypergraph analysis.IEEE Transactions on Image Processing,2012,21(9):4290-4303
24 Hong C Q,Zhu J K.Hypergraph-based multi-example ranking with sparse representation for transductive learning image retrieval.Neurocomputing,2013,101:94-103
25 Chen M M,Weinberger K,Sha F,Bengio Y.Marginalized denoising auto-encoders for nonlinear representations.In:Proceedings of the 31st International Conference on Machine Learning.Beijing,China,2014.1476-1484
26 Zhang T H,Tao D C,Li X L,Yang J.Patch alignment for dimensionality reduction.IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1299-1313
27 Zhang M L,Zhou Z H.ML-KNN:a lazy learning approach to multi-label learning.Pattern Recognition,2007,40(7):2038-2048
28 Lee J,Kim D W.Fast multi-label feature selection based on information-theoretic feature ranking.Pattern Recognition,2015,48(9):2761-2771
唐朝輝電子科技大學信息與軟件工程學院博士研究生.2009年獲得湖南大學碩士學位.主要研究方向為機器學習與計算機視覺.
E-mail:chhtang@xmut.edu.cn
(TANG Chao-HuiPh.D.candidate at the School of Information and SoftwareEngineering,Universityof Electronic Science and Technology of China.He received his master degree from Hunan University in 2009.His research interest covers machine learing and computer vision.)
朱清新電子科技大學信息與軟件工程學院教授.1993年獲得渥太華大學博士學位.主要研究方向為生物信息學,信息檢索.E-mail:qxzhu@uestc.edu.cn
(ZHU Qing-XinProfessor at the School of Information and Software Engineering,University of Electronic Science and Technology of China.He received his Ph.D.degree from University of Ottawa in 1993. His research interest covers bioinformatics and information retrieval.)
洪朝群廈門理工學院計算機與信息工程學院副教授.2011年獲得浙江大學博士學位.主要研究方向為計算機視覺與機器學習.
E-mail:cqhong@xmut.edu.cn
(HONG Chao-QunAssociate professor at the School of Computer and Information Engineering,Xiamen University of Technology.He received his Ph.D.degree from Zhejiang University in 2011.His research interest covers computer vision and machine learning.)
祝峰閩南師范大學教授.2006年獲得奧克蘭大學博士學位.主要研究方向為數(shù)據(jù)挖掘與人工智能.本文通信作者. E-mail:williamfengzhu@gmail.com
(ZHU WilliamProfessor at Minnan Normal University.He received his Ph.D.degree from Oakland University in 2006.His research interest covers data mining and artificial intelligence.Corresponding author of this paper.)
Multi-label Feature Selection with Autoencoders and Hypergraph Learning
TANG Chao-Hui1,2ZHU Qing-Xin1HONG Chao-Qun2ZHU William3
In practical application scenarios,more and more data tend to be assigned with multiple labels and contain much redundant information in the high dimensional feature space.To improve the efficiency and effectiveness of multilabel data mining,multi-label data feature selection has become a hotspot.This paper utilizes denoising autoencoders to obtain a more robust version of multi-label data feature representation.Furthermore,based on hypergraph learning theory,a hypergraph Laplacian matrix corresponding to multi-label data is constructed by fusing the effects of all labels on geometrical relationship among all the samples,and then a projection space with lower dimension is obtained by conducting eigenvalue decomposition of the Laplacian matrix.Experimental results demonstrate the effectiveness and feasibility of the proposed algorithm according to its multi-label data classification performance.
Deep learning,autoencoders,multi-label,hypergraph,feature selection
10.16383/j.aas.2016.c150736
Tang Chao-Hui,Zhu Qing-Xin,Hong Chao-Qun,Zhu William.Multi-label feature selection with autoencoders and hypergraph learning.Acta Automatica Sinica,2016,42(7):1014-1021
2015-11-09錄用日期2016-05-03
Manuscript received November 9,2015;accepted May 3,2016國家自然科學基金(61300192,61472110,61573297,61379049),中央高?;究蒲许椖浚╖YGX2014J052),福建省自然科學基金(2014J01256,2015J01277)資助
Supported by National Natural Science Foundation of China (61300192,61472110,61573297,61379049),the Fundamental Research Funds for the Central Universities(ZYGX2014J052),andtheNaturalScienceFoundationofFujianProvince (2014J01256,2015J01277)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.電子科技大學信息與軟件工程學院成都 6117312.廈門理工學院計算機與信息工程學院廈門3610243.閩南師范大學粒計算實驗室漳州363000
1.School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 611731 2.School of Computer and Information Engineering,Xiamen University of Technology,Xiamen 3610243.Laboratory of Granular Computing,Minnan Normal University,Zhangzhou 363000