何 添,沈宗鑫,黃倩倩,黃雁勇*
(1.西南財經(jīng)大學(xué) 統(tǒng)計學(xué)院,成都 611130;2.西南交通大學(xué) 計算機與人工智能學(xué)院,成都 611756)
隨著信息技術(shù)的不斷進步和快速發(fā)展,各行各業(yè)涌現(xiàn)出海量高維數(shù)據(jù)。有效分析這些數(shù)據(jù)是數(shù)據(jù)挖掘和機器學(xué)習(xí)的一項重要任務(wù)。特征選擇[1-2]可以消除高維數(shù)據(jù)中冗余和嘈雜特征帶來的負(fù)面影響,提升算法執(zhí)行效率,降低存儲成本并提高學(xué)習(xí)模型的性能和可解釋性。近年來,特征選擇在許多領(lǐng)域發(fā)揮著越來越重要的作用,如模式識別[3-4]、機器學(xué)習(xí)[5-6]、數(shù)據(jù)挖掘[7-8]、統(tǒng)計分析[9-10]等。
根據(jù)數(shù)據(jù)來源的不同,特征選擇可以分為單視圖特征選擇和多視圖特征選擇。多視圖特征選擇在特征選擇過程中使用了多個視圖數(shù)據(jù),利用了不同視圖之間豐富的相關(guān)性和互補性信息,使得視圖之間起到相互促進和增強的作用。此外,每一個視圖數(shù)據(jù)都具有一定的特征空間,具有特定的統(tǒng)計特性和意義。因此多視圖特征選擇往往比單視圖特征選擇有更好的性能。此外,根據(jù)標(biāo)簽信息的可用性,特征選擇可以分為監(jiān)督、半監(jiān)督和無監(jiān)督特征選擇。由于現(xiàn)實應(yīng)用場景中的數(shù)據(jù)很大一部分未經(jīng)標(biāo)注,這意味著這些數(shù)據(jù)對于目前的監(jiān)督學(xué)習(xí)來說不可用。人工標(biāo)記數(shù)據(jù)雖然可以解決部分問題,但通常來說標(biāo)簽難以獲得且成本很高。因此,由于缺乏標(biāo)簽信息,無監(jiān)督特征選擇更加實用但也更具挑戰(zhàn)性。所以本文主要研究無標(biāo)簽情況下的多視圖特征選擇問題。
近年來,許多多視圖無監(jiān)督特征選擇方法被相繼提出。這些方法大致可以分為兩類:一類是將多視圖數(shù)據(jù)拼接組合成單視圖數(shù)據(jù),然后在拼接后的數(shù)據(jù)上執(zhí)行傳統(tǒng)的單視圖特征選擇方法,即基于多視圖連接的方法。如拉普拉斯評分(Laplacian Score,LapScore)[11]、光譜特征選擇(Spectral Feature Selection,SPEC)[12]和最小冗余光譜特征選擇(Feature Selection with Minimum Redundancy,MRSF)[13]等。LapScore 用于衡量每個特征保持樣本相似性的能力;SPEC提出了一個基于譜理論的通用學(xué)習(xí)框架來統(tǒng)一無監(jiān)督和監(jiān)督特征選擇;MRSF 采用嵌入式的方法來處理光譜特征,剔除特征冗余實現(xiàn)特征選擇。這類方法雖然通過簡單地連接不同的視圖解決了多視圖特征選擇中的一些問題并取得了一定的成功,但沒有考慮到不同視圖特征空間的差異以及不同視圖所提供的信息的互補性;此外,它們增加了特征選擇的計算復(fù)雜性,甚至可能造成維度災(zāi)難。
另一類方法是基于多視圖學(xué)習(xí)的思想直接進行多視圖特征選擇。如AMFS(Adaptive Multi-view Feature Selection)[14]、MVFS(unsupervised Feature Selection for Multi-View data)[15]和AUMFS(Adaptive Unsupervised Multi-view Feature Selection)[16]等。這類方法通常先進行多視圖數(shù)據(jù)樣本的相似性表示得到樣本相似矩陣,再考慮光譜空間中相似結(jié)構(gòu)的線性組合,最后實現(xiàn)特征選擇。在特征選擇過程中,這些方法中的結(jié)構(gòu)相似度矩陣是被預(yù)先計算好且保持不變的;但是數(shù)據(jù)中的噪聲和離群點會影響相似結(jié)構(gòu)的可靠性,最終影響特征選擇的效果。因此,其他幾種基于多視圖集成的特征選擇方法針對上述情況進行了改進,如自適應(yīng)協(xié)作相似性學(xué)習(xí)(Adaptive Collaborative Similarity Learning,ACSL)[17]。與AUMFS 通過簡單線性組合不同視圖的結(jié)構(gòu)相似度矩陣不同,ACSL 通過自適應(yīng)學(xué)習(xí)的方式來得到結(jié)構(gòu)相似度矩陣;同時,ACSL 學(xué)習(xí)了一個稀疏回歸模型,該模型將來自不同視圖的數(shù)據(jù)映射到結(jié)構(gòu)相似度矩陣中,利用稀疏模型進行特征選擇。ASVW(multi-view unsupervised feature selection with Adaptive Similarity and View Weight)[18]自適應(yīng)地利用多視圖數(shù)據(jù),從多視圖數(shù)據(jù)中學(xué)習(xí)一致相似度矩陣,并采用具有結(jié)構(gòu)稀疏性約束的局部投影來選擇重要特征。OMVFS(Online unsupervised Multi-View Feature Selection)[19]通過稀疏學(xué)習(xí)的非負(fù)矩陣分解,將無監(jiān)督特征選擇嵌入到聚類算法中,它進一步結(jié)合了圖的正則化,以保持局部結(jié)構(gòu)信息,并幫助選擇鑒別特征。CGMV-UFS(Consensus learning Guided Multi-View Unsupervised Feature Selection)[20]通過找出聚類指示矩陣之間的差異,有效地獲得了高質(zhì)量的偽標(biāo)簽,用于后續(xù)的稀疏特征選擇。
然而,上述多視圖無監(jiān)督特征選擇方法大多存在這樣的問題:樣本間的相似度矩陣、不同視圖權(quán)重矩陣和特征權(quán)重矩陣往往是預(yù)先定義的。它們往往容易受到數(shù)據(jù)中噪聲和離群點的影響,進而得到的相似結(jié)構(gòu)、視圖權(quán)重矩陣和特征權(quán)重矩陣是不可靠的,不能有效刻畫數(shù)據(jù)間的真實結(jié)構(gòu)以及反映不同視圖和特征的重要性,最終導(dǎo)致不能選出有用的特征。為此,本文提出一種基于自適應(yīng)學(xué)習(xí)的多視圖無監(jiān)督特征選擇(Adaptive Learning-based Multi-view Unsupervised Feature Selection,ALMUFS)方法。將特征選擇嵌入進多視圖模糊C均值聚類框架中,并且考慮到不同視圖和同一視圖下不同特征的重要性均存在差異,ALMUFS 自適應(yīng)地學(xué)習(xí)視圖權(quán)重和特征權(quán)重,以實現(xiàn)特征選擇和同時保證聚類性能;此外,ALMUFS 自適應(yīng)地學(xué)習(xí)樣本的相似度矩陣來刻畫數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),同時為了實現(xiàn)理想的近鄰分配,對相似圖的拉普拉斯矩陣施加了秩約束,使得樣本的相似矩陣中連通分量個數(shù)與聚類數(shù)目相等;最后,本文在模型學(xué)習(xí)過程中引入模糊隸屬度矩陣作為統(tǒng)一的偽標(biāo)簽指示矩陣,有效地融合了不同視圖之間的信息。在8 個真實數(shù)據(jù)上的大量實驗結(jié)果表明,ALMUFS 方法優(yōu)于其他先進的基線方法。
首先對本文使用的符號表示進行介紹;然后詳細(xì)介紹了本文提出的多視圖無監(jiān)督特征選擇(ALMUFS)方法,分別對每個視圖中的數(shù)據(jù)點和特征表示進行加權(quán),并利用拉普拉斯秩約束來得到恰當(dāng)?shù)慕彿峙?,從而選擇出最具代表性的特征子空間。
在具體介紹ALMUFS 方法之前,首先對本文使用到的符號表示進行說明,如表1 所示。
表1 符號及含義Tab.1 Symbols and their meanings
本文將特征選擇嵌入模糊C均值聚類過程中,在實現(xiàn)特征選擇的同時保證了聚類性能。具體地,多視圖模糊C均值聚類的目標(biāo)是選擇k個聚類中心,使每個樣本到相應(yīng)簇中心的距離的平方和最小,目標(biāo)函數(shù)如下:
其中:yi是模糊隸屬度矩陣Y的第i個行向量;yik表示第i個樣本屬于第k個簇的概率;是第v個視圖中第k個簇的中心;u是模糊因子,用來度量每個簇的關(guān)聯(lián)度。當(dāng)u=1 時,多視圖模糊C均值聚類可以表示為:
其中:diag(λ(v))是一個對角陣,向量λ(v)的元素為對角陣上的對角元;θ、γ是超參數(shù),用來控制信息量并實現(xiàn)不同視圖之間的信息融合。
此外,為了實現(xiàn)特征選擇,本文在式(4)的基礎(chǔ)上添加了特征權(quán)重向量的正則化項以控制特征權(quán)重向量的稀疏性以及防止過擬合。最后得到了基于視圖權(quán)重和特征權(quán)重自適應(yīng)學(xué)習(xí)的多視圖無監(jiān)督特征選擇模型:
其中:β是超參數(shù),根據(jù)數(shù)據(jù)的先驗知識選擇。模型(5)聯(lián)合執(zhí)行特征選擇與聚類,實現(xiàn)了特征權(quán)重與特征權(quán)重的自適應(yīng)學(xué)習(xí),有利于選出具有判別性的特征;然而,模型(5)沒有刻畫數(shù)據(jù)的局部幾何結(jié)構(gòu),性能受到了一定的限制。接下來,本文將關(guān)注于探索數(shù)據(jù)的局部幾何結(jié)構(gòu)來增強上述模型。
以往的研究表明,發(fā)掘數(shù)據(jù)的局部幾何結(jié)構(gòu)對于無監(jiān)督特征選擇來說非常重要[22-23]。現(xiàn)存的方法通?;谧V圖理論,通過構(gòu)造k近鄰圖的方式來刻畫數(shù)據(jù)的局部幾何結(jié)構(gòu)。圖構(gòu)造的關(guān)鍵是計算相似度矩陣,然而大多數(shù)方法都是在特征選擇之前預(yù)定義相似度矩陣,并在特征選擇過程中保持不變[24-25]。這使得特征選擇模型的性能非常依賴預(yù)定的相似圖,然而這個預(yù)定義的圖或許并不是最優(yōu)的,無法有效地刻畫數(shù)據(jù)的局部幾何結(jié)構(gòu)。因此,本文基于流型學(xué)習(xí)的基本假設(shè):如果兩個樣本點距離很近,那么它們在對應(yīng)的嵌入圖中的距離也會很近。引入如下自適應(yīng)相似度矩陣學(xué)習(xí)模型:
此外,為了使相似圖結(jié)構(gòu)獲得恰當(dāng)?shù)慕彿峙洌聪嗨茍D的連通分量等于簇的數(shù)量,并且每一個連通分量對應(yīng)一個簇。根據(jù)文獻[26],本文對相似度矩陣S(v)的圖拉普拉斯矩陣LS(v)施加秩約束,即,Rank(LS)=n-c,如下所示:
其中,η是超參數(shù),通過η的變化能捕獲更準(zhǔn)確的局部結(jié)構(gòu)信息。
本文將具有最佳近鄰分配的自適應(yīng)相似度矩陣學(xué)習(xí)模型(8)整合進基于自適應(yīng)權(quán)重學(xué)習(xí)的多視圖無監(jiān)督特征選擇模型(5)中,得到了最終的目標(biāo)函數(shù),如下所示:
為了求解目標(biāo)函數(shù)(9),本文設(shè)計了一種交替迭代優(yōu)化算法,將目標(biāo)函數(shù)的求解劃分為四個子問題。下面將詳細(xì)介紹算法的優(yōu)化過程以及算法收斂性的證明。
2.1.1 固定其他變量,更新Y
對Y的優(yōu)化可以轉(zhuǎn)化為對問題(10)的求解。
其中,從ω的更新公式可以看出:一個視圖數(shù)據(jù)越重要或者越有用,這個視圖將被分配的權(quán)重就越大。
2.1.4 固定其他變量,更新λ(v)
對λ(v)的優(yōu)化可以轉(zhuǎn)化為對問題(17)的求解。
類似于視圖權(quán)重ω的更新,為了求解問題(17),由拉格朗日數(shù)乘法可以得到:
從式(18)的更新公式可以看出:同一視圖下的某個特征越重要或者越有用,那么這個特征將被分配的權(quán)重就越大。
總結(jié)上述步驟,可以得到ALMUFS 的算法。
算法1 ALMUFS。
算法1 的收斂性取決于4 個迭代子步驟。在更新變量Y、S、ω、λ(v)時,對應(yīng)的每個子問題都是凸的,并且本文得到了每個子問題的閉式解,所以它們的收斂性可以保證。因此,雖然本文所提出的目標(biāo)函數(shù)不是關(guān)于變量Y、S、ω、λ(v)的聯(lián)合凸函數(shù),但采用的迭代優(yōu)化算法能夠保證它們收斂。在實驗部分,本文將在真實數(shù)據(jù)集上繪制優(yōu)化過程中目標(biāo)函數(shù)的收斂曲線,以進一步說明算法1 的收斂性。
為了證明ALMUFS 的有效性,本文在8 個真實數(shù)據(jù)集上進行了相關(guān)實驗,表2 總結(jié)了這些數(shù)據(jù)集的詳細(xì)統(tǒng)計信息。
表2 數(shù)據(jù)集的統(tǒng)計信息Tab.2 Statistics of datasets
本文將ALMUFS 與6 種無監(jiān)督特征選擇基線方法進行了實驗對比,以驗證本文方法的有效性。對比方法如下:
All-feature:該方法表示不執(zhí)行特征選擇,采用所有原始特征。
LS(LapScore)[11]:根據(jù)特征保留局部結(jié)構(gòu)的能力來選擇特征。
ACSL[17]:該方法將協(xié)同相似結(jié)構(gòu)學(xué)習(xí)和多視圖無監(jiān)督特征選擇整合到一個統(tǒng)一框架中,并對模型施加了秩限制使協(xié)同相似結(jié)構(gòu)具有理想的近鄰分配。
ASVM(Adaptive Similarity and View Weight)[18]:該 方法通過學(xué)習(xí)一個共同的相似矩陣來刻畫所有視圖的結(jié)構(gòu),并自適應(yīng)地學(xué)習(xí)視圖權(quán)重。
OMVFS[19]:OMVFS 是一種基于非負(fù)矩陣分解的大規(guī)模/流數(shù)據(jù)多視圖無監(jiān)督特征選擇方法。
CGMV-UFS[20]:將特征選擇嵌入一個基于非負(fù)矩陣分解的聚類框架中,為所有視圖學(xué)習(xí)出潛在的特征矩陣,并學(xué)習(xí)一個共同的聚類指示矩陣來融合所有視圖的信息。
所有的實驗都是在Matlab 2016a 64 位版本上進行。在ALMUFS 中,超參數(shù)α,β,η的取值從{10-3,10-2,10-1,1,10,102,103}中選擇;γ的取值從{3,6,9,12,15}中選擇;θ的取值從{1,10,100,1 000,10 000}中選擇,以上參數(shù)的最優(yōu)組合通過網(wǎng)格搜索得到。參與對比的其他基線方法的超參數(shù)根據(jù)對應(yīng)的參考文獻來設(shè)置。
本文選擇了兩個常用的聚類評價指標(biāo):聚類精度(ACCuray,ACC)和F-measure,作為實驗效果的評價標(biāo)準(zhǔn)。
3.4.1 聚類精度(ACC)
給定第j個樣本的真實標(biāo)簽gj與它的聚類標(biāo)簽,ACC計算公式如下:
其中:δ(x,y) 為示性函數(shù),當(dāng)x=y時,δ(x,y)=1,否則δ(x,y)=0;map(?)為排列映射函數(shù),用于將聚類標(biāo)簽映射為真實標(biāo)簽。
3.4.2 F-measure
F-measure(Fmeasure)是常用的一個聚類評價標(biāo)準(zhǔn),在提高精確率和召回率的同時,也希望兩者之間的差異盡可能小。此時,可以考慮使用二者的調(diào)和平均數(shù)作為模型評估指標(biāo),即:
其中,P和R分別表示精確率和召回率。ACC 和F-measure 的值越高,代表對應(yīng)方法的性能越好。
本文實驗將特征選擇率的變化范圍設(shè)置[0.1,0.9],間隔為0.1。對于不同的特征選擇率,運用特征選擇方法得到相應(yīng)的特征子集,然后對特征子集執(zhí)行k-means 聚類算法30次,并記錄均值和標(biāo)準(zhǔn)差。
表3 和表4 展示了當(dāng)特征選擇率為0.4 時,不同特征選擇方法在所有數(shù)據(jù)集上的ACC 和F-measure 結(jié)果,其中,*代表本文的ALMUFS 方法在5%的顯著性水平上顯著優(yōu)于對比方法。最優(yōu)結(jié)果加粗表示,次優(yōu)結(jié)果用下劃線表示??梢钥闯?,ALMUFS 在所有8 個數(shù)據(jù)集上均取得了最優(yōu)性能。與次優(yōu)方法ACSL 和ASVM 相比,ACC 平均提高了8.99 和11.09個百分點,F(xiàn)-measure 平均提高11.87 和13.21 個百分點。
表3 特征選擇率為0.4時的ACC結(jié)果 單位:%Tab.3 ACC results with feature selection ratio of 0.4 unit:%
表4 特征選擇率為0.4時的F-measure 單位:%Tab.4 F-measure results with feature selection ratio of 0.4 unit:%
此外,圖1 和圖2 分別展示了當(dāng)特征選擇率從0.1 變化到0.9 時,所有方法的ACC 和F-measure 變化情況??梢钥闯觯珹LMUFS 在絕大多數(shù)情況下都優(yōu)于其他基線方法。實驗結(jié)果表明了ALMUFS 的優(yōu)越性。
圖1 不同數(shù)據(jù)集上的ACC結(jié)果Fig.1 ACC results on different datasets
圖2 不同數(shù)據(jù)集上的F-measure結(jié)果Fig.2 F-measure results on different datasets
ALMUFS 算法中有5 個超參數(shù),分別是:α、β、θ、γ、η。本文在Yale 數(shù)據(jù)集上,進行了參數(shù)敏感性實驗,并采用ACC 作為評估準(zhǔn)則,在其余數(shù)據(jù)集上的實驗效果相似。實驗結(jié)果如圖3 所示,當(dāng)這5 個超參數(shù)變化時,ACC 均沒有明顯的波動。實驗結(jié)果表明ALMUFS 對于5 個超參數(shù)都不敏感。
圖3 不同超參數(shù)對ACC的影響Fig.3 Influence of different hyperparameter on ACC
本文提出的求解目標(biāo)函數(shù)的算法是迭代形式的,下面將通過實驗研究ALMUFS 方法的收斂性。本文在Yale、WikipediaArticles、WebKB 這3 個數(shù)據(jù)集上進行了收斂性實驗,其余數(shù)據(jù)集上的實驗效果相似。實驗結(jié)果如圖4 所示,可以看出本文ALMUFS 收斂速度很快,通常在10 次迭代以內(nèi)就能達到收斂狀態(tài),進一步驗證了ALMUFS 的有效性。
圖4 ALMUFS在不同數(shù)據(jù)集上的目標(biāo)函數(shù)值隨迭代次數(shù)變化Fig.4 Objective function value of ALMUFS varying with number of iterations on different datasets
本文提出了一種新的基于自適應(yīng)學(xué)習(xí)的多視圖無監(jiān)督特征選擇方法ALMUFS,該方法將特征選擇嵌入進模糊聚類過程中,在聚類過程中同時實現(xiàn)特征選擇。此外,ALMUFS通過自適應(yīng)的方式學(xué)習(xí)視圖權(quán)重向量、特征權(quán)重向量和樣本相似度矩陣;并且,該方法對樣本相似度矩陣的拉普拉斯矩陣施加了秩約束,以確保相似度矩陣中的連通分量的個數(shù)與聚類簇數(shù)目相等,從而實現(xiàn)恰當(dāng)?shù)慕彿峙?;然后通過選擇每個視圖中的最佳視圖和最具代表性的特征空間,得到更加緊湊的低維高質(zhì)量特征子集;接著,本文開發(fā)了一種有效的交替迭代優(yōu)化的方法來求解目標(biāo)函數(shù)。最后,在8 個真實數(shù)據(jù)集上的大量實驗證明了ALMUFS 的可行性和有效性。
在未來的研究中將把無監(jiān)督特征選擇框架擴展到半監(jiān)督場景中,即通過利用少量標(biāo)簽數(shù)據(jù)所提供的判別信息和語義信息來引導(dǎo)特征選擇過程,構(gòu)建面向多視圖數(shù)據(jù)的半監(jiān)督特征選擇方法。