摘 要:針對現(xiàn)有多標(biāo)簽特征選擇方法存在的兩個問題:第一,忽略了學(xué)習(xí)標(biāo)簽相關(guān)性過程中噪聲信息的影響;第二,忽略探索每個簇的綜合標(biāo)簽信息,提出一種增強(qiáng)學(xué)習(xí)標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇方法。首先,對樣本進(jìn)行聚類,并將每個簇中心視為一個綜合樣本語義信息的代表性實(shí)例,同時計算其對應(yīng)的標(biāo)簽向量,而這些標(biāo)簽向量體現(xiàn)了每個簇包含不同標(biāo)簽的重要程度;其次,通過原始樣本和每個簇中心的標(biāo)簽級自表示,既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每一個簇內(nèi)的標(biāo)簽相關(guān)性;最后,對自表示系數(shù)矩陣進(jìn)行稀疏處理,以減少噪聲的影響,并將原始樣本和每個簇代表性實(shí)例分別從特征空間映射到重構(gòu)標(biāo)簽空間進(jìn)行特征選擇。在9個多標(biāo)簽數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提算法與其他方法相比具有更好的性能。
關(guān)鍵詞:多標(biāo)簽學(xué)習(xí); 特征選擇; 標(biāo)簽相關(guān)性; 聚類
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)07-022-2079-08
doi:10.19734/j.issn.1001-3695.2023.11.0550
Multi-label feature selection method with enhanced learning of label correlations
Abstract:Aiming at two problems of existing multi-label feature selection methods: first, ignoring the influence of noise information in the process of learning label correlations; second, neglecting to explore the comprehensive label information of each cluster, the paper proposed a multi-label feature selection method that enhanced label correlation learning. Initially, it clustered the samples and treated each cluster center as a representative instance of the comprehensive semantic information of the samples, while computing its corresponding label vectors which reflected the importance of different labels contained in each cluster. Then, through the label-level self-representation of the original samples and the center of each cluster, it both captured the label correlations in the original label space, and explored the label correlations within each cluster. Finally, the self-representation coefficient matrix was sparse to reduce the effect of noise, and the original sample and the representative instance of each cluster were mapped from the feature space to the reconstructed label space for feature selection. Experimental results on nine multi-labeled datasets show that the proposed algorithm has better performance compared with other methods.
Key words:multi-label learning; feature selection; label correlation; clustering
0 引言
隨著計算機(jī)和通信技術(shù)的飛速發(fā)展,多標(biāo)簽數(shù)據(jù)集在不同領(lǐng)域有著廣泛的應(yīng)用,如文本挖掘[1]、圖像識別[1,2]、蛋白質(zhì)功能檢測[3]和信息檢索[4]等。這些數(shù)據(jù)集為機(jī)器學(xué)習(xí)和模式識別提供了豐富的研究數(shù)據(jù)源。在傳統(tǒng)的單標(biāo)簽監(jiān)督學(xué)習(xí)中,每個實(shí)例只與一個類標(biāo)簽相關(guān)聯(lián)。然而,在真實(shí)世界的場景中,往往會涉及與多個語義相關(guān)聯(lián)的實(shí)例[5]。例如,一份報告可能有多個主題,包括時尚、經(jīng)濟(jì)和體育;一首音樂可以表達(dá)多種情緒,包括悲傷、平靜和孤獨(dú)。因此,現(xiàn)有的多標(biāo)簽學(xué)習(xí)方法的目的是在訓(xùn)練實(shí)例和相應(yīng)的標(biāo)簽集之間學(xué)習(xí)一個合適的映射函數(shù),以便通過映射函數(shù)預(yù)測新實(shí)例中不可見的多個標(biāo)簽[6]。然而,在現(xiàn)實(shí)世界中,多標(biāo)簽數(shù)據(jù)集的特征表示通常具有高維性,并且容易受到噪聲和冗余信息的影響[7]。這些因素不僅會增加計算和存儲需求,還會對學(xué)習(xí)模型的分類性能產(chǎn)生不利影響,因此帶來了巨大挑戰(zhàn)[7]。
在高維數(shù)據(jù)處理領(lǐng)域,有特征提取和特征選擇兩種降維方法[8]。特征提取通常會產(chǎn)生新的特征,而特征選擇不會改變數(shù)據(jù)的原始表示,其目的是獲取一個特征子集來表示原始數(shù)據(jù)[9~11]。因此,本文將重點(diǎn)放在特征選擇上。一般來說,關(guān)于特征選擇的研究可分為基于過濾的、基于包裝的和基于嵌入的方法三類[12,13]?;谶^濾的方法用于生成特征子集,而不依賴于任何特定的學(xué)習(xí)算法。這些方法通過采用不同的評估標(biāo)準(zhǔn)來評估特征的相關(guān)性,包括卡方統(tǒng)計、互信息和樣本距離[14]。然而,過濾的方法無法為特定的學(xué)習(xí)任務(wù)選擇信息量最大的特征。基于包裝的方法使用進(jìn)化算法來搜索最佳特征子集,這種模型容易出現(xiàn)過擬合問題,還會產(chǎn)生巨大的計算成本[15]。基于嵌入的方法通過同時訓(xùn)練模型和選擇特征,提供了一種獨(dú)特的解決方案[16]。它們直接利用從模型訓(xùn)練中得到的特征系數(shù)矩陣來確定特征的排序,從而獲得高效的執(zhí)行和出色的分類性能[16]。因此,本文重點(diǎn)討論嵌入式方法。
對于設(shè)計多標(biāo)簽特征選擇方法,探索標(biāo)簽相關(guān)性是至關(guān)重要的,因?yàn)榭梢圆东@非對稱的標(biāo)簽關(guān)系[17]。在圖1中,顯示了一個非對稱的標(biāo)簽關(guān)系例子。圖(a)有“樹”標(biāo)簽,也可能帶有“天空”標(biāo)簽。然而,圖(b)帶有“天空”標(biāo)簽,但不一定帶有“樹”標(biāo)簽。因此,一些現(xiàn)有方法利用標(biāo)簽相關(guān)性設(shè)計多標(biāo)簽特征選擇方法,取得不錯的成果。例如,Li等人[18]提出了一種具有兩種標(biāo)簽相關(guān)性的魯棒多標(biāo)簽特征選擇方法。Fan等人[19]提出了一種基于標(biāo)簽相關(guān)性和特征冗余的新的多標(biāo)簽特征選擇方法,將低維嵌入用于挖掘標(biāo)簽相關(guān)性,這樣可以保持原始標(biāo)簽空間的全局和局部標(biāo)簽結(jié)構(gòu)。
然而,現(xiàn)有的多標(biāo)簽特征選擇方法[10,13,18]在探索標(biāo)簽相關(guān)性時仍存在一些問題,進(jìn)而導(dǎo)致模型學(xué)習(xí)效率降低。第一,忽略了學(xué)習(xí)標(biāo)簽相關(guān)性過程中噪聲信息的影響。在原始標(biāo)簽空間中往往包含噪聲信息,如果直接利用標(biāo)簽集中的數(shù)據(jù)來探索標(biāo)簽與標(biāo)簽之間的關(guān)系,會影響標(biāo)簽相關(guān)性的探索,導(dǎo)致產(chǎn)生一些不必要的依賴關(guān)系,降低模型的學(xué)習(xí)效率。在這里,通過一個例子說明在探索標(biāo)簽相關(guān)性時處理噪聲影響的必要性。假設(shè)大部分實(shí)例都同時具有“標(biāo)簽1”與“標(biāo)簽2”,則本文認(rèn)為“標(biāo)簽1”與“標(biāo)簽2”相關(guān)程度較高。由于人工過失,將個別實(shí)例的“標(biāo)簽2”標(biāo)記為“標(biāo)簽3”,則本文認(rèn)為“標(biāo)簽3”為噪聲信息,“標(biāo)簽1”與“標(biāo)簽3”為不必要的標(biāo)簽依賴關(guān)系。如果不對上述情況作出處理,則會產(chǎn)生錯誤傳播,即認(rèn)為“標(biāo)簽1”與“標(biāo)簽3”存在相關(guān)性。第二,忽略探索每個簇的綜合標(biāo)簽信息,僅在原始標(biāo)簽空間中探索標(biāo)簽相關(guān)性,無法挖掘更深層次的標(biāo)簽信息。直接利用原始標(biāo)簽數(shù)據(jù),往往探索的是一個標(biāo)簽與其他所有標(biāo)簽的關(guān)系,無法描述一個局部區(qū)域內(nèi)標(biāo)簽之間的關(guān)系。而高度相關(guān)的標(biāo)簽共用同一個特征子集,有利于提高特征選擇的效率,因此,需要挖掘更深層次的標(biāo)簽信息,更好捕獲標(biāo)簽與標(biāo)簽之間的關(guān)系。
為此,本文利用數(shù)據(jù)增強(qiáng)技術(shù)和標(biāo)簽級自表示模型,探索了不同標(biāo)簽之間的相關(guān)性。針對上述第二點(diǎn)問題,本文對樣本進(jìn)行聚類形成多個簇,則每個簇的中心可以看作是每個簇的綜合信息實(shí)例,并假設(shè)其對應(yīng)的特征向量和標(biāo)簽向量是簇中所有樣本向量的平均值。每個簇中心的標(biāo)簽向量則反映了一個簇中每個標(biāo)簽的重要程度。然后,通過樣本和每個簇的綜合信息實(shí)例的標(biāo)簽級自表示,既可以探索原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又可以探索了每個簇內(nèi)重要標(biāo)簽的相關(guān)性。此外,針對上述第一點(diǎn)問題,本文對自表達(dá)系數(shù)矩陣施加2,1范數(shù)約束,確保每個標(biāo)簽由與其最相關(guān)的標(biāo)簽表示,以減少噪聲信息產(chǎn)生的不利影響。最后,設(shè)計了一種交替最小化方法來求解目標(biāo)函數(shù)。綜上所述,本文的主要貢獻(xiàn)如下:
a)對樣本聚類,并將每個簇的中心視為一個綜合信息實(shí)例,以簇中所有樣本向量的平均值作為綜合信息實(shí)例的特征向量和標(biāo)簽向量。
b)引入樣本和綜合信息實(shí)例的標(biāo)簽級自表示,既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個簇內(nèi)的標(biāo)簽相關(guān)性。
c)對標(biāo)簽級自表示系數(shù)矩陣施加2,1范數(shù)約束,增進(jìn)每個標(biāo)簽與其最相關(guān)的標(biāo)簽之間的關(guān)系,以減少噪聲信息產(chǎn)生的不利影響。
d)設(shè)計了一種具有收斂性證明的優(yōu)化方案求解目標(biāo)函數(shù),并通過多重綜合實(shí)驗(yàn)證明了該方法的優(yōu)越性。
1 相關(guān)工作
1.1 多標(biāo)簽學(xué)習(xí)
近年來,許多成熟的多標(biāo)簽學(xué)習(xí)方法被提出?,F(xiàn)有的多標(biāo)簽學(xué)習(xí)方法包括三種不同探索標(biāo)簽相關(guān)性的策略[19]。一階策略是將多標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為單標(biāo)簽數(shù)據(jù),從而利用傳統(tǒng)的單標(biāo)簽算法,例如BR算法[20]可以對多標(biāo)簽分類問題進(jìn)行變換。然而,這類方法忽略了標(biāo)簽相關(guān)性,而標(biāo)簽相關(guān)性對研究工作至關(guān)重要。因此,一些方法引入了二階策略,主要側(cè)重探索標(biāo)簽之間的成對相關(guān)性。例如,Huang等人[21]使用標(biāo)簽級正則化約束來考慮成對的標(biāo)簽相關(guān)性。盡管這些方法取得一些進(jìn)步,但現(xiàn)實(shí)世界的多標(biāo)簽數(shù)據(jù)集往往包含的實(shí)例與多個標(biāo)簽相關(guān)聯(lián),顯然標(biāo)簽之間的相關(guān)性超過成對關(guān)系。因此,一些方法引入了高階策略,通過探索多個標(biāo)簽之間的相關(guān)性來解決這一問題。例如,分類器鏈(CC)[22],另一種高階方法LEAD利用標(biāo)簽依賴性,通過使用貝葉斯方法來學(xué)習(xí)多標(biāo)簽數(shù)據(jù)[18]。
此外,本文還回顧了一些通過探索標(biāo)簽相關(guān)性而設(shè)計的具有代表性和影響力的多標(biāo)簽特征選擇方法。Hu等人[23]介紹了一種稱為共享共模多標(biāo)簽特征選擇(SCMFS)的方法,該方法利用耦合矩陣分解(CMF)來提取特征矩陣和標(biāo)簽矩陣之間的共享共模。這種方法結(jié)合了來自兩個矩陣的綜合數(shù)據(jù)信息,提高了特征選擇性能。Fan等人[24]開發(fā)了一種名為基于局部判別模型和標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇的算法。該方法考慮實(shí)例的相鄰實(shí)例,為實(shí)例構(gòu)建局部聚類,并全局集成局部判別模型來評估所有實(shí)例的聚類性能。Li等人[25]提出了具有動態(tài)局部和全局結(jié)構(gòu)保持的魯棒稀疏和低冗余多標(biāo)簽特征選擇方法,該特征選擇方法使用圖結(jié)構(gòu)以保持全局標(biāo)簽相關(guān)性和動態(tài)局部標(biāo)簽關(guān)聯(lián)。該方法的目標(biāo)函數(shù)包括范數(shù)和內(nèi)積正則化項,以實(shí)現(xiàn)高行稀疏性和低冗余特征選擇。值得注意的是,上述大多方法局限于從給定的訓(xùn)練樣本中探索標(biāo)簽相關(guān)性,無法探索每個簇蘊(yùn)涵的標(biāo)簽信息。
1.2 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)[26]是一種在機(jī)器學(xué)習(xí)任務(wù)中廣泛使用的技術(shù),它的目的是在原始訓(xùn)練集上應(yīng)用一些轉(zhuǎn)變,來綜合創(chuàng)建新的樣本,以擴(kuò)大訓(xùn)練集。用于圖像分類任務(wù)的傳統(tǒng)數(shù)據(jù)增強(qiáng)技術(shù)通常通過翻轉(zhuǎn)、扭曲、添加少量噪聲或從原始圖像中裁剪一個補(bǔ)丁,從原始訓(xùn)練數(shù)據(jù)中生成新的樣本[26]。除了傳統(tǒng)的數(shù)據(jù)增強(qiáng)技術(shù)之外,簡單配對法也是一種數(shù)據(jù)增強(qiáng)方法[27],隨機(jī)選擇兩個樣本(xa,ya)和(xb,yb),然后通過((xa+xb)/2, ya)或者((xa+xb)/2,yb)隨機(jī)生成一個新的樣例。這種方法通過關(guān)注兩個實(shí)例來產(chǎn)生新的實(shí)例,雖然取得不錯的效果,但如何從多個樣本中產(chǎn)生新的實(shí)例,以及如何應(yīng)用生成的新實(shí)例提高多標(biāo)簽學(xué)習(xí)的性能仍然具有挑戰(zhàn)性。Shu等人[27]提出對原始樣本進(jìn)行聚類,并將聚類中心作為虛擬樣本。然后,在同一聚類中的例子具有相同標(biāo)簽的假設(shè)下,他們提出了一個新的正則化術(shù)語來彌補(bǔ)實(shí)例和虛例之間的差距,從而提高學(xué)習(xí)函數(shù)的局部平滑性。然而,該方法忽略了探索標(biāo)簽相關(guān)性。因此,本文利用數(shù)據(jù)增強(qiáng)技術(shù)生成每個簇的綜合代表實(shí)例,在探索原始樣本的標(biāo)簽相關(guān)性之余,還探索了每個簇內(nèi)的標(biāo)簽相關(guān)性,并用標(biāo)簽相關(guān)性重構(gòu)標(biāo)簽空間,以提高多標(biāo)簽?zāi)P偷膶W(xué)習(xí)性能。
2 研究方法
對于一個多標(biāo)簽數(shù)據(jù)集{(x1,y1),…,(xn,yn)},假設(shè)特征
所提方法工作原理分為兩個基本步驟,包括生成每個簇中心對應(yīng)的特征向量、標(biāo)簽向量和多標(biāo)簽特征選擇模型訓(xùn)練。因此,所提方法按照以下兩個部分介紹:a)首先使用K-means方法對原始樣本進(jìn)行聚類,并將每個簇中心視為對應(yīng)簇的綜合代表實(shí)例。b)探索原始樣本與每個簇中心的標(biāo)簽相關(guān)性,并重構(gòu)標(biāo)簽空間,以進(jìn)行特征選擇。
2.1 生成每個簇中心對應(yīng)的特征向量和標(biāo)簽向量
聚類技術(shù)被廣泛應(yīng)用于數(shù)據(jù)分析,本文采用常用的K-means算法。如圖2所示,通過對原始樣本聚類,并將每個簇的中心作為一個綜合代表的實(shí)例。假設(shè)原始樣本可以被劃分為q個不相交的簇{C1,C2,…,Cq},如果第j個實(shí)例被劃分為第i個簇,則xj∈Ci。通常,每個簇的中心是簇的一個代表性實(shí)例,因此其語義可以是簇中所有樣本的語義平均值。假設(shè)hi表示Ci簇中心對應(yīng)的特征向量,可以表示為
其中:Ci表示第i個簇包含的樣本個數(shù)。同樣地,每個簇中心的標(biāo)簽語義可以是簇中所有實(shí)例的標(biāo)簽語義的平均值。假設(shè)ti表示Ci簇中心對應(yīng)的標(biāo)簽信息,則ti應(yīng)為Ci中所有樣本的平均標(biāo)簽向量,可以表示為
這樣可以得到一個簇中心集合{(hi,ti),…,(hq,tq)},在這里,可以通過一個具體例子說明這種數(shù)據(jù)增強(qiáng)方法的優(yōu)勢。假設(shè)一個簇里面包含三個樣本(xa,ya),(xb,yb)和(xc,yc),其
2.2 構(gòu)建多標(biāo)簽特征選擇模型
嶺回歸是一種無偏差的最小二乘法,通常用于處理機(jī)器學(xué)習(xí)的一些基本任務(wù),包括分類、降噪、降維等[28]。將傳統(tǒng)的嶺回歸應(yīng)用于多標(biāo)簽特征選擇,其一般形式如下:
其中:λ1是超參數(shù),控制每個簇的綜合代表實(shí)例(即簇中心)對特征選擇W學(xué)習(xí)的貢獻(xiàn)。由于簇中心是每個簇的綜合代表實(shí)例,用其訓(xùn)練模型會增大每個簇對應(yīng)特定特征的選擇權(quán)值,從而提高模型學(xué)習(xí)性能。但是,式(5)在帶有噪聲和冗余信息的原始標(biāo)簽空間中進(jìn)行特征選擇,會降低了算法的學(xué)習(xí)性能。因此,需要利用標(biāo)簽相關(guān)性來重建標(biāo)簽空間,以更好進(jìn)行特征選擇。
從實(shí)例級的自表示模型得到啟發(fā),類似地,每個標(biāo)簽也可以用其他標(biāo)簽進(jìn)行表示,從而探索一個標(biāo)簽和其他標(biāo)簽之間的關(guān)系。因此,可以得到改進(jìn)后的標(biāo)簽級自表示模型如下:
從而探索一個標(biāo)簽和其他標(biāo)簽之間的關(guān)系),以互補(bǔ)原始數(shù)據(jù)探索的標(biāo)簽相關(guān)性。則其表達(dá)式為
結(jié)合式(6)(7),本文探索標(biāo)簽相關(guān)的表達(dá)式為
這樣,既探索了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個簇內(nèi)的標(biāo)簽相關(guān)性,充分捕獲了標(biāo)簽信息。然而原始標(biāo)簽空間中往往包含噪聲信息,會導(dǎo)致在探索標(biāo)簽相關(guān)性時,產(chǎn)生不必要的關(guān)系依賴。為此,本文通過對自表示系數(shù)矩陣施加2,1范數(shù),確保每個標(biāo)簽由與其最相關(guān)的標(biāo)簽表示,以減少噪聲信息的影響。則式(8)可以改寫為
其中:λ3是正則化參數(shù)。結(jié)合式(5)(9),利用標(biāo)簽相關(guān)性重構(gòu)原始標(biāo)簽空間,得到新的標(biāo)簽空間,然后通過特征矩陣投影到標(biāo)簽重構(gòu)矩陣,以進(jìn)行特征選擇。另外,對W和Z施加非負(fù)約束,以保證數(shù)據(jù)的非負(fù)性。因此,最終的目標(biāo)函數(shù)構(gòu)造如下:
其中:‖XW-YZ‖2F為原始樣本從特征空間映射到重建的標(biāo)簽空間以進(jìn)行特征選擇;‖HW-TZ‖2F為每個簇中心從特征映射到標(biāo)簽,以加強(qiáng)每個簇的標(biāo)簽對應(yīng)特定特征的選擇;‖YZ-Y‖2F和‖TZ-T‖2F為原始樣本和簇中心的標(biāo)簽級自表達(dá)(即一個標(biāo)簽由其他標(biāo)簽進(jìn)行表示,從而探索一個標(biāo)簽和其他標(biāo)簽之間的關(guān)系),分別探索了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性和每個簇內(nèi)的標(biāo)簽相關(guān)性;‖Z‖2,1為避免學(xué)習(xí)標(biāo)簽相關(guān)性過程中噪聲信息的影響;λ1是超參數(shù),控制每個簇的綜合代表實(shí)例(即簇中心)對特征選擇W學(xué)習(xí)的貢獻(xiàn);λ2正則化參數(shù),調(diào)節(jié)原始樣本和每個簇的綜合代表實(shí)例的標(biāo)簽級自表示對多標(biāo)簽學(xué)習(xí)模型的影響;λ3與λ4是正則化參數(shù)。
2.3 優(yōu)化模型
在本節(jié)中,給出關(guān)于目標(biāo)函數(shù)式(10)的優(yōu)化方案證明。目標(biāo)函數(shù)有兩個優(yōu)化目標(biāo)W和Z,以及對W和Z施加2,1范數(shù)的非光滑性,本文采用交替優(yōu)化的方法來求解。
對于上述目標(biāo)函數(shù)的迭代更新方法包含以下兩個子問題。
子問題1 固定Z,更新W。
當(dāng)固定Z時,獲得只關(guān)于W的函數(shù),可以表示為
根據(jù)拉格朗日定理,將約束條件Wij≥0整合到Θ(W),可以得到拉格朗日函數(shù)如下:
根據(jù)Karush-Kuhn-Tucker條件[18],ΦijWij=0,可得
(XTXW-XTYZ+λ1HTHW-λ1HTTZ+2λ4UW)ijWij=0(15)
最后,得到W的更新規(guī)則:
子問題2 固定W,更新Z。
當(dāng)固定W時,可以獲得只關(guān)于Z的函數(shù),可以表示為
同樣地,根據(jù)拉格朗日定理,將約束條件Zij≥0整合到Θ(Z),可以得到拉格朗日函數(shù)如下:
根據(jù)Karush-Kuhn-Tucker條件,ΨijZij=0,可得
最后,得到Z的更新規(guī)則:
重復(fù)交替更新W和Z變量的值,直到目標(biāo)函數(shù)收斂,最后計算‖Wi·‖2。本文算法流程如算法1所示。
算法1 所提方法的優(yōu)化算法
算法1偽代碼如下:
3 實(shí)驗(yàn)
將本文算法與其他五種先進(jìn)的多標(biāo)簽特征選擇方法進(jìn)行比較,九個數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明本文算法具有更好的學(xué)習(xí)性能,下面將描述實(shí)驗(yàn)詳細(xì)過程。
3.1 實(shí)驗(yàn)數(shù)據(jù)
在本節(jié)中,將描述相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集。采用從Mulan Library獲取的九個不同領(lǐng)域的多標(biāo)簽數(shù)據(jù)集。 這些數(shù)據(jù)集包括各種領(lǐng)域,如音頻、音樂、圖像、生物學(xué)和文本,為評估提供了不同的數(shù)據(jù)。表2給出了關(guān)于所選數(shù)據(jù)集的詳細(xì)信息。
3.2 實(shí)驗(yàn)設(shè)置
為了與其他方法進(jìn)行比較,本文使用Hamming loss,ran-king loss,average precision,Macro-F1和Micro-F1來評估本文算法的性能。從解釋上看,Hamming loss和ranking loss的值越小,說明分類性能越好,最佳值為0,意味著完美分類。相反,average precision,Macro-F1和Micro-F1的值越大,表示分類性能越好,最佳值為1,表示理想的分類結(jié)果。
為了確保公平性和可比性,本文在{0.01,0.1,0.3,…, 0.9,1.0}的范圍內(nèi)調(diào)整方法的正則化參數(shù)。
實(shí)驗(yàn)采用如下五種多標(biāo)簽特征選擇方法作為對比算法:
a)MIFS[29]?;诹餍慰蚣芴剿鳂?biāo)簽相關(guān)性,以確保結(jié)構(gòu)性。參數(shù)α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內(nèi)進(jìn)行調(diào)參。
b)SCMFS[23]。它通過耦合矩陣因式分解建立共享的共同模型。參數(shù)α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內(nèi)進(jìn)行調(diào)參。
c)MDFS[30]。它探索流形結(jié)構(gòu)下的局部標(biāo)簽相關(guān)性和全局標(biāo)簽相關(guān)性。參數(shù)α設(shè)為1,其余參數(shù)β和γ在{0.01,0.1,1,…,10,100}內(nèi)進(jìn)行調(diào)參。
d)MRMD[28]。提出一種新的多標(biāo)簽特征選擇方法,它有效地結(jié)合了流形正則化和依賴性最大化。參數(shù)α設(shè)為1,其余參數(shù)β和γ在{0.01,0.1,1,…,10,100}內(nèi)進(jìn)行調(diào)參。
e)LMFS[10]。結(jié)合邏輯回歸、流形學(xué)習(xí)和稀疏正則化,構(gòu)建了多標(biāo)簽特征選擇的聯(lián)合框架。參數(shù)α,β和γ在{0.001,0.01,0.1,1,10,100,1000}內(nèi)進(jìn)行調(diào)參。
為了評估所有競爭方法的性能,本文使用ML-KNN(K=10) 作為統(tǒng)一分類器來測試它們所選的特征,并采用五倍交叉驗(yàn)證來記錄每個多標(biāo)簽數(shù)據(jù)集的平均性能。
3.3 實(shí)驗(yàn)結(jié)果與分析
本節(jié)將展示和分析所有實(shí)驗(yàn)結(jié)果,在所有使用的數(shù)據(jù)集中使用了最優(yōu)排序前20%的特征。表3~7描述了所有算法在每個評估指標(biāo)下的結(jié)果。為了更清楚地突出實(shí)驗(yàn)結(jié)果,對每個數(shù)據(jù)集的最佳結(jié)果都采用了粗體字。此外,在最后一行中,計算了在數(shù)據(jù)集上的性能排名平均值。
從表3~7可知,本文算法在各項評價指標(biāo)上的表現(xiàn)總體優(yōu)于其他比較算法。在表3中,本文算法在9個數(shù)據(jù)集中的6個數(shù)據(jù)集上獲得了最佳結(jié)果,并且在所有數(shù)據(jù)集上都優(yōu)于PUM、MIFS和SCMFS。在數(shù)據(jù)集arts和birds上,本文算法的性能僅次于MRMD。在表4中,本文算法在6個數(shù)據(jù)集上取得最佳結(jié)果,在其他數(shù)據(jù)集上也取得中等以上的排名。在表5中,除了數(shù)據(jù)集birds和business,本文算法在其他數(shù)據(jù)集上都取得最佳結(jié)果或次優(yōu)結(jié)果。在表6中,除了數(shù)據(jù)集arts和yeast,本文算法在其他數(shù)據(jù)集上都取得最佳結(jié)果或次優(yōu)結(jié)果。在表7中,本文算法在6個數(shù)據(jù)集上取得最佳結(jié)果,另外在數(shù)據(jù)集education上性能效果欠佳。
為了更好地觀察各種多標(biāo)簽特征選擇算法在Hamming loss、ranking loss、average precision、Macro-F1和Micro-F1指標(biāo)下的性能曲線,本文給出emotions和image兩個數(shù)據(jù)集的指標(biāo)趨勢圖。對于每個數(shù)據(jù)集,所選特征的數(shù)量設(shè)置為前{1%,2%,3%,…,20%}個特征。如圖3、4所示,隨著所選特征數(shù)量的增加,所有算法的學(xué)習(xí)性能都會發(fā)生變化。
在所有數(shù)據(jù)集中,本文算法的學(xué)習(xí)性能首先隨著所選特征的增加而提高,最后趨于穩(wěn)定。這表明該算法是一種有效的多標(biāo)簽特征選擇算法。總體而言,無論選擇的特征數(shù)量如何,本文方法在所有數(shù)據(jù)集上都優(yōu)于大多數(shù)比較算法。
接下來,通過消融研究,分析本文算法引入簇中心探索標(biāo)簽相關(guān)性和增強(qiáng)模型學(xué)習(xí)的效果。通過目標(biāo)函數(shù)式(10)去除有關(guān)簇中心部分,來驗(yàn)證該部分模型學(xué)習(xí)的性能。因此,可以得到消融實(shí)驗(yàn)的目標(biāo)函數(shù)為
式(22)去除了簇中心特征選擇和簇中心探索標(biāo)簽相關(guān)性部分,選取Hamming loss、Macro-F1和Micro-F1三個指標(biāo)與本文算法進(jìn)行對比。實(shí)驗(yàn)結(jié)果如表8所示,在三個指標(biāo)下,本文算法在多數(shù)數(shù)據(jù)集上的結(jié)果都優(yōu)于消融實(shí)驗(yàn)。這表明,引入簇中心探索標(biāo)簽相關(guān)性對訓(xùn)練多標(biāo)簽?zāi)P推鹬匾淖饔谩?/p>
此外,本文還統(tǒng)一使用前20%的特征多標(biāo)簽學(xué)習(xí)的特征子集,系統(tǒng)分析本文算法與比較算法之間的相對性能。與其他算法類似,使用弗里德曼檢驗(yàn)[31]進(jìn)行相對性能分析。表9描述了每個評價度量的弗里德曼統(tǒng)計量FF和相應(yīng)的臨界值??梢钥闯?,在顯著水平α=0.05的情況下,每個度量都明確地否定了所有算法都具有相同性能的假設(shè)。因此,可以通過事后檢驗(yàn)[32]來分析本文算法與比較算法之間的相對性能。
出,本文算法與MIFS、SCMFS這兩種算法有顯著的不同。在大部分評價度量下,與LMFS也有顯著的差異。另外,本文算法與MDFS、MRDM沒有顯著的差異,但在每個評價指標(biāo)中排名第一。
綜合上述所有實(shí)驗(yàn)結(jié)果,本文算法具有比競爭方法更好的學(xué)習(xí)性能。從原理上看,本文算法與流形框架下探索標(biāo)簽相關(guān)性設(shè)計的算法(MIFS、MDFS、MRMD、LMFS)相比,避免使用低質(zhì)量的圖探索局部標(biāo)簽相關(guān)性,而是通過數(shù)據(jù)增強(qiáng)技術(shù),對樣本聚類,將每個簇的中心視為綜合代表實(shí)例,而這些實(shí)例的標(biāo)簽向量恰恰能體現(xiàn)每個簇所包含標(biāo)簽的重要程度。通過原始樣本和每個簇綜合代表實(shí)例共同學(xué)習(xí)特征選擇函數(shù),又能增強(qiáng)每個簇對應(yīng)特定特征的選擇權(quán)重。其次,本文算法通過改進(jìn)的自表示模型探索標(biāo)簽相關(guān)性,更重要的是,通過稀疏標(biāo)簽相關(guān)性矩陣,避免了原始空間中的噪聲信息帶來的影響,進(jìn)而提高模型的精度。
最后,為了驗(yàn)證本文算法在實(shí)例上的應(yīng)用結(jié)果,采用南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所公開的自然圖像數(shù)據(jù)集(https://www.lamda.nju.edu.cn/data_MIMLimage.ashx),并利用分類指標(biāo)評判本文算法的性能。該圖像庫共2 000張,分為desert(沙漠)、mountains(山脈)、sea(海洋)、sunset(日落)和trees(樹木)五種類別。這些圖像以單一標(biāo)簽、兩個標(biāo)簽以及三個標(biāo)簽的形式存在,分別包含了1 543張、442張和15張。在圖6,本文給出部分樣本的分類結(jié)果,根據(jù)預(yù)測結(jié)果,除了圖(k)(q)外,預(yù)測結(jié)果與圖像的真實(shí)標(biāo)簽相匹配,表明本文算法是一種有效的多標(biāo)簽特征選擇算法。對于一些無法準(zhǔn)確預(yù)測真實(shí)標(biāo)簽的情況,如圖(k)預(yù)測多了sea標(biāo)簽,原因可能是由于該圖片包含mountains與sea或sunnet與sea共用特征子集中的特征,從而導(dǎo)致預(yù)測時關(guān)聯(lián)的兩個標(biāo)簽同時出現(xiàn);而對于另一種情況,如圖(q)未能預(yù)測到desert標(biāo)簽,原因可能是該類型的標(biāo)記圖像數(shù)量過少,模型沒有很好地學(xué)習(xí)到該特征。
4 結(jié)束語
基于數(shù)據(jù)增強(qiáng)技術(shù),本文提出標(biāo)簽相關(guān)性增強(qiáng)的特征選擇算法。本文算法旨在利用數(shù)據(jù)增強(qiáng)技術(shù)生成每個簇的綜合代表實(shí)例,擴(kuò)充多標(biāo)簽數(shù)據(jù)集,進(jìn)而用于探索標(biāo)簽相關(guān)性和優(yōu)化模型學(xué)習(xí)。具體來說,通過原始樣本聚類,將每個簇的中心作為綜合代表實(shí)例,這些簇中心對應(yīng)的標(biāo)簽向量自然體現(xiàn)了簇內(nèi)包含不同標(biāo)簽的重要程度。將原始樣本和每個簇綜合代表實(shí)例同時進(jìn)行標(biāo)簽級自表示,并對自表示系數(shù)矩陣進(jìn)行稀疏處理,避免原始標(biāo)簽空間中噪聲信息帶來的影響。該算法既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個簇內(nèi)標(biāo)簽相關(guān)性。同時,又處理了傳統(tǒng)算法因?yàn)樵肼曅畔⒍a(chǎn)生不必要的標(biāo)簽依賴問題。與近幾年的五種算法在九個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果表明本文算法的學(xué)習(xí)性能有優(yōu)勢。在未來將關(guān)注利用因果機(jī)制探索標(biāo)簽相關(guān)性,進(jìn)而設(shè)計性能更好的特征選擇方法。
參考文獻(xiàn):
[1]Tang Bo, Kay S, He Haibo. Toward optimal feature selection in naive Bayes for text categorization[J]. IEEE Trans on Knowledge and Data Engineering, 2016,28(9): 2508-2521.
[2]Ma Zhigang, Nie Feiping, Yang Yi, et al. Web image annotation via subspace-sparsity collaborated feature selection[J]. IEEE Trans on Multimedia, 2012,14(4): 1021-1030.
[3]Li Yonghao, Hu Liang, Gao Wanfu. Multi-label feature selection via robust flexible sparse regularization[J]. Pattern Recognition, 2023, 134: 109074.
[4]Miri M, Dowlatshahi M B, Hashemi A. Evaluation multi label feature selection for text classification using weighted borda count approach[C]//Proc of the 9th Iranian Joint Congress on Fuzzy and Intelligent Systems. Piscataway,NJ:IEEE Press, 2022: 1-6.
[5]Li Junlong, Li Peipei, Hu Xuegang, et al. Learning common and label-specific features for multi-label classification with correlation information[J]. Pattern Recognition, 2022,121: 108259.
[6]Siblini W, Kuntz P, Meyer F. A review on dimensionality reduction for multi-label classification[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 33(3): 839-857.
[7]潘敏瀾, 孫占全, 王朝立,等. 結(jié)合標(biāo)簽集語義結(jié)構(gòu)的多標(biāo)簽特征選擇算法[J]. 小型微型計算機(jī)系統(tǒng), 2023, 44(1): 90-96. (Pan Minlan, Sun Zhanquan, Wang Chaoli, et al. Multi label feature selection algorithm based on semantic structure of label set[J]. Journal of Chinese Computer Systems, 2023, 44(1): 90-96).
[8]Liu Jinghua, Li Yuwen, Weng Wei, et al. Feature selection for multi-label learning with streaming label[J]. Neurocomputing, 2020, 387: 268-278.
[9]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with constraint regression and adaptive spectral graph[J]. Knowledge-Based Systems, 2021, 212: 106621.
[10]Zhang Yao, Ma Yingcang, Yang Xiaofei. Multi-label feature selection based on logistic regression and manifold learning[J]. Applied Intelligence, 2022, 52:9256-9273.
[11]Cheng Yusheng, Zhang Chao, Pang Shufang. Multi-label space reshape for semantic-rich label-specific features learning[J]. International Journal of Machine Learning and Cybernetics, 2022,13(6): 1-15.
[12]Teng Luyao, Feng Zhenye, Fang Xiaozhao, et al. Unsupervised feature selection with adaptive residual preserving[J]. Neurocompu-ting, 2019, 367: 259-272.
[13]Fan Yuling, Liu Jinghua, Liu Peizhong, et al. Manifold learning with structured subspace for multi-label feature selection[J]. Pattern Recognition, 2021, 120: 108169.
[14]Lim H, Kim D W. MFC: initialization method for multi-label feature selection based on conditional mutual information[J]. Neurocomputing, 2020, 382: 40-51.
[15]Tawhid M A, Ibrahim A M. Feature selection based on rough set approach, wrapper approach, and binary whale optimization algorithm[J]. International Journal of Machine Learning and Cyberne-tics, 2020, 11: 573-602.
[16]Hu Juncheng, Li Yonghao, Gao Wanfu, et al. Robust multi-label feature selection with dual-graph regularization[J]. Knowledge-Based Systems, 2020, 203: 106126.
[17]Kumar S, Rastogi R. Low rank label subspace transformation for multi-label learning with missing labels[J]. Information Sciences, 2022, 596: 53-72.
[18]Li Yonghao, Hu Liang, Gao Wanfu. Label correlations variation for robust multi-label feature selection[J]. Information Sciences, 2022, 609: 1075-1097.
[19]Fan Yuling, Chen Baihua, Huang Weiqin, et al. Multi-label feature selection based on label correlations and feature redundancy[J]. Knowledge-Based Systems, 2022, 241: 108256.
[20]Zhang Minling, Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Trans on Knowledge and Data Engineering, 2013, 26(8): 1819-1837.
[21]Huang Jun, Qin Feng, Zheng Xiao, et al. Learning label-specific features for multi-label classification with missing labels[C]//Proc of the 4th IEEE International Conference on Multimedia Big Data. Piscataway,NJ:IEEE Press, 2018: 1-5.
[22]Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85: 333-359.
[23]Hu Liang, Li Yonghao, Gao Wanfu, et al. Multi-label feature selection with shared common mode[J]. Pattern Recognition, 2020, 104: 107344.
[24]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with local discriminant model and label correlations[J]. Neurocomputing, 2021, 442: 98-115.
[25]Li Yonghao,Hu Liang,Gao Wanfu. Robust sparse and low-redundancy multi-label feature selection with dynamic local and global structure preservation[J]. Pattern Recognition, 2023, 134: 109120.
[26]Inoue H. Data augmentation by pairing samples for images classification[EB/OL]. (2018-04-11). https://arxiv.org/abs/1801.02929.
[27]Shu Senlin, Lyu Fengmao, Yan Yan, et al. Incorporating multiple cluster centers for multi-label learning[J]. Information Sciences, 2022, 590: 60-73.
[28]Huang Rui, Wu Zhejun. Multi-label feature selection via manifold regularization and dependence maximization[J]. Pattern Recognition, 2021, 120: 108149.
[29]Jian Ling, Li Jundong, Shu Kai, et al. Multi-label informed feature selection[C]//Proc of International Joint Conference on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann Publishers, 2016,16: 1627-1633.
[30]Zhang Jia, Luo Zhiming, Li Candong, et al. Manifold regularized discriminative feature selection for multi-label learning[J]. Pattern Recognition, 2019, 95: 136-150.
[31]Demar J. Statistical comparisons of classifiers over multiple data sets[J]. The Journal of Machine Learning Research, 2006, 7: 1-30.