王晶晶,楊有龍
西安電子科技大學 數(shù)學與統(tǒng)計學院,西安710126
在單標簽學習中每個實例只與單一的類標簽相關聯(lián),與傳統(tǒng)單標簽學習不同,多標簽學習是同時處理具有多個類標簽的實例[1]。到目前為止,多標簽學習已經(jīng)引起了人們的廣泛關注,并且應用于各種領域,如文本或網(wǎng)站分類[2]、圖像或視頻注釋[3]和基因功能分析[4]等。多標簽分類任務是使用一些多標簽數(shù)據(jù)來訓練一個分類模型,并用此模型為新出現(xiàn)的實例來預測一組標簽集合。
對于大部分現(xiàn)有的多標簽分類算法,例如LP(Label Powerset)[5]、BR(Binary Relevance)[6]、ECC(Ensembles of Classifier Chains)[7]、RAKEL(Random k-Labelsets)[8]
和ML-KNN(Multi-Label k -Nearest Neighbor)[9]等一些經(jīng)典的算法,都要求訓練數(shù)據(jù)中所有的標簽信息是完整的,然而在實際問題中,隨著數(shù)據(jù)的爆炸式增長,獲取完全標記的實例并不是一件容易的事情。一方面的原因可能是獲得這些信息需要大量的人力物力或者付出的代價是昂貴的,例如:在化學研究中,獲得相應的標簽信息可能需要多次有害的重復實驗;在進行新藥品的檢測時,獲得新藥成分中相應的活性分子可能涉及到研究者暫時無法知曉的專業(yè)知識。另一方面的原因可能是收集者僅僅收集了一些相對重要的信息而丟棄了其他有用的信息。由此,產(chǎn)生了弱標記數(shù)據(jù)[10]。
弱標記數(shù)據(jù)是指實例的部分標簽未被標記或者錯誤標記的多標簽數(shù)據(jù),在本文著重研究前一種情況。在針對弱標記數(shù)據(jù)的多標簽分類問題中,對于標簽的分配有以下三種情況:(1)在訓練集中,存在一部分完全標記的實例,剩余的實例都是完全未標記的,稱這種情況為半監(jiān)督多標簽學習問題[11-12];(2)在訓練集中的實例只有部分相關標簽是已知的,其余的標簽信息都是未知的,這部分的標簽也被視為缺失的標簽信息,稱這種情況為弱標記學習問題[13];(3)在訓練集中的實例只有部分相關和不相關的標簽是已知的,其余的標簽信息都是未知的,稱這種情況為擴展的弱標記學習問題。圖1是對這三種情況的具體解釋,圖中的1和?1分別表示相關和不相關的標簽信息,紅色的陰影部分表示缺失的標簽信息。在本文中,主要針對第二種情況進行研究。
圖1 三種標簽分配方式
對于上述的弱標記學習問題,目前也有一些相應的解決方法。Sun等人[13]最早將弱標記問題引入多標簽學習中,并提出WELL(Weak Label Learning)方法來解決此問題,在WELL 方法中,由一組低秩相似性矩陣來刻畫實例之間的相似性,同時考慮了弱標記問題中固有的類別不平衡問題,并強制每個標簽的分類邊界跨越低密度區(qū)域。Chen 等人[14]首次嘗試從少數(shù)的標簽分配中重建完整或未知的標簽集合,之后在輸入特征到重建標簽集合之間學習一個映射來解決問題。Wu等人[15]提出一種歸納式的方法MLML(Multi-label Learning with Missing Labels)來處理多標簽中的缺失標簽問題,這種方法加強了預測標簽和可用標簽之間的一致性以及標簽之間的局部平滑性。Chung 等人[16]提出了一種新的方式來解決這一問題,特別是針對缺失標簽的分布不是均勻分布的情況,該方法能夠通過更新權重的方式來快速地恢復缺失標簽的相關信息。Tan等人[17]提出一種歸納式的方法SMILE(Semi-supervised Multi-label Classification using Incomplete Label Information),該方法在對弱標記數(shù)據(jù)進行分類的過程中引入了基于圖的半監(jiān)督線性分類器,通過一致性和平滑性這兩個基本的假設來優(yōu)化最終的目標函數(shù),進而得到所求的線性分類器。
為了解決上述問題,本文提出了一種MCWD(Multilabel Classification for Weak-label Data)的算法來解決弱標記數(shù)據(jù)的多標簽分類問題,它充分利用了實例之間的相似性和標簽之間的相似性,同時又引入了標簽之間的相關性,主要用于恢復訓練數(shù)據(jù)中的缺失標簽信息。MCWD算法首先通過在可接受的執(zhí)行時間內迭代地更新每個訓練實例的權重來恢復80%訓練數(shù)據(jù)的標簽信息;接下來利用標簽相關性來補充剩余實例的標簽信息;最后,使用完全恢復的訓練數(shù)據(jù)來訓練分類模型。在14 個基準數(shù)據(jù)集上的實驗結果表明,MCWD 算法對于不同的數(shù)據(jù)集具有較好的分類效果。
在傳統(tǒng)的多標簽分類任務中,訓練集一般表示為{(xi,yi)|1 ≤i ≤m},其中xi∈?d是第i 個實例的d 維特征向量,yi=(yi1,yi2,…,yin)∈{1,-1}n是此實例相應的n維標簽向量,其中的值1和?1分別代表相關和不相關的標簽信息。 m 和n 分別是實例和標簽的數(shù)目。X=[x1;x2;…;xm]∈?m×d為實例的特征矩陣,Y=[y1;y2;…;ym]∈{1,-1}m×n為實例的真實標簽矩陣。對于向量yi=(yi1,yi2,…,yin)中的每個分量yij,當yij=1 時表示第j 個標簽屬于第i 個實例,否則表示為yij=-1。多標簽分類任務的目標是從已知的X 和Y 矩陣中學習一個分類模型f:?d?{1,-1}n來準確地預測新實例的標簽向量。
然而在弱標記樣本中,標簽矩陣Y 中的相關標簽是部分已知的,此時只能得到一個不完整的標簽矩陣C ∈{0,1}m×n,其中當Cij=1 時表示第j 個標簽屬于第i個實例(與上述yij=1 時的情況相同),而Cij=0 時上述相應的標簽分量yij有兩種可能出現(xiàn)的情況:一種是yij=1,它表明雖然第j 個標簽屬于第i 個實例但是此結果沒有被觀測到;另一種是yij=-1,它表明第j 個標簽不屬于第i 個實例,同樣此結果也是沒有被觀測到的,所以將這樣的矩陣C 作為弱標記數(shù)據(jù)的初始標簽矩陣。另外,p 是為每個實例所分配相關標簽的最大數(shù)目,其值可以通過計算獲得。因此在訓練集中為每個實例分配到的標簽數(shù)目保持在[1,p]范圍內,即在向量Ci=(Ci1,Ci2,…,Cin)中的相關標簽數(shù)目都不超過p 的值。本文的主要目標是從已知的{X,C}中去學習得到一個完整的標簽矩陣Y?∈{1,-1}m×n,同時希望Y?與真實的標簽矩陣Y 很接近,從而能更好地執(zhí)行分類任務。
在具有弱標記數(shù)據(jù)的多標簽分類問題中,由于訓練數(shù)據(jù)中大多數(shù)的標簽信息是缺失的,所以利用傳統(tǒng)的多標簽分類算法來解決此類問題難以產(chǎn)生好的分類效果。如果能將訓練數(shù)據(jù)中不完整的標簽信息進行正確地恢復,此時的預測效果將會有所提升。為了解決上述問題,從而提出了一種可以正確地恢復缺失標簽信息的MCWD 算法,圖2 簡明扼要地說明了此算法的大致流程。接下來將詳細地介紹這種算法。
圖2 MCWD算法的流程框圖
2.2.1 初始化
這一步的主要想法是將已知的相關和不相關的標簽信息分配到所有的訓練數(shù)據(jù)中,然而此時在本文的訓練數(shù)據(jù)中沒有不相關的標簽信息,需要在訓練數(shù)據(jù)的標簽信息中添加一些不相關的標簽信息,從而將缺失標簽和不相關標簽進行有效區(qū)分。
首先,對于初始標簽矩陣C 中的每個標簽j,在C中隨機選擇pj個Cij=0 的實例,同時將選定實例的Cij值由原來的0變?yōu)?1,其中pj是每個標簽j 中所有相關標簽的總數(shù)目。此時,經(jīng)過初始化,Cij中的值由原來的{0,1}變化為{-1,0,1},其中1 代表相關的標簽信息,0 代表缺失的標簽信息,-1 代表不相關的標簽信息。將此時得到的標簽矩陣記為C1∈{-1,0,1}m×n。其次,將權重矩陣初始化為=C1ij。
下面以一個例子來說明初始化前后訓練集中各個實例的標簽集所發(fā)生的具體變化。假設訓練集中有5個實例,每個實例由3個特征和3個標簽所組成,給定p的值為1,那么初始化前的訓練集如表1所示,經(jīng)過初始化之后所得的訓練集如表2所示。
表1 初始化前的訓練集
表2 初始化后的訓練集
2.2.2 迭代和更新
這一步的主要目標是恢復訓練數(shù)據(jù)中大部分的標簽信息,具體的步驟主要分為以下三個階段:預測標簽、更新權重以及重置標簽。
首先,使用一個實例加權的基分類器來逐個預測訓練集中所有實例的標簽信息。選用的這個基分類器為實例加權的KNN分類器,具體的過程為:給定訓練數(shù)據(jù)以及每個實例的初始權重,將訓練數(shù)據(jù)中的每個實例輪流作為一次測試實例,同時將其余的實例作為一個新的訓練集;之后計算出訓練實例與測試實例之間的歐式距離,這些距離只需要計算一次并且在迭代的過程不會發(fā)生改變。對于一個測試實例ITest,實例加權的KNN 算法先在訓練集中尋找它的k 個近鄰KNN(ITest),確保此測試實例與這些近鄰之間的距離盡可能得??;之后在第t 次迭代時,其k 個近鄰KNN(ITest)標簽向量的加權平均作為此測試實例ITest在第t 次迭代的預測標簽向量
其次,用每個實例i 的每個標簽j 的值來更新每次的權重值wij,的更新值為:
其中,sgn()是符號函數(shù),e 是高置信度閾值并且其取值在(0.5,1),c 是低置信度閾值并且其取值在(0,0.5),同時Maxj=maxi(,Minj=mini。此外,wij的值也在區(qū)間[-1,1]。因為的取值總在一個固定的區(qū)間中,所以根據(jù)其值可以確定區(qū)分相關與不相關標簽信息的閾值。由于輸出值總在區(qū)間[-1,1],因此以0 作為閾值來區(qū)分實例的標簽信息,qtij的值將重新分配為:
最后,為了在每次迭代過程中將初始標簽矩陣C中的相關標簽信息保留下來,需要將經(jīng)過以上步驟所獲得的的值進行重置。這樣做的原因是因為C 中的相關標簽信息不僅是已知的,而且是完全正確的,有必要將這部分的信息進行保留并有效地加以利用,現(xiàn)在所獲得的標簽矩陣表示為Q={∈{ }-1,0,1 |1 ≤i ≤m,1 ≤j ≤n}。
如果依次執(zhí)行完畢上述的三個步驟,則表示一次循環(huán)完成。當訓練數(shù)據(jù)中80%的標簽信息完全恢復完畢時,即這80%實例的標簽中不含有缺失值“0”時,循環(huán)結束,從而進行下一步。
2.2.3 利用標簽相關性來恢復剩余的標簽信息
多標簽學習不同于傳統(tǒng)的單標簽學習,一個實例往往關聯(lián)多個標簽,并且這些標簽相互之間常常存在著一定的關聯(lián),所以在多標簽的學習過程中,研究和利用這些標簽之間的相關性是非常有必要的[18-20]?,F(xiàn)有的關于標簽之間相關性的求解策略可大致分為一階策略(不考慮標簽之間的相關性)、二階策略(考慮兩兩標簽之間的相關性)和高階策略(考慮多個標簽之間的相關性)三大類[7,9,17,21],在本文中,所采用的是二階策略[17],主要是因為它在使用過程中的簡單性和有效性,同時這也是經(jīng)常被使用的一種策略。因此,本文定義了一個標簽相關矩陣L ∈?n×n,用來衡量兩兩標簽之間的相關性,具體形式如下:
其中,qc1用來表示被標簽c1標注的實例集合, ||qc1表示被標簽c1標注的實例數(shù)目,而 ||qc1?qc2表示被標簽c1和c2同時標注的實例數(shù)目。s >0 是引入的一個平滑參數(shù),通過設置參數(shù)s,可以在一定程度上避免由于標簽不平衡問題所產(chǎn)生的一些極端情況。 舉一個簡單的例子進行說明:假設現(xiàn)在有25張圖片,其中有5張被大海、輪船和魚群這三個標簽所標記,而剩余的那些都是被輪船和魚群這兩個標簽所標記。 如果隨機選擇10 張圖片用來估計標簽之間的相關性,并且選擇到的這10 張圖片恰好都是被輪船和魚群這兩個標簽所標記時,那么在不考慮s 的情況下,大海與輪船之間的相關性和大海與魚群之間的相關性都會被估計為0。但是實際上這三個標簽相互之間是有所關聯(lián)的,所以引入?yún)?shù)s 是有必要的。此外,利用在上一步所得到的80%訓練數(shù)據(jù)中完全恢復好的標簽信息來計算標簽相關矩陣L。
接下來需要在剩余20%訓練數(shù)據(jù)中找到缺失的標簽,同時利用得到的標簽相關矩陣L 來將這些缺失值補充完整,具體補充過程如下:
當qij=0時,的值變?yōu)椋渲蠱axj=之后選擇一個閾值來確定最終的值,如果的值大于0.5時,在Q 中qij的值變?yōu)?;否則在Q 中qij的值變?yōu)?1。通過這一步,的值會被快速地恢復。
到目前為止,所有的缺失標簽全部恢復完畢,換言之此時訓練數(shù)據(jù)全部的標簽信息都是完整的,將最終恢復好的標簽矩陣記為?∈{1,-1}m×n,同時將其作為訓練實例新的標簽集。利用這個新的訓練集{X,來訓練一個多標簽分類模型,其中現(xiàn)在的標簽集與初始的標簽集C 是不同的,之后使用得到的分類模型來預測測試數(shù)據(jù)的標簽信息。MCWD算法的詳細過程如算法1所示。
算法1 MCWD算法
輸入:訓練集D=[X,C],其中X 為特征矩陣,C 為初始的標簽矩陣;為每個實例所分配相關標簽的最大數(shù)目p,迭代次數(shù)t,測試集X1。
1.for 訓練集D 中的所有實例執(zhí)行
2. 初始化
3. 隨機添加不相關的標簽信息,標簽矩陣由初始的標簽矩陣C 變?yōu)镃1;
5. 迭代和更新
6.while C1中80%的標簽信息未恢復完全時執(zhí)行
7. for訓練集中第1個到第m 個實例執(zhí)行
8. 使用式(1)來預測每個實例的標簽向量qt;
10. 重置標簽信息,將C 中已知的相關標簽信息保留下來;
11. end for
12. end while
13. 利用標簽相關性來恢復剩余的標簽信息
14. 使用式(4)來計算標簽相關矩陣L;
15. 尋找剩余20%訓練數(shù)據(jù)中缺失的標簽信息,使用式(5)對其進行恢復;
16.end for
18.利用現(xiàn)有的多標簽分類算法從[X,Y?] 中訓練分類模型;
19.返回預測的標簽矩陣Y1。
在這部分,主要評估所提出MCWD 算法的有效性。將MCWD算法與其他兩種標簽恢復的方法同時配合兩種成熟的多標簽學習算法,對來自不同研究領域并且有著不同規(guī)模的14 個多標簽數(shù)據(jù)集進行實驗仿真,最后將所得的實驗結果進行比較和分析,從而來驗證MCWD算法的可行性和有效性。
選取了14個具有代表性的、公開的多標簽數(shù)據(jù)集,表3 中總結了這些數(shù)據(jù)集各方面的一些基本信息。對于每個數(shù)據(jù)集,介紹了其所屬的領域、含有實例的總數(shù)目、每個實例擁有的特征數(shù)目、每個實例擁有的標簽數(shù)目、標簽的基數(shù)或勢和p 值的大小。其中Cardinality表示標簽的基數(shù)或勢,其值可根據(jù)公式(6)進行計算,它表示為每個實例所分配到的標簽的平均數(shù)目,Density 為標簽的密度,是標簽的基數(shù)與標簽總數(shù)的比值,具體的計算方式見公式(7),最后的p 值為標簽基數(shù)的一半,在C 中它限制了為每個實例所分配標簽的最大數(shù)目。選取的整個數(shù)據(jù)集大小從194到43 000多不等,其中的特征維數(shù)從19 維到5 000 維不等,相應的標簽個數(shù)從6 到370多不等,同時它們涉及到廣泛的領域和特征,具有一定的代表性和說服力。
表3 選取的多標簽數(shù)據(jù)集
其中,yi表示第i 個實例的標簽集。
上述數(shù)據(jù)集的網(wǎng)站來源:http://mulan.sourceforge.net./datasets-mlc.html,https://www.uco.es/grupos/kdis/kdiswiki/index.php/Resources。
在多標簽分類問題中,由于數(shù)據(jù)集中的每個實例往往同時關聯(lián)到多個標簽,所以對于那些傳統(tǒng)的分類性能評估指標例如準確率、精確率和召回率等對此問題不完全適用。到目前為止,為了更好地評估多標簽分類的分類效果,許多研究者從分類問題的各個角度著手考慮并且在傳統(tǒng)的單標簽評估指標的基礎上進行改進,提出了許多種多標簽分類性能的評估標準來從不同的側面去衡量學習系統(tǒng)的泛化性能。這些評估標準大致可以概括為三類:(1)基于實例的評估標準;(2)基于標簽的評估標準;(3)基于標簽排序的評估標準。評判一個算法的泛化性能不但可以從分類預測的角度進行考慮,而且可以從標簽排序的角度進行衡量,特別是當數(shù)據(jù)集中給定的真實標簽信息不完整時,通過標簽排序的角度來評估分類性能可能更加合理。
為了驗證所提算法的有效性,選擇了以下三個評估指標,關于它們的具體描述如下:
(1)One-error 主要衡量在對所有待預測實例進行標簽排序的過程中,預測排在第一位上的標簽實際上不是相關標簽真正的待預測實例所占的比例。具體的計算過程為:
其中,S 表示測試集,f 是一個排序函數(shù),并且對于任一個條件a ,如果a 成立時則? a? =1,否則? a? =0 。由其定義可知該評估指標的值越小,則說明算法的分類性能越優(yōu),當One-errorS( )f =0 時,分類性能達到最佳。
(2)Macro F1是所有標簽F1度量的平均值,其中F1度量是通過精確率和召回率計算得到的。此指標具體的計算過程為:
其中,pi和ri分別表示第i 個標簽的精確率和召回率。 Macro F1的值越大,則表明算法的分類性能越優(yōu)。
(3)Micro F1是精確率和召回率的調和平均,其中精確率和召回率是針對每個標簽從TP、FP 和FN 的角度進行度量。此指標具體的計算過程為:
對于測試實例中所關聯(lián)到的第i 個標簽,其中TPi表示真正例的個數(shù),即正類實例被分類器預測為正類的個數(shù);FPi表示假正例的個數(shù),即負類實例被預測為正類的個數(shù);FNi表示假負例的個數(shù),即正類實例被預測為負類的個數(shù)。 Micro F1的值越大,則表明算法的分類性能越優(yōu)。
將所提的MCWD算法與其他三種相關的方法進行比較,其中的兩種關于標簽恢復的方法需要同時配合兩種成熟的多標簽學習算法來執(zhí)行分類任務,所以需要同時兼顧兩方面的內容:一方面是關于標簽恢復工作,另一方面是關于多標簽分類工作。
對于標簽恢復工作,采用以下兩種方法進行比較:(1)文獻[16]中關于標簽恢復的方法,為了方便討論,以下將這種方法簡記為文獻[16]。其中參數(shù)k 的取值為10,其余各個參數(shù)的具體設置詳見文獻[16]。(2)WELL方法,其中各個參數(shù)的具體設置詳見文獻[13]。
對于多標簽分類工作,主要采用以下三種方法進行實驗仿真:(1)ML-KNN方法[9],它是一種具有一階策略的多標簽學習算法,是從傳統(tǒng)的KNN(k-Nearest Neighbor)算法演變而來。對于一個待測實例,ML-KNN首先在訓練數(shù)據(jù)中識別出與其最近的k 個近鄰,之后從這些近鄰實例的標簽集中獲得統(tǒng)計信息,最后根據(jù)最大后驗概率來確定待測實例最終的標簽集合。其中參數(shù)k 的取值為10,平滑系數(shù)的值設置為1。(2)ECC 方法[7],它是CC(Chain Classifier)方法的集成版本,其中集成的數(shù)目選擇為10,并且對于每一個CC 中的鏈序都是隨機生成的,其余各個參數(shù)的具體設置詳見文獻[7]。(3)SMILE[17],它是一種歸納式的半監(jiān)督多標簽分類方法,綜合利用來自標記實例和未標記實例的標簽相關性來預測新的未知實例的標簽信息。其中各個參數(shù)的具體設置詳見文獻[17]。
在本文所提的MCWD 算法中,高置信度閾值e 的取值為0.8,低置信度閾值c 的取值為0.2,與文獻[16]中相關參數(shù)的選擇保持一致。在每次迭代過程中,k 值會發(fā)生相應的變化,其取值與迭代的次數(shù)有關為10 ?t ,平滑系數(shù)s 的取值為1。在實驗過程中,對于每一個數(shù)據(jù)集,將其隨機劃分為訓練集(占70%)和測試集(占30%),此過程反復進行10 次,最后將這10 次實驗結果的均值和標準差作為最終的結果輸出。
經(jīng)過實驗仿真,接下來將對MCWD 算法的性能進行分析。首先表4 統(tǒng)計了在C 中相關標簽的數(shù)目和標簽的缺失率,其中標簽的缺失率是在訓練數(shù)據(jù)中缺失標簽的數(shù)目與標簽總數(shù)目的比值。從表4可以看出,當選定的p 值較小時,那么在C 中標簽的缺失率通常較高,表中的所有值均為10次實驗結果的平均值。
表4 C 中的相關信息統(tǒng)計
其次,圖3顯示了弱標記數(shù)據(jù)的標簽矩陣C1與多標簽數(shù)據(jù)中真實的標簽矩陣Y 相比的正確率以及通過使用4 種標簽恢復方法得到的恢復后的標簽矩陣Y?與真實的標簽矩陣Y 相比的正確率,圖中的橫坐標為選取的14 個多標簽數(shù)據(jù)集,縱坐標為與真實的標簽矩陣Y相比的正確率。從圖3 中可以清楚地看出標簽恢復之后的正確率有明顯的提高,并且使用本文方法進行恢復的效果遠遠勝過其他三種標簽恢復的方法,在這些數(shù)據(jù)集中Enron 數(shù)據(jù)集用本文方法進行恢復后的效果是最好的。
圖3 與Y 相比的正確率
最后,在14 個數(shù)據(jù)集上進行對比實驗的所有結果見表5~7,表中顯示的所有值均為10次實驗結果的平均值與標準差的組合,同時將每個數(shù)據(jù)集中評估指標的最佳結果用粗體突出顯示。對于表5 中的評估指標One-error ,其值越小表明最終的分類效果越好,然而對于表6和表7中的評估指標Macro F1和Micro F1,其值越大表明最終的分類效果越好。
從表5 中關于One-error 評估指標的實驗結果可以得出:在14 個數(shù)據(jù)集中,在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占8 個,在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占2個,在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個,在SMILE方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3個。與其他三種方法相比,所提的方法更具有優(yōu)勢。并且注意到CAL500 數(shù)據(jù)集在MCWD方法下使用ML-KNN 分類器后得到One-error 的值為0,此時的分類性能達到最佳,即使在使用ECC 分類器后獲得的One-error 的值也趨近于0,分類的效果也是不錯的。
表5 基于One-error 評估指標的實驗結果對比
表6 基于Macro F1 評估指標的實驗結果對比
根據(jù)表6 中關于Macro F1評估指標的實驗結果可以得出:在14 個數(shù)據(jù)集中,在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占9 個,在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個,在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個,在SMILE方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3個。與其他三種方法相比,所提的方法更具有競爭力。同時注意到Scene 數(shù)據(jù)集在MCWD方法下使用ML-KNN分類器后得到的Macro F1的值約為0.67,此時的分類效果是所有數(shù)據(jù)集中最佳的。
表7 基于Micro F1 評估指標的實驗結果對比
根據(jù)表7 中關于Micro F1評估指標的實驗結果可以得出:在14 個數(shù)據(jù)集中,在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占8 個,其中對于Flags 數(shù)據(jù)集,在MCWD 方法下分別使用ML-KNN 分類器和ECC 分類器后所得的Micro F1的值是相同的,在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占2個,在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1 個,在SMILE 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3 個。與其他三種方法相比,所提的方法更具有優(yōu)勢。同時注意到Genbase數(shù)據(jù)集在MCWD 方法下使用ML-KNN 分類器后得到的Micro F1的值約為0.89,此時的分類效果是所有數(shù)據(jù)集中最佳的。
綜上所述,所提出的MCWD 算法對于絕大多數(shù)的數(shù)據(jù)集都能產(chǎn)生較好的分類效果,但是也有一些例外的情況,例如其中的Mediamill 數(shù)據(jù)集,從表5~7 可以看出,此數(shù)據(jù)集使用WELL方法進行恢復后所產(chǎn)生的分類效果遠遠比使用MCWD 方法所產(chǎn)生的效果好,出現(xiàn)這種情況的原因可能是通過使用WELL 方法在恢復標簽的過程中預測產(chǎn)生了太多的相關標簽信息,從而使得最終Macro F1和Micro F1的值很大。同時注意到對于Flags數(shù)據(jù)集,無論是使用ML-KNN分類器還是ECC分類器,在每種方法下所產(chǎn)生的分類效果差不多相近,出現(xiàn)這種情況的原因可能是在此數(shù)據(jù)集中標簽之間的相關性不是很強,所以這兩種分類器產(chǎn)生的效果大致相同。對于Birds 數(shù)據(jù)集,使用SMILE 方法后在三個評估指標上均取得了較好的結果,出現(xiàn)這種情況的原因可能是此數(shù)據(jù)集更適合用基于圖的訓練模型進行訓練。最后,通過對上述實驗結果進行的一系列分析后,可以得出一個顯而易見的結論:通過使用MCWD 算法進行標簽恢復后,無論是使用ML-KNN 分類器還是ECC 分類器,對于絕大多數(shù)的數(shù)據(jù)集都能夠產(chǎn)生較好的分類效果,與其他三種方法相比,具有一定的競爭力。
在現(xiàn)實生活中,隨著數(shù)據(jù)量的迅猛增加,數(shù)據(jù)形式也越來越多樣化,這就使得利用人工對數(shù)據(jù)進行標注越來越不現(xiàn)實,因此在收集數(shù)據(jù)的過程中很難獲得完全標記的實例,然而大多數(shù)成熟的多標簽分類算法都要求訓練實例的標簽信息必須是完整的,所以進行標簽的恢復工作就顯得格外重要。
本文針對弱標記數(shù)據(jù)的多標簽分類問題,提出了一種有效的算法MCWD來解決訓練實例中部分相關標簽信息已知而其余標簽信息未知的問題。MCWD算法主要通過迭代地更新每個訓練實例的權重并且引入兩兩標簽之間的相關性來恢復訓練數(shù)據(jù)中的缺失標簽信息,同時還在一定程度上避免了由于標簽不平衡問題所導致的一些極端情況。實驗結果表明,與其他相關方法相比,采用現(xiàn)有的多標簽分類算法從恢復后的訓練數(shù)據(jù)集中訓練得到的分類模型可以在測試階段產(chǎn)生更好的預測效果。