摘 要:準(zhǔn)確選取高置信度樣本是提升自訓(xùn)練算法分類性能的關(guān)鍵. 針對自訓(xùn)練迭代過程中的誤分類樣本,提出一種結(jié)合密度峰值和集成過濾器的自訓(xùn)練算法:利用密度峰值聚類計(jì)算樣本的密度和峰值,構(gòu)建初始高置信度樣本集;為了過濾自訓(xùn)練迭代過程中的誤分類樣本,設(shè)計(jì)一個(gè)集成過濾器,從初始高置信度樣本集進(jìn)一步選擇高置信度樣本,將其添加進(jìn)有標(biāo)簽樣本集中迭代訓(xùn)練. 在9 個(gè)數(shù)據(jù)集上與4 個(gè)相關(guān)的自訓(xùn)練算法進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,算法的平均準(zhǔn)確率和F 分?jǐn)?shù)分別為67.90% 和65.54%,其分類性能顯著優(yōu)于對比算法.
關(guān)鍵詞:自訓(xùn)練;無標(biāo)簽樣本;高置信度樣本;密度峰值;集成過濾器
中圖分類號:TP181
DOI: 10.19504/j.cnki.issn1671-5365.2024.06.03
自訓(xùn)練算法[1]是一種經(jīng)典的半監(jiān)督學(xué)習(xí)算法.半監(jiān)督學(xué)習(xí)(Semi-supervised learning, SSL)[2]能夠充分利用大量無標(biāo)簽數(shù)據(jù)和少量有標(biāo)簽數(shù)據(jù)完成分類任務(wù). 相比較于傳統(tǒng)有監(jiān)督分類利用獲取困難、成本高昂的有標(biāo)簽數(shù)據(jù)進(jìn)行分類,SSL 降低了數(shù)據(jù)標(biāo)簽要求,能夠以較少的標(biāo)簽成本獲得較高的學(xué)習(xí)性能[3]. SSL 算法主要包括生成式模型[4]、協(xié)同訓(xùn)練[5]、基于圖的方法[6]和自訓(xùn)練算法等. 其中,自訓(xùn)練算法因其簡單、高效且無需考慮數(shù)據(jù)集的初始假設(shè)得到了廣泛的討論和應(yīng)用[7].
自訓(xùn)練算法在迭代過程中,利用少量有標(biāo)簽樣本訓(xùn)練一個(gè)基分類器,再利用基分類器從無標(biāo)簽樣本中選取出高置信度樣本及其預(yù)測標(biāo)簽,將選取的樣本和標(biāo)簽加入有標(biāo)簽樣本集中進(jìn)行再訓(xùn)練,不斷優(yōu)化直到將所有無標(biāo)簽樣本打上標(biāo)簽[8],其中高置信度樣本表示自訓(xùn)練迭代過程中選擇的更高概率加入有標(biāo)簽集的樣本. 如果樣本在迭代過程中被預(yù)測為錯誤標(biāo)簽加進(jìn)了有標(biāo)簽樣本集,即誤選取高置信度樣本,此錯誤將會在訓(xùn)練過程中不斷加深,因此選取高置信度樣本的準(zhǔn)確度是影響自訓(xùn)練算法性能的關(guān)鍵因素.
為提升自訓(xùn)練算法分類性能,研究者們提出了不同的高置信度樣本的選取方法[9]. Li[10]和Wang[11]等提出了編輯自訓(xùn)練算法(Self?training with editing,SETRED)和使用割邊的最近鄰自訓(xùn)練算法(Self?training nearest rule using cut edges, SNNRCE),兩個(gè)算法使用割邊權(quán)重統(tǒng)計(jì)方法(Cut edge weight statis?tic, CEWS)[12]來選取高置信度點(diǎn),但當(dāng)割邊權(quán)重不平衡時(shí),訓(xùn)練效果不佳. Gan 等[13]提出了半監(jiān)督模糊C 均值聚類的自訓(xùn)練算法(Self?training with semi?su?pervised fuzzy C?means, STSFCM),在自訓(xùn)練迭代過程中使用模糊C 均值聚類發(fā)現(xiàn)局部數(shù)據(jù)空間結(jié)構(gòu),將類簇隸屬度大于設(shè)定閾值的樣本作為高置信度樣本,但是當(dāng)樣本類別數(shù)較多時(shí)閾值的設(shè)定較為困難,同時(shí)由于未考慮到數(shù)據(jù)的全局結(jié)構(gòu)信息,難以處理非球形數(shù)據(jù)樣本. 為此,Wu 等[14]提出了一種基于密度峰值的自訓(xùn)練算法(Self?training method based ondensity peaks, STDP).密度峰值聚類(Density peaksclustering, DPC)[15]使用密度峰值構(gòu)建二維空間中數(shù)據(jù)間層次關(guān)系,能更好地表達(dá)樣本的整體空間結(jié)構(gòu),并對任意形狀的數(shù)據(jù)樣本有良好的適應(yīng)性,是一種簡單、快速、有效的聚類算法. STDP 算法使用DPC算法發(fā)現(xiàn)數(shù)據(jù)的全局空間結(jié)構(gòu),解決了非球形分布的數(shù)據(jù)分類問題.
雖然STDP 算法能夠快速有效地發(fā)現(xiàn)高置信度無標(biāo)簽樣本,且迭代優(yōu)化速度非???,但在迭代過程中容易產(chǎn)生錯誤標(biāo)記的樣本. 一些研究者通過使用局部噪聲過濾技術(shù)過濾誤分類樣本來改進(jìn)自訓(xùn)練算法,如多標(biāo)簽編輯自訓(xùn)練算法、編輯最近鄰居和切割邊最近鄰自訓(xùn)練算法[16]等,在一定程度上解決了錯誤標(biāo)記的問題,但是這些過濾技術(shù)大多是基于單一分類器進(jìn)行過濾,過濾效果不夠穩(wěn)定. 為了進(jìn)一步解決自訓(xùn)練迭代過程中的誤分類問題,本文提出一種基于密度峰值和集成過濾器的自訓(xùn)練算法(Self?training algorithms based on density peaks and inte?grated filters, STDPIF).STDPIF 構(gòu)造了一個(gè)新穎的集成過濾器,由K 近鄰[17](K?nearest neighbor,KNN)、支持向量機(jī)[18](Support vector machine,SVM)、決策樹[19](Classification and regression tree,CRAT)三個(gè)分類器組成. 當(dāng)三個(gè)分類器的標(biāo)簽預(yù)測結(jié)果不一致時(shí),集成過濾器會過濾掉該無標(biāo)簽樣本,其預(yù)測能力相對于單個(gè)過濾器更加穩(wěn)定. 算法利用DPC 算法發(fā)現(xiàn)樣本空間結(jié)構(gòu),將有標(biāo)簽樣本的前置和后置無標(biāo)簽樣本結(jié)點(diǎn)定義為初始高置信度樣本,集成過濾器對初始高置信度樣本進(jìn)行過濾,判斷樣本是否被正確標(biāo)記,將正確標(biāo)記的樣本組合成為最終的高置信度樣本集,從而提高高置信度樣本的選取準(zhǔn)確度,減少迭代過程中的誤分類問題.
1 相關(guān)算法
1.1 自訓(xùn)練算法
自訓(xùn)練算法是一種高效而簡單的半監(jiān)督學(xué)習(xí)方法,能夠有效地利用無標(biāo)簽樣本對數(shù)據(jù)進(jìn)行分類.算法可以采用不同的基分類器和多種選取高置信度樣本的方法對模型進(jìn)行分類. 自訓(xùn)練算法的分類性能主要依賴于高置信度樣本選取準(zhǔn)確度以及基分類器性能.
定義L 和U 分別為數(shù)據(jù)集中所有有標(biāo)簽樣本集合和無標(biāo)簽樣本集合,算法一般流程如下:
Step1: 將L 作為訓(xùn)練集訓(xùn)練得到分類器,使用分類器對U 進(jìn)行預(yù)測;
Step2: 從U 中選取一部分置信度高的樣本,用分類器給它們打上偽標(biāo)簽;
Step3: 將賦予偽標(biāo)簽的數(shù)據(jù)加入訓(xùn)練集,同時(shí)將它們從U 中刪除,用新的訓(xùn)練集繼續(xù)訓(xùn)練分類器;
Step4: 返回Step1,直到U 中沒有樣本時(shí)停止.
由于L 會隨著高置信度樣本的加入而不斷擴(kuò)充,如果在迭代過程中出現(xiàn)樣本標(biāo)簽誤分類,并將其加入訓(xùn)練集,可能會導(dǎo)致L 中的噪聲不斷累積,最終使得算法的分類性能下降. 因此更加準(zhǔn)確的選取高置信度樣本是提升自訓(xùn)練算法分類性能的關(guān)鍵.
1.2 DPC 算法
DPC 算法是由Rodriguez 等人提出的一種基于局部密度和峰值確定類簇中心的聚類算法,它假設(shè)每一個(gè)類簇中心被密度低于它的樣本點(diǎn)包圍并與密度較高的樣本點(diǎn)之間的距離相對較遠(yuǎn)[20],通過計(jì)算每一個(gè)樣本的局部密度和相對距離確定出樣本的類簇中心.
DPC 算法中有截?cái)嗪撕透咚购藘煞N計(jì)算樣本局部密度的方法,本文使用截?cái)嗪朔椒?,樣本xi 局部密度定義為:
其中,d ij 為樣本xi 到xj 的歐氏距離,dc 為樣本xi 的鄰域截?cái)嗑嚯x,局部密度ρi 即為分布在樣本xi 的鄰域截?cái)嗑嚯x范圍內(nèi)的樣本個(gè)數(shù).
相對距離是指樣本xi 與周圍最近的密度更大的樣本之間的最小距離,樣本xi 的相對距離定義為:
δi = minj:ρj gt; ρidij (2)
而對于最高局部密度的樣本,其相對距離為:
δi = maxi ≠ jδj, ?j, ρi gt; ρj (3)
通過計(jì)算出它們的類簇中心權(quán)值來確定類簇中心,中心權(quán)值的定義為:
γi = ρi ? δi (4)
γi 的值越大,xi 越可能成為類簇中心;γi 值相對較小,則xi 一定不是類簇中心點(diǎn). 即選取局部密度大,峰值高的樣本點(diǎn)為可能的類簇中心. 確定類簇中心后,DPC 算法由計(jì)算得到的相對距離將其余樣本分配到與它們最接近的中心點(diǎn),完成類簇劃分.
1.3 STDP 算法
STDP 算法在自訓(xùn)練迭代過程中加入密度峰值聚類思想,利用密度和峰值揭示數(shù)據(jù)空間結(jié)構(gòu),能夠更快速地找到置信度高的無標(biāo)簽樣本.
STDP 首先使用DPC 算法計(jì)算每一個(gè)樣本的密度和峰值,找到可能的類簇中心,得到每個(gè)樣本點(diǎn)與最近的類簇中心之間的距離. 然后在L 上訓(xùn)練分類器,在U 中通過DPC 算法揭示的空間結(jié)構(gòu)選擇置信度高的無標(biāo)簽樣本,由分類器賦予其標(biāo)簽構(gòu)成高置信度樣本集,添加進(jìn)L 中,并在U 中刪除這些樣本,重新訓(xùn)練分類器;再從U 中重新選取置信度高的無標(biāo)簽樣本由新訓(xùn)練的分類器賦予其標(biāo)簽構(gòu)成新的高置信度樣本集,繼續(xù)添加進(jìn)L 中,并在U 中刪除這些樣本,重復(fù)以上步驟,直到?jīng)]有無標(biāo)簽樣本為止.STDP 算法的優(yōu)點(diǎn)是迭代速度非???,能有效地發(fā)現(xiàn)高置信度無標(biāo)簽樣本,但STDP 算法在構(gòu)建高置信度樣本集時(shí)存在錯誤分類且未被去除,錯誤標(biāo)簽影響算法的分類性能.
2 本文算法
為選取更加準(zhǔn)確的高置信度樣本,提高自訓(xùn)練算法分類性能,本文將DPC 算法用于無標(biāo)簽初始高置信度樣本集的構(gòu)建,使用集成過濾器對初始集進(jìn)行重新分類預(yù)測,組成準(zhǔn)確率更高的高置信度樣本集.
2.1 密度峰值選取初始高置信度樣本集
算法利用DPC 算法發(fā)現(xiàn)樣本空間結(jié)構(gòu),構(gòu)建樣本標(biāo)記順序,找出無標(biāo)簽初始高置信度樣本集. 首先使用DPC 算法計(jì)算出樣本xi 的局部密度ρi 和峰值δi,找到距離樣本xi 最近且有更大局部密度的樣本xj,將xi 指向xj,把被指向的樣本xj 稱為前置結(jié)點(diǎn),樣本xi 稱為被指向樣本xj 的后置結(jié)點(diǎn).
定義1 樣本xi 的前置結(jié)點(diǎn)Pxi 為:
Pxi = xj s.t. j,δj = minj:ρj gt; ρidij (5)
計(jì)算出每個(gè)樣本的前置和后置結(jié)點(diǎn)即可構(gòu)建完成樣本的標(biāo)記順序,樣本中密度最高的樣本點(diǎn),其前置結(jié)點(diǎn)為自身. 由得到的標(biāo)記順序選取高置信度樣本點(diǎn),定義無標(biāo)簽初始高置信度樣本.
定義2 樣本xi 的無標(biāo)簽初始高置信度樣本為:
Sxi = {x } k|xk = Pxi ∨ xi = Pxk ,i ≠ k (6)
由定義1 和定義2 可知,樣本xi 的無標(biāo)簽初始高置信度樣本由其自身的前置結(jié)點(diǎn)和后置結(jié)點(diǎn)組成.找到所有有標(biāo)簽樣本的后置無標(biāo)簽結(jié)點(diǎn)和前置無標(biāo)簽結(jié)點(diǎn),即可組成樣本的無標(biāo)簽初始高置信度樣本集.
2.2 集成過濾器
本文設(shè)計(jì)的集成過濾器由KNN、SVM、CRAT三個(gè)分類器組成. 利用有標(biāo)簽數(shù)據(jù)集訓(xùn)練三個(gè)分類器,將得到的集成過濾器用于無標(biāo)簽初始高置信度樣本集預(yù)測篩選. 為利用集成過濾器分類結(jié)果選取準(zhǔn)確的高置信度樣本點(diǎn),定義最終高置信度樣本集.
定義3 最終高置信度樣本集S 為:
S = { Sx - si |KNN (si ) ≠ SVM (si ) ∨ SVM (si )≠ CRAT(si ) } (8)
其中Sx 為無標(biāo)簽初始高置信度樣本集,s i 為Sx 中的樣本.
由定義3 可知,訓(xùn)練過的集成過濾器對無標(biāo)簽初始高置信度樣本集進(jìn)行分類并打上標(biāo)簽,去除集成過濾器中KNN、SVM、CRAT 三個(gè)分類器分類標(biāo)簽不一致的樣本,由此組成帶有偽標(biāo)簽的最終高置信度樣本集.
2.3 基于密度峰值和集成過濾器的自訓(xùn)練算法(STDPIF)
STDPIF 算法在迭代過程中由定義1 和定義2 選取出無標(biāo)簽初始高置信度樣本集,再利用集成過濾器對初始集進(jìn)行預(yù)測,將分類標(biāo)簽一致的高置信度樣本重新組成準(zhǔn)確率更高的高置信度樣本集,將其加入有標(biāo)簽樣本集中進(jìn)行分類預(yù)測. 重復(fù)進(jìn)行,直到無標(biāo)簽樣本集中沒有樣本為止. 算法的偽代碼如下:
算法1 STDPIF 算法
輸入:有標(biāo)簽數(shù)據(jù)集L ,無標(biāo)簽數(shù)據(jù)集U
輸出:分類器H
初始化高置信度樣本集S = ?
利用公式(1)和(2)求出樣本的局部密度ρ 和峰值δ
While U ≠ ? DO
for x i ∈ L
根據(jù)定義1 確認(rèn)樣本x i的無標(biāo)簽初始高置信度樣本S xi
S = S ? S xi
End for
利用L 訓(xùn)練KNN、SVM 和CART
for s i ∈ S
if K N N (s i ) ≠ S V M (s i ) or C A R T (s i ) ≠ S V M (s i )
S = S -s i
End if
End for
L = L ? S , U = U -S
End while
使用L 訓(xùn)練KNN
Return H
3 實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)環(huán)境為Windows 10 64 位操作系統(tǒng)、Intel Core i7 處理器、16 GB 內(nèi)存、MATLAB R2019b編程環(huán)境.
3.1 實(shí)驗(yàn)設(shè)置
為驗(yàn)證本文算法的有效性,選取SETRED[12]、STSFCM[15]、STDP[16]、STDPCEW[20]這4 個(gè)算法與本文STDPIF 算法進(jìn)行對比實(shí)驗(yàn). 所有算法的參數(shù)根據(jù)算法的原文進(jìn)行設(shè)置. 為了與STDP 和STDPCEW 算法保持一致,本文STDPIF 算法的截?cái)嗑嚯x設(shè)置為α = 2. 參數(shù)設(shè)置如表1 所示.
選取Cars、Glass、Australian、Breast、CMC、Diabe?tes、Heart、Ilpd、Transfuion 這9 個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集的相關(guān)信息如表2 所示,9 個(gè)數(shù)據(jù)集均來源于公開的UCI 數(shù)據(jù)庫.
3.2 實(shí)驗(yàn)結(jié)果及分析
將初始有標(biāo)簽樣本比例設(shè)為10%,在每一次試驗(yàn)中隨機(jī)選取,其余的90% 作為無標(biāo)簽樣本,將準(zhǔn)確率(Accuracy)和 F 分?jǐn)?shù)(F-score)作為算法分類性能的評價(jià)標(biāo)準(zhǔn). 5 個(gè)算法按照表1 設(shè)定參數(shù)分別在9 個(gè)數(shù)據(jù)集上運(yùn)行50 次,計(jì)算每個(gè)算法50 次實(shí)驗(yàn)結(jié)果后的兩種評價(jià)指標(biāo)的平均值與標(biāo)準(zhǔn)差,實(shí)驗(yàn)結(jié)果如表3 和表4 所示,為直觀顯示,對5 個(gè)算法在每個(gè)數(shù)據(jù)集上的最佳性能加粗顯示.
表3 的結(jié)果表明,對所選取的9 個(gè)數(shù)據(jù)集,本文算法在8 個(gè)數(shù)據(jù)集上的準(zhǔn)確率要優(yōu)于4 個(gè)對比算法,僅在Transfusion 數(shù)據(jù)集上,本文算法的準(zhǔn)確率低于SETRED、STSFCM、STDPCEW 這三個(gè)對比算法,但要高于STDP 算法. 在Cmc 數(shù)據(jù)集上,STDPIF 算法的準(zhǔn)確率與第二名STSFCM 算法的差距最大,高出了6.58 個(gè)百分點(diǎn);在Heart 數(shù)據(jù)集上,STDPIF 算法的準(zhǔn)確率與第二名STDPCEW 算法的差距最小,僅高出0.48 個(gè)百分點(diǎn).
表4 的結(jié)果表明,在多數(shù)數(shù)據(jù)集上本文算法的F分?jǐn)?shù)也取得最高. 在Cars 數(shù)據(jù)集上,STDPIF 算法的F 分?jǐn)?shù)低于STSFCM、STDP 算法,但要高于SETRED 和STDPCEW 算法;在Glass 數(shù)據(jù)集上,STDPIF 算法的F 分?jǐn)?shù)低于STSFCM 算法,但高于其他3 個(gè)對比算法. 在其他6 個(gè)數(shù)據(jù)集上,STDPIF 算法的F 分?jǐn)?shù)均為最高. 從表4 和表5 可知, 4 個(gè)對比算法在不同數(shù)據(jù)集上的性能差異很大,僅在個(gè)別數(shù)據(jù)集上的準(zhǔn)確率和F 分?jǐn)?shù)超過本文算法,本文算法在多數(shù)數(shù)據(jù)集上的分類性能均取得最優(yōu). 實(shí)驗(yàn)結(jié)果表明,本文算法利用DPC 和集成過濾器能夠有效地提升選取高置信度樣本的準(zhǔn)確率,降低誤分類風(fēng)險(xiǎn),提高自訓(xùn)練算法的分類性能.
3.3 有標(biāo)簽樣本比例對算法性能的影響
自訓(xùn)練算法的高效在于可以利用少量有標(biāo)簽樣本進(jìn)行訓(xùn)練,但有標(biāo)簽的比例過低會導(dǎo)致獲取到的信息太少,難以進(jìn)行訓(xùn)練;而過多的有標(biāo)簽數(shù)據(jù)不一定會增加有用信息,還會影響其高效性能. 因此,本文設(shè)置了不同比例的有標(biāo)簽樣本進(jìn)行實(shí)驗(yàn),分析其對算法分類性能的影響.
將初始有標(biāo)簽樣本比例最低設(shè)置為10%,最高設(shè)置為50%,每次實(shí)驗(yàn)比例增加5%. 記錄5 個(gè)算法在每個(gè)數(shù)據(jù)集上運(yùn)行50 次的準(zhǔn)確率平均值,實(shí)驗(yàn)結(jié)果如圖1 所示.
結(jié)果表明,隨著有標(biāo)簽樣本比例的增加,5 個(gè)算法的準(zhǔn)確率也會逐漸增加,在Glass 數(shù)據(jù)集上5 個(gè)算法的性能表現(xiàn)波動比較大,這是因?yàn)镚lass 數(shù)據(jù)集的類別數(shù)較多,每個(gè)類的初始有標(biāo)記樣本較少,5 個(gè)算法在每次實(shí)驗(yàn)中都無法有效地訓(xùn)練出良好的分類器,導(dǎo)致了實(shí)驗(yàn)結(jié)果的不穩(wěn)定. 由圖1 整體可知,當(dāng)有標(biāo)簽樣本的比例較低時(shí),本文算法的性能優(yōu)于其他對比算法,這表明本文算法能夠在有標(biāo)簽樣本較少的情況下,利用集成過濾器更好的選取無標(biāo)簽高置信度樣本進(jìn)行訓(xùn)練.
3.4 實(shí)驗(yàn)運(yùn)行時(shí)間分析
表6 為5 個(gè)算法在9 個(gè)數(shù)據(jù)集上的平均運(yùn)行時(shí)間,各算法按表3 設(shè)定的參數(shù)以10% 的初始有標(biāo)簽樣本比例運(yùn)行10 次. 由表6 可知, STSFCM 和STDP的耗時(shí)遠(yuǎn)低于另外3 個(gè)算法,這是因?yàn)閮蓚€(gè)算法的復(fù)雜度都為O (n2 ),SETRED、STDPDCEW 的耗時(shí)高是因?yàn)槠鋸?fù)雜度都為O (n3 ). STDPIF 在7 個(gè)數(shù)據(jù)集上的耗時(shí)只高于STDP 和STSFCM,因?yàn)镾TDPIF與STDP 的復(fù)雜度相同. 由上述分析可知,STDPIF能夠以較短的訓(xùn)練時(shí)間得到更高的分類性能.
4 結(jié)語
針對自訓(xùn)練迭代過程中選取的高置信度樣本可能被誤分類的問題,提出一種基于密度峰值和集成過濾器的自訓(xùn)練算法(STDPIF).算法首先利用密度峰值計(jì)算得到初始高置信度樣本集,再構(gòu)建集成過濾器對初始集進(jìn)行過濾得到最終高置信度樣本集,降低了樣本被誤分類的風(fēng)險(xiǎn). 在9 個(gè)數(shù)據(jù)集上和4個(gè)對比算法進(jìn)行了大量的實(shí)驗(yàn)并選取準(zhǔn)確率和F 分?jǐn)?shù)作為評價(jià)指標(biāo),結(jié)果表明STDPIF 算法的平均準(zhǔn)確率和F 分?jǐn)?shù)高于4 個(gè)對比算法. 同時(shí)對有標(biāo)簽樣本比例對算法的性能影響進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果表明在初始有標(biāo)簽樣本比例較低的情況下,本文算法的性能與對比算法相比有較大的提升. 后續(xù)的工作將繼續(xù)研究提高選取高置信度樣本準(zhǔn)確度的方法,尤其是在有標(biāo)簽樣本較少的情況下選取無標(biāo)簽高置信度樣本的方法,構(gòu)建更加準(zhǔn)確的高置信度樣本集.
參考文獻(xiàn):
[1] LI B, WANG J K, YANG Z G, et al. Fast semi-supervised selftrainingalgorithm based on data editing[J]. Information Sciences,2023(626): 293-314. doi:10.1016/J.INS.2023.01.029.
[2] Yoon H, Kim H. Label-noise robust deep generative modelfor semi-supervised learning[J]. Technometrics, 2023, 65(1):83-95. doi:10.1080/00401706.2022.2078413.
[3] 劉學(xué)文, 王繼奎, 楊正國, 等. 近親結(jié)點(diǎn)圖編輯的Self-Training 算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2022,58(14):144-152.
[4] 曹衛(wèi)東,許志香,王靜. 基于深度生成模型的半監(jiān)督入侵檢測算法[J]. 計(jì)算機(jī)科學(xué),2019,46(3):197-201.
[5] 龔彥鷺,呂佳. 結(jié)合主動學(xué)習(xí)和密度峰值聚類的協(xié)同訓(xùn)練算法[J]. 計(jì)算機(jī)應(yīng)用,2019,39(8):2297-2301.
[6] CHONG Y, DING Y, YAN Q, et al. Graph-based semisupervised learning: A review[J]. Neurocomputing, 2020(408):216-230. doi:10.1016/j.neucom.2019.12.130.
[7] 呂佳,劉強(qiáng),李帥軍. 結(jié)合密度峰值和改進(jìn)自然鄰居的自訓(xùn)練算法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)),2022,58(5):805-815.
[8] 衛(wèi)丹妮,楊有龍,仇海全. 結(jié)合密度峰值和切邊權(quán)值的自訓(xùn)練算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2021,57(2):70-76.
[9] 劉學(xué)文,王繼奎,楊正國,等. 密度峰值隸屬度優(yōu)化的半監(jiān)督Self-Training 算法[J]. 計(jì)算機(jī)科學(xué)與探索,2022,16(9):2078-2088.
[10] LI M, ZHOU Z H. SETRED: Self-training with editing[C]//Ho T B, Cheung D, Liu H. Advances in KnowledgeDiscovery and Data Mining. Berlin, Heidelberg: Springer,2005: 611-621. doi:10.1007/11430919_71.
[11] WEI Z H, WANG H L, RU Z. Semi-supervised multilabelimage classification based on nearest neighbor editing[J].Neurocomputing, 2013(119): 462-468. doi: 10.1016/j. neu?com.2013.03.011.
[12] 孫彩鋒. 基于密度峰值聚類和無參數(shù)濾波器的自訓(xùn)練方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2022,39(12):318-327.
[13] GAN H, TONG X, JIANG Q, et al. Discussion of FCM al?gorithm with partial supervision[C]//Proceedings of the 8thInternational Symposium on Distributed Computing and Ap?plications to Business, Engineering and Science. Beijing: Pub?lishing House of Electronics Industry, 2009: 27-31.
[14] WU D, SHANG M, LUO X, et al. Self-training semisupervisedclassification based on density peaks of data[J].Neurocomputing, 2018(275): 180-191. doi: 10.1016/j. neu?com.2017.05.072.
[15] RODRIGUEZ A, LAIO A. Clustering by fast search andfind of density peaks[J]. Science, 2014,344(6191): 1492-1496.doi:10.1126/science.1242072.
[16] 李帥軍,呂佳. 結(jié)合合成實(shí)例與adaboostENN 密度峰值自訓(xùn)練算法[J]. 重慶師范大學(xué)學(xué)報(bào)( 自然科學(xué)版), 2022, 39(4):105-113.
[17] 吳強(qiáng). 基于局部均值k 近鄰和密度峰值的實(shí)例約簡[J]. 統(tǒng)計(jì)與決策,2022,38(24):10-16.
[18] 李福祥,王雪,張馳,等. 基于邊界點(diǎn)的支持向量機(jī)分類算法[J]. 陜西理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,38(3):30-38.
[19] 張亮,寧芊.CART 決策樹的兩種改進(jìn)及應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1209-1213.
[20] 徐鑫,曹原. 基于加權(quán)直覺模糊蘭氏距離的密度峰值聚類算法[J]. 陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,51(1): 101-110.
【編校:王露】
基金項(xiàng)目:甘肅省自然科學(xué)基金項(xiàng)目“深度學(xué)習(xí)在高原夏菜質(zhì)量分級中的應(yīng)用研究”(21JR1RA283)