黃 華,鄭佳敏,錢鵬江
(江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122)(*通信作者電子郵箱qianpjiang@126.com)
近些年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,在網(wǎng)頁推薦、商品個(gè)性化推薦、垃圾郵件識(shí)別等日常生活應(yīng)用中存在著大量的無標(biāo)記樣本,而少量標(biāo)記樣本往往需要通過成本較高的手工標(biāo)記等方式獲取。如何通過利用少量標(biāo)記樣本和大量未標(biāo)記樣本來訓(xùn)練模型的半監(jiān)督方法,便成為眾多學(xué)者共同努力研究的問題[1-4]。
在半監(jiān)督應(yīng)用的熱潮下,學(xué)者們提出了許多半監(jiān)督分類方法[5-8], 然而有研究表明,某些情況下半監(jiān)督方法可能產(chǎn)生比與之對立的監(jiān)督方法更差的效果[9-10], 這主要是由于以下兩類原因造成的:
1)使用了從不可靠的未標(biāo)記樣本中挖掘出的數(shù)據(jù)分布信息,其錯(cuò)誤地指導(dǎo)了分類邊界的形成;
2)采用的數(shù)據(jù)分布假設(shè)可能本身就不符合數(shù)據(jù)的真實(shí)分布情況。
本文希望提出一種半監(jiān)督分類方法解決上述問題,使其性能不會(huì)明顯差于僅利用少量有標(biāo)記樣本的監(jiān)督分類方法。
Li等[11]和Wang等[12-13]為解決這方面所存在的問題作出了相應(yīng)的貢獻(xiàn)?;谀承┪礃?biāo)記樣本提供的分布信息可能存在錯(cuò)誤甚至誤導(dǎo)分類面生成的猜想,Li等[11]提出了us型半監(jiān)督支持向量機(jī)(Semi-Supervised Support Vector Machine us,S3VM-us)方法,通過層次聚類的方式從未標(biāo)記樣本中選取置信度較高的樣本來挖掘數(shù)據(jù)分布信息,從而避免了不可靠的未標(biāo)記樣本對模型的錯(cuò)誤指導(dǎo);此外,還猜想半監(jiān)督支持向量機(jī)(Semi-Supervised Support Vector Machine, S3VM)對一個(gè)數(shù)據(jù)集可能存在多個(gè)低密度劃分面,在領(lǐng)域知識(shí)不夠充分時(shí),算法可能會(huì)選取一個(gè)錯(cuò)誤的低密度劃分面,因此導(dǎo)致了性能的嚴(yán)重下降。針對此猜想,Li等提出了安全半監(jiān)督支持向量機(jī)(Safe Semi-Supervised Support Vector Machine, S4VM)方法[11],該方法會(huì)構(gòu)造多個(gè)候選低密度劃分面,然后在最壞情況下選取最優(yōu)的劃分面以最大化性能提升。Wang等[12]提出的基于類隸屬度的半監(jiān)督分類方法(Semi-Supervised Classification method based on Class Memberships, SSCCM)和調(diào)整聚類假設(shè)半監(jiān)督分類方法(Semi-Supervised Support Vector Machine by Adjusting Cluster Assumption, ACA-S3VM)[13],可以有效緩解當(dāng)不同類別的樣本嚴(yán)重重疊在真實(shí)分類邊界時(shí),基于聚類假設(shè)的算法將會(huì)錯(cuò)誤地引導(dǎo)模型生成的分類邊界通過低密度區(qū)域的不安全學(xué)習(xí)情形(此類情況下真實(shí)分類邊界不在低密度區(qū)域)。前者通過引入類似模糊隸屬度的方式,提升了算法對邊界交叉數(shù)據(jù)的劃分能力;后者通過將每個(gè)未標(biāo)記樣本到類簇邊界的距離融入到模型的學(xué)習(xí)中,使得在類簇邊界的樣本也會(huì)被劃分到分類邊界,模型便會(huì)指導(dǎo)分類邊界通過類簇邊界(真實(shí)分類邊界)而不是低密度區(qū)域。
值得注意的是,Li等[11]和Wang等[12-13]提出的安全半監(jiān)督分類方法旨在對未標(biāo)記樣本的深耕利用,而忽略了對標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息的利用。鑒于此,本文以ACA-S3VM為基礎(chǔ)分類器,將成對約束信息與之結(jié)合,提出了調(diào)整聚類假設(shè)聯(lián)合成對約束半監(jiān)督分類方法(Adjusted Cluster Assumption and Pairwise Constraints Jointly based Semi-Supervised Classification Method, ACA-JPC-S3VM),它不僅能夠有效利用標(biāo)記樣本知識(shí)(監(jiān)督信息),而且能夠合理運(yùn)用未標(biāo)記樣本所蘊(yùn)含的內(nèi)在信息,具有以下優(yōu)點(diǎn):
1)充分利用了標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息;
2)繼承了調(diào)整聚類假設(shè)所具備的優(yōu)勢,能夠?qū)吔缰丿B樣本有效劃分。
(1)
觀察優(yōu)化問題能夠發(fā)現(xiàn),當(dāng)Vj接近于0時(shí),未標(biāo)記樣本xj就很可能位于類簇邊界附近,那么根據(jù)式(1), 它的預(yù)測值f(xj)就被限制到接近0,于是樣本xj將會(huì)被劃分到分類邊界附近的區(qū)域;相反的,當(dāng)Vj較大時(shí),未標(biāo)記樣本xj就會(huì)離類簇邊界較遠(yuǎn),那么根據(jù)式(1),樣本xj將會(huì)被劃分到分類邊界較遠(yuǎn)的區(qū)域。
ACA-S3VM方法對未標(biāo)記樣本同時(shí)尋找決策函數(shù)和分類標(biāo)記。在問題求解方面,可以通過交替迭代策略分別得到?jīng)Q策函數(shù)和預(yù)測類標(biāo),且迭代過程中的每一步都會(huì)產(chǎn)生一個(gè)閉合解。
本文方法對標(biāo)記樣本的利用是將數(shù)據(jù)標(biāo)簽轉(zhuǎn)換而來的成對約束項(xiàng)融入算法的損失函數(shù)。成對約束[14-17]是一種常見的監(jiān)督類型信息,它通過將樣本的類標(biāo)簽轉(zhuǎn)化為成對約束項(xiàng)來提升模型對標(biāo)記樣本所蘊(yùn)含信息的利用。一般而言,在訓(xùn)練半監(jiān)督分類模型時(shí),對于每個(gè)標(biāo)記樣本,會(huì)給出相應(yīng)的類標(biāo)記; 而在一些現(xiàn)實(shí)應(yīng)用中,可能只獲得了部分樣本類標(biāo)簽的關(guān)系,這時(shí)就可以將這些類標(biāo)簽關(guān)系轉(zhuǎn)化為成對約束信息,將其視為標(biāo)記樣本信息進(jìn)行半監(jiān)督模型的訓(xùn)練。
具體而言,如果兩個(gè)標(biāo)記樣本的類標(biāo)記相同,則它們是一對必須關(guān)聯(lián)約束,這樣的約束對組成了必須關(guān)聯(lián)集MS;相應(yīng)的,如果兩個(gè)標(biāo)記樣本的類標(biāo)記不同,則它們是一對不可能關(guān)聯(lián)約束,這樣的約束對組成了不可能關(guān)聯(lián)集CS。假設(shè)分類決策函數(shù)為f(x),那么對所有樣本的預(yù)測值可以表示為f=[f1,f2,…,fn]T∈R1×n,于是成對約束可以表示為以下形式:
(2)
其中:i、j、p、q∈[1,n]是樣本集里的樣本序號(hào);〈i,j〉表示MS集合中的任意一對必須關(guān)聯(lián)約束,同樣的,〈p,q〉表示CS集合中的任意一對不可能關(guān)聯(lián)約束;|·|表示MS集合或CS集合中成對約束的數(shù)目。
定義1 定義矩陣Qn×n元素如下:
(3)
于是可以得到式(2)的矩陣表示如下:
(4)
U=H-Q
(5)
H=diag(QL)
(6)
式(6)中L是n×1向量且元素全為1。
文獻(xiàn)[13]方法主要研究以聚類假設(shè)為基礎(chǔ)的半監(jiān)督分類方法,如何避免當(dāng)不同類別樣本重疊在類簇邊界時(shí)可能形成的不安全學(xué)習(xí)情形。雖然其通過引入調(diào)整聚類假設(shè),有效緩解了這些樣本對模型的錯(cuò)誤指導(dǎo),但值得注意的是,該算法沒有對標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息進(jìn)行更深一步的挖掘。本文關(guān)注于對標(biāo)記樣本的有效利用,將成對約束監(jiān)督信息與之結(jié)合,提出了ACA-JPC-S3VM。
前文介紹了調(diào)整聚類假設(shè)框架以及成對約束項(xiàng)對監(jiān)督信息的挖掘利用?,F(xiàn)本文將兩者結(jié)合,提出了ACA-JPC-S3VM方法,該方法不僅能夠有效利用標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息,而且能夠合理挖掘出未標(biāo)記樣本的內(nèi)在信息,提高算法的性能。
(7)
將式(7)與調(diào)整聚類假設(shè)框架相結(jié)合,即可得到ACA-JPC-S3VM的優(yōu)化問題:
(8)
其中:第一項(xiàng)主要控制著分類器的復(fù)雜性;第二項(xiàng)是對標(biāo)記樣本的利用,由平方損失項(xiàng)和成對約束正則化項(xiàng)共同組成,而參數(shù)τ控制著它們之間的平衡,值得注意的是,當(dāng)參數(shù)τ=1 時(shí),算法即退化為ACA-S3VM;第三項(xiàng)是調(diào)整聚類假設(shè)對未標(biāo)記樣本的探索,用來挖掘數(shù)據(jù)的內(nèi)在信息;C1、C2作為正則化參數(shù)分別控制著對應(yīng)正則化項(xiàng)的復(fù)雜性。
(9)
基于表示定理[18],對式(9)的最小化具有以下形式:
那么,可以得到式(9)的矩陣表示形式:
(10)
由拉格朗日乘子法,將J對α的偏導(dǎo)數(shù)取0,解得:
α=(K+C1(τKlTKl+ (1-τ)KUK)+
(11)
(12)
在本文算法的求解方面,初始化的Yu是由支持向量機(jī)(Support Vector Machine, SVM)得到的;迭代終止條件是|Mk-Mk-1|<ε或k>Maxiter,其中Mk表示第k次迭代的目標(biāo)函數(shù)值,ε是一個(gè)預(yù)設(shè)的終止閾值,Maxiter是最大迭代次數(shù)。ACA-JPC-S3VM的算法步驟如下所示:
輸入:標(biāo)記樣本與未標(biāo)記樣本Xl、Xu,標(biāo)記樣本的類標(biāo)Yl,正則化參數(shù)C1、C2、τ,迭代終止閾值ε,最大迭代次數(shù)Maxiter。
1)通過FCM獲得初始聚類中心,然后計(jì)算向量V。
2)設(shè)置初始化的目標(biāo)函數(shù)值M0=INF。
3)通過式(11)更新α,然后根據(jù)表示定理以α更新f(x)。
推論1 ACA-JPC-S3VM使用交替迭代策略得到的序列{J(αk,yk)}是收斂的。
證明 首先證明目標(biāo)函數(shù)是單調(diào)遞減的。由文獻(xiàn)[19]可知,目標(biāo)函數(shù)J(α,y)是關(guān)于(α,y)雙凸的,那么當(dāng)yk被固定時(shí),目標(biāo)函數(shù)關(guān)于α就是凸的,因此可以通過最小化{J(α,yk)}得到最優(yōu)的α*,即最優(yōu)化式(9)。由交替迭代策略可得αk+1=α*,于是J(αk+1,yk)=J(α*,yk)≤J(αk,yk);同理,此時(shí)固定αk+1,目標(biāo)函數(shù)關(guān)于y就是凸的,因此可以通過最小化{J(αk+1,y)}得到最優(yōu)的y*,即最優(yōu)化式(12)。由交替迭代策略可得yk+1=y*,于是J(αk+1,yk+1)=J(αk+1,y*)≤J(αk+1,yk),?k∈N。因此,序列{J(αk,yk)}是單調(diào)遞減的。又因?yàn)槟繕?biāo)函數(shù)J(α,y)是非負(fù)且有下界的,所以序列{J(αk,yk)}是收斂的。
為了驗(yàn)證本文算法的有效性,本文將其與監(jiān)督分類方法SVM、半監(jiān)督分類方法TSVM、Laplacian SVM[7]、Laplacian RLSC(Laplacian Regularized Least Squares Classification)[7]、meanS3VM-iter[6]、meanS3VM-mkl[6]以及ACA-S3VM在UCI數(shù)據(jù)集以及圖像分類數(shù)據(jù)集[20-21]上進(jìn)行性能比較。最后,還進(jìn)行了時(shí)間復(fù)雜度分析以及參數(shù)魯棒性分析的實(shí)驗(yàn)。
特別需要說明的是,對于每個(gè)原始數(shù)據(jù)集,本文都將其隨機(jī)劃分為訓(xùn)練集和測試集。在訓(xùn)練集上,會(huì)隨機(jī)選取部分?jǐn)?shù)量的樣本作為標(biāo)記樣本,其余的作為未標(biāo)記樣本參與模型的訓(xùn)練,這樣的預(yù)處理操作將會(huì)被重復(fù)10次,最終以模型在測試集上的平均準(zhǔn)確率和方差作為實(shí)驗(yàn)指標(biāo)評估每個(gè)算法的性
能。此外,所有算法的高斯核參數(shù)均設(shè)置為樣本數(shù)據(jù)的平均距離。本文算法在優(yōu)化求解中,最大迭代次數(shù)M=200,收斂閾值ε=10-3。
本文在UCI數(shù)據(jù)集上做了大量實(shí)驗(yàn),其數(shù)據(jù)集的詳細(xì)構(gòu)成見表1。為了體現(xiàn)出標(biāo)記樣本數(shù)量對半監(jiān)督分類算法性能的影響,本文特地在訓(xùn)練集上分別隨機(jī)選取了10、20、30、40、50個(gè)標(biāo)記樣本來訓(xùn)練模型,最終得出不同標(biāo)記樣本數(shù)量對算法性能影響的趨勢圖。此外,表2和表3分別給出了標(biāo)記樣本為10和50時(shí),8種算法的實(shí)驗(yàn)結(jié)果。
表1 UCI數(shù)據(jù)集結(jié)構(gòu)
表2 10個(gè)標(biāo)記樣本點(diǎn)上8種算法分類結(jié)果 %
注:括號(hào)中的數(shù)字代表該算法在當(dāng)前數(shù)據(jù)集上的性能排名;
本文算法右上角的W/T分別表示在ttest測試中與ACA-S3VM算法相比更好/持平。
觀察表2與表3,可以發(fā)現(xiàn):
首先,當(dāng)標(biāo)記樣本數(shù)量為10時(shí),ACA-S3VM在3個(gè)數(shù)據(jù)集上的效果都要比經(jīng)典半監(jiān)督分類方法TSVM的效果差,而ACA-JPC-S3VM有2個(gè); 當(dāng)標(biāo)記樣本數(shù)量為50時(shí),ACA-S3VM仍舊有在3個(gè)數(shù)據(jù)集上的性能比SVM或TSVM更差,而ACA-JPC-S3VM在所有8個(gè)數(shù)據(jù)集上的性能都優(yōu)于監(jiān)督分類方法。更進(jìn)一步還發(fā)現(xiàn),無論標(biāo)記樣本數(shù)量是10還是50,ACA-S3VM在breast和wdbc數(shù)據(jù)集上的表現(xiàn)都比TSVM差,而ACA-JPC-S3VM在標(biāo)記樣本數(shù)量為50時(shí),性能已經(jīng)反超了TSVM。這體現(xiàn)了ACA-JPC-S3VM不僅繼承了ACA-S3VM在安全半監(jiān)督分類方面的優(yōu)勢,而且在融入了標(biāo)記樣本的知識(shí)后,成為了一種更加安全的半監(jiān)督分類方法。
其次,當(dāng)標(biāo)記樣本數(shù)量為10時(shí),ACA-JPC-S3VM算法在6個(gè)數(shù)據(jù)集上獲得了最優(yōu)性能,僅在其余兩個(gè)數(shù)據(jù)集上的性能稍弱于TSVM。而當(dāng)標(biāo)記樣本數(shù)量為50時(shí),ACA-JPC-S3VM在所有8個(gè)數(shù)據(jù)集上的性能都取得了最優(yōu),且在8個(gè)數(shù)據(jù)集上的平均準(zhǔn)確率遠(yuǎn)高于其余對比算法。這表明,ACA-JPC-S3VM在保持對邊界重疊樣本正確分類的同時(shí),隨著標(biāo)記樣本的增加,還能對監(jiān)督信息進(jìn)行更深一步的挖掘利用,從而在兩方面對知識(shí)進(jìn)行極大化利用,最終提升了算法的性能。
表3 50個(gè)標(biāo)記樣本點(diǎn)上8種算法分類結(jié)果 %
最后,不難發(fā)現(xiàn)在所有8個(gè)數(shù)據(jù)集上,無論標(biāo)記樣本的數(shù)量是10還是50,基于ACA-S3VM進(jìn)行改進(jìn)的ACA-JPC-S3VM的平均準(zhǔn)確率都是優(yōu)于ACA-S3VM的,這意味著算法的改進(jìn)是有效、可行的。但就平均準(zhǔn)確率這個(gè)性能指標(biāo)而言,有時(shí)ACA-JPC-S3VM相較于ACA-S3VM的提升甚微,這只表明了算法在整體上更加穩(wěn)定。為了更進(jìn)一步體現(xiàn)算法在改進(jìn)后的性能優(yōu)勢,本文對這兩個(gè)算法進(jìn)行了ttest檢驗(yàn)。在標(biāo)記樣本數(shù)量為10時(shí),ACA-JPC-S3VM在4個(gè)數(shù)據(jù)集上的性能是優(yōu)于ACA-S3VM的,在其余4個(gè)數(shù)據(jù)集上持平;在標(biāo)記樣本數(shù)量為50時(shí),ACA-JPC-S3VM在5個(gè)數(shù)據(jù)集上的性能是優(yōu)于ACA-S3VM的,在其余3個(gè)數(shù)據(jù)集上持平,且在兩種標(biāo)記量的情況下,ACA-JPC-S3VM都沒有出現(xiàn)改進(jìn)后性能下降的情況。
觀察圖1,可以得到如下結(jié)論:
就圖1(a)中的clean1數(shù)據(jù)集而言,可以看出當(dāng)標(biāo)記樣本數(shù)量大于10后,Laplacian SVM和meanS3VM-mkl這兩種半監(jiān)督分類方法的性能會(huì)弱于SVM以及TSVM,而其他幾種算法則不會(huì)。這可能是由于隨著標(biāo)記樣本的增加,未標(biāo)記樣本的數(shù)量在減少,能夠選取的可靠性高的未標(biāo)記樣本的數(shù)量就減少了,亦或是算法選取了不可靠的未標(biāo)記樣本參與了模型的訓(xùn)練,形成了不安全的半監(jiān)督學(xué)習(xí)。ACA-JPC-S3VM在保持始終合理利用未標(biāo)記樣本的同時(shí),通過有效挖掘標(biāo)記樣本信息,使其保持了較高的分類性能,這再次證明了ACA-JPC-S3VM是一種更加有效的安全半監(jiān)督分類方法。
就圖1(b)中的spectfheart數(shù)據(jù)集而言,Laplacian SVM的性能與其他幾種對比算法相差較大。這可能是由于Laplacian SVM方法假設(shè)數(shù)據(jù)分布在由拉普拉斯圖表示的低維流形上,根據(jù)圖的結(jié)構(gòu)來生成模型,而這樣的流形假設(shè)可能本身就不符合這個(gè)數(shù)據(jù)集的真實(shí)數(shù)據(jù)分布,再次導(dǎo)致了其不安全的半監(jiān)督學(xué)習(xí)。
就圖1(c)中的vehicle數(shù)據(jù)集而言,所有半監(jiān)督分類方法的性能都優(yōu)于監(jiān)督分類方法SVM,而且它們的性能都很接近,ACA-JPC-S3VM的性能也沒有與其他算法拉開明顯的差距。這可能是因?yàn)樵谶@個(gè)數(shù)據(jù)集上,未標(biāo)記樣本已經(jīng)能夠很好地反映出數(shù)據(jù)的真實(shí)分布情況,且這些方法都能合理地利用這些數(shù)據(jù)的內(nèi)在信息,使得模型都能夠正確預(yù)測未見樣本。雖然不同于其他幾種半監(jiān)督分類方法,ACA-JPC-S3VM高效利用了標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息,但由于半監(jiān)督分類方法的核心在于對未標(biāo)記樣本的內(nèi)在信息進(jìn)行合理的利用,而在對監(jiān)督信息的利用效果方面相對而言沒有對無監(jiān)督信息的利用效果大,所以ACA-JPC-S3VM的效果只是稍好于其他幾種半監(jiān)督分類方法。
就圖1(d)中的wdbc數(shù)據(jù)集而言,在標(biāo)記樣本數(shù)量為10時(shí),包括ACA-JPC-S3VM在內(nèi)的幾種半監(jiān)督分類方法的性能都比監(jiān)督分類方法差,而當(dāng)標(biāo)記樣本大于10時(shí),除了ACA-JPC-S3VM以外,其余半監(jiān)督分類方法的性能仍舊沒有超過監(jiān)督分類方法。雖然,ACA-S3VM能夠通過調(diào)整聚類來緩解不安全的半監(jiān)督分類學(xué)習(xí),使得它的性能好于除了ACA-JPC-S3VM以外的半監(jiān)督分類方法,但它依然沒能超過TSVM或SVM。而隨著標(biāo)記樣本的增加,結(jié)合對標(biāo)記樣本進(jìn)行利用的ACA-JPC-S3VM在性能上超越了監(jiān)督分類方法,這不僅證明了對監(jiān)督信息的合理利用可以有效提升半監(jiān)督分類方法的性能,同時(shí)也驗(yàn)證了ACA-JPC-S3VM的安全性與正確性。此外,圖(e)、圖(g)以及圖(h)中,ACA-JPC-S3VM都具有很好的性能;在圖(f)中,仍可以觀察到一些半監(jiān)督分類方法出現(xiàn)了不安全的學(xué)習(xí),而ACA-JPC-S3VM的性能依然呈現(xiàn)出穩(wěn)步提升的趨勢。
圖1 不同數(shù)據(jù)集上8種算法分類性能比較
本文圖像分類數(shù)據(jù)集[20-21]包括沙漠、山、海洋、日落、樹木共5類2 000張自然景觀的圖像,其結(jié)構(gòu)見表4。
表4 圖像分類數(shù)據(jù)集結(jié)構(gòu)
觀察表5,可以得到如下結(jié)論:
ACA-JPC-S3VM在4個(gè)圖像分類數(shù)據(jù)集上取得了最優(yōu)性能,而Laplacian SVM和meanS3VM-iter分別在desert VS mountains和mountains VS trees數(shù)據(jù)集上取得了第一。另外,在desert VS trees、sea VS desert以及sea VS sunset數(shù)據(jù)集上,一些半監(jiān)督分類方法出現(xiàn)了不安全的學(xué)習(xí)情況,其中ACA-S3VM較為嚴(yán)重,在這三個(gè)數(shù)據(jù)集上的表現(xiàn)都不好,而基于它改進(jìn)的ACA-JPC-S3VM則表現(xiàn)出了很強(qiáng)的競爭力,且在與ACA-S3VM的ttest測試中取得了優(yōu)秀的表現(xiàn),這再次強(qiáng)有力地證明了ACA-JPC-S3VM改進(jìn)的合理性與有效性。
值得注意的是,ACA-S3VM在圖像分類實(shí)驗(yàn)中的整體表現(xiàn)不是很好,盡管ACA-S3VM在針對聚類假設(shè)中的不同類別樣本嚴(yán)重重疊在分類邊界時(shí)的情況進(jìn)行了專門的優(yōu)化,但可能由于這些數(shù)據(jù)的分布本身不符合聚類假設(shè),致使算法不能獲得較好的效果。而基于ACA-S3VM進(jìn)行改進(jìn)的ACA-JPC-S3VM卻獲得了較好的結(jié)果,歸根結(jié)底可以歸結(jié)為其對標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息的有效挖掘與利用,不僅填補(bǔ)了ACA-S3VM在對標(biāo)記樣本利用方面的空缺,而且彌補(bǔ)了這種情況下半監(jiān)督學(xué)習(xí)基本假設(shè)帶來的負(fù)面影響,最終合理有效地利用了標(biāo)記樣本與未標(biāo)記樣本的知識(shí),形成了一種更加安全有效的半監(jiān)督分類方法。
表5 圖像分類數(shù)據(jù)集結(jié)果 %
為了討論實(shí)際應(yīng)用中的情況,本文在圖像分類數(shù)據(jù)集上對比了ACA-JPC-S3VM與ACA-S3VM模型訓(xùn)練平均用時(shí), 其結(jié)果見圖2。
圖2 模型平均訓(xùn)練用時(shí)的比較
從圖2中容易看出,本文算法經(jīng)過對ACA-S3VM的改進(jìn)后,其訓(xùn)練時(shí)長在大部分情況下相對較長,其主要原因是由于成對約束正則化項(xiàng)的加入,使得優(yōu)化問題的求解中需要調(diào)整對應(yīng)參數(shù)對模型的作用,一定程度上影響了算法的收斂速度。
為了體現(xiàn)成對約束正則化參數(shù)τ的作用,本文仍舊以圖像分類數(shù)據(jù)集為例,對參數(shù)τ進(jìn)行了魯棒性分析實(shí)驗(yàn)。參數(shù)C1、C2的值固定為每個(gè)數(shù)據(jù)集上的最優(yōu)模型所對應(yīng)的值,實(shí)驗(yàn)結(jié)果見圖3。
觀察圖3可以發(fā)現(xiàn):
1)參數(shù)τ對算法準(zhǔn)確率的影響很明顯, 這體現(xiàn)出其對算法模型的重要性。
2)在sea VS sunset數(shù)據(jù)集上,當(dāng)τ=0.95時(shí),算法的預(yù)測準(zhǔn)確率達(dá)到了0.87,相較于其他值有了較大的提升。這表明,若對τ進(jìn)行精心調(diào)校,可以得到令人滿意的效果。
3)成對約束信息的加入,可以提升算法的正確率,彌補(bǔ)了算法對監(jiān)督信息利用方面的缺失。
圖3 參數(shù)τ對準(zhǔn)確率的影響
本文針對不安全的半監(jiān)督分類問題,通過有效利用標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息與合理運(yùn)用未標(biāo)記樣本的分布信息,提出了ACA-JPC-S3VM方法。該方法不僅繼承了ACA-S3VM緩解不同樣本嚴(yán)重重疊在分類邊界時(shí)可能造成的不安全學(xué)習(xí)情形的能力,而且在將成對約束信息融入模型之后,能夠一定程度上彌補(bǔ)不安全學(xué)習(xí)對分類器造成的性能損失。在UCI數(shù)據(jù)集上的實(shí)驗(yàn),表明了本文方法對標(biāo)記樣本所蘊(yùn)含的監(jiān)督信息的有效利用,算法性能隨著標(biāo)記樣本的增加而逐步上升;在圖像分類數(shù)據(jù)集上的實(shí)驗(yàn),表明了本文方法在不安全的學(xué)習(xí)情形下,通過對監(jiān)督信息的運(yùn)用,一定程度上彌補(bǔ)了算法性能的損失, 最終驗(yàn)證了本文方法的安全性與有效性。
由于加入了成對約束正則化項(xiàng),需要調(diào)整對應(yīng)參數(shù)對模型的作用占比,使得模型的訓(xùn)練時(shí)長相對于改進(jìn)前的ACA-S3VM方法而言更高,如何通過一些啟發(fā)式的方法來解決此問題將會(huì)是以后研究工作的重點(diǎn)。