韓彥嶺,李鵬,張?jiān)疲炖?,王靜
(上海海洋大學(xué) 信息學(xué)院,上海 201306)
海冰是極地及中高緯度地區(qū)的海洋災(zāi)害之一,海冰的漂流、凍結(jié)和融化將對(duì)海洋生產(chǎn)作業(yè)產(chǎn)生重要影響。當(dāng)部分海域發(fā)生大面積海冰災(zāi)害時(shí),會(huì)對(duì)近岸港口、航海船只、海上資源開采平臺(tái)造成不可估量的財(cái)產(chǎn)損失。為了正確評(píng)估海冰冰情確保財(cái)產(chǎn)安全,需加強(qiáng)海冰檢測(cè)的研究并提高海冰類型識(shí)別能力[1]。
相較于其他傳統(tǒng)的海冰檢測(cè)方式,遙感海冰檢測(cè)技術(shù)因能提供全天候、大面積、實(shí)時(shí)、準(zhǔn)確的海冰信息,現(xiàn)已被廣泛應(yīng)用于海冰檢測(cè)中。一般地,海冰遙感檢測(cè)方式可大致分為監(jiān)督分類、非監(jiān)督分類和半監(jiān)督分類。其中監(jiān)督分類方法因?yàn)椴僮鞣奖?,可加入先?yàn)知識(shí),檢測(cè)精度高等特點(diǎn),在海冰檢測(cè)中具有較大的優(yōu)勢(shì)[2]。支持向量機(jī)(support vector machine,SVM)[3]是一種典型的監(jiān)督分類方式,因?yàn)槠鋵?duì)高維、小樣本數(shù)據(jù)具有很好的泛化能力,近幾年在遙感分類領(lǐng)域備受關(guān)注[4]。
監(jiān)督分類的訓(xùn)練模型依賴標(biāo)簽訓(xùn)練樣本的數(shù)量和質(zhì)量,然而由于海冰覆蓋區(qū)域地理環(huán)境的特殊性,對(duì)海冰遙感圖像進(jìn)行大量人工標(biāo)注是一項(xiàng)非常耗時(shí)、困難的工作[5],尤其對(duì)地物類別交錯(cuò)復(fù)雜的區(qū)域進(jìn)行標(biāo)注,標(biāo)簽樣本的質(zhì)量往往難以得到保證。正因?yàn)槿斯?biāo)注上的困難,使得分類中獲取大量高質(zhì)量的訓(xùn)練樣本往往很困難。針對(duì)上述的這種情況,本文提出將主動(dòng)學(xué)習(xí)(active learning,AL)[6]與半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)[7]相結(jié)合,利用少量的標(biāo)簽樣本及未標(biāo)簽樣本一起建立模型解決海冰分類問題。
主動(dòng)學(xué)習(xí)是一個(gè)人機(jī)交互的迭代過程[8]。在每次迭代過程中,分類器不再是被動(dòng)地接受標(biāo)簽樣本,而是通過采樣算法主動(dòng)地選擇對(duì)于當(dāng)前分類器模型最有價(jià)值的未標(biāo)簽樣本,經(jīng)人工標(biāo)注后添加到標(biāo)簽樣本集中,再利用更新后的標(biāo)簽樣本集重新訓(xùn)練當(dāng)前分類器模型。這一過程不斷迭代,直到滿足迭代的停止條件。利用主動(dòng)學(xué)習(xí),可以有效避免標(biāo)注那些信息量低的樣本,縮減標(biāo)注時(shí)間及成本,從而在較小標(biāo)注代價(jià)的情況下,獲得較高的分類精度。
主動(dòng)學(xué)習(xí)借助采樣策略實(shí)現(xiàn)在較小的標(biāo)注樣本的情況下,獲得較高的分類精度。但是主動(dòng)學(xué)習(xí)訓(xùn)練模型階段仍然依賴于專家標(biāo)注樣本。而半監(jiān)督學(xué)習(xí)可以充分利用未標(biāo)簽樣本中隱含的信息,更好地刻畫地物類別分布,進(jìn)一步減少人工標(biāo)注的成本,并可獲得更精確的分類模型。半監(jiān)督學(xué)習(xí)也先從少量標(biāo)簽樣本開始訓(xùn)練模型,不斷擴(kuò)充未標(biāo)簽樣本加入訓(xùn)練樣本集來更新當(dāng)前分類器。直推式支持向量機(jī) (transductive support vector machine,TSVM)[9]是一種典型的半監(jiān)督學(xué)習(xí)方法,在建立模型階段直接使用未標(biāo)簽樣本。
盡管AL(監(jiān)督學(xué)習(xí))與TSVM(半監(jiān)督分類)工作機(jī)制不同,但它們?cè)跍p少人工標(biāo)注成本、提高分類器精度方面具有內(nèi)在相似性,將這2種方法進(jìn)行結(jié)合是可行的。因此本文提出將主動(dòng)學(xué)習(xí)技術(shù)和半監(jiān)督技術(shù)相結(jié)合應(yīng)用到海冰監(jiān)測(cè)中,以期獲得更加精確的海冰分類模型,為海冰監(jiān)測(cè)的進(jìn)一步深入研究提供理論依據(jù)。
1)主動(dòng)學(xué)習(xí)。主動(dòng)學(xué)習(xí)這一概念首先是由Angluin[10]提出,通過迭代擴(kuò)充標(biāo)簽樣本集選擇有價(jià)值的樣本交由專家標(biāo)注,利用擴(kuò)充后的訓(xùn)練樣本集更新分類模型。一般地,主動(dòng)學(xué)習(xí)過程可以用形如 (C,Q,E,T,U)[11]五元模型描述。其中,C是從標(biāo)簽樣本T訓(xùn)練得到的監(jiān)督分類器模型;Q是用于從未標(biāo)注樣本池U中選擇最具信息量樣本的采樣函數(shù);E是對(duì)選擇的最具信息量樣本進(jìn)行標(biāo)注的人類專家。
采樣函數(shù)Q是主動(dòng)學(xué)習(xí)最核心的部分。分類模型通過采樣函數(shù)主動(dòng)地選取信息含量大的未標(biāo)簽樣本交由專家標(biāo)注。不同的采樣函數(shù)也是區(qū)分不同主動(dòng)學(xué)習(xí)算法優(yōu)劣的關(guān)鍵環(huán)節(jié)。邊緣采樣(margin sampling,MS)是不確定性采樣的典型方法,然而MS方法僅適用于二類(two-class)SVM分類問題[12]。Joshi等提出了一種基于最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)(best vs second-best,BvSB) 的主動(dòng)學(xué)習(xí)方法[6],可以較好地解決實(shí)際分類問題中的多類(multi-class)分類情況。
基于不確定性的采樣策略面臨的一個(gè)重要問題:當(dāng)SVM分類面通過一個(gè)未標(biāo)記樣本密集區(qū)域時(shí),那么存在大量樣本分布在分類邊界附近,同一聚類的樣本通常具有相同的標(biāo)記,若將大量樣本交由專家標(biāo)記,勢(shì)必會(huì)增加人工標(biāo)注成本。為解決這個(gè)問題,我們提出同時(shí)考慮通過差異性標(biāo)準(zhǔn)選擇差異性較大的樣本,盡量減少所選樣本的冗余。因此本文采用不確定性準(zhǔn)則與差異性準(zhǔn)則結(jié)合的方式選擇對(duì)當(dāng)前分類器最具信息量的樣本。其中不確定性采樣策略選擇BvSB采樣方法;差異性準(zhǔn)則采用改進(jìn)的聚類算法實(shí)現(xiàn)差異性標(biāo)準(zhǔn)(enhanced clustering-based diversity,ECBD)。通過BvSB-ECBD方式,實(shí)現(xiàn)樣本信息量和信息冗余之間的平衡,盡量在主動(dòng)學(xué)習(xí)的每次迭代中選出最具代表性的樣本。
2)基于BvSB-ECBD的主動(dòng)學(xué)習(xí)查詢策略。首先簡(jiǎn)單介紹下BvSB方法。假設(shè)一組未標(biāo)簽樣本集U={x1,x2,…,xn},Y={y1,y2,…,yk}為所有可能出現(xiàn)的標(biāo)簽。利用已建立的訓(xùn)練模型,對(duì)未標(biāo)簽樣本xi進(jìn)行標(biāo)簽預(yù)測(cè),并計(jì)算樣本xi屬于每個(gè)類別的概率P(yi|xi)。BvSB方法只考慮最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)的概率,即P(yBest|xi)和P(ySecond-Best|xi),避免了其他類別的干擾,BvSB主動(dòng)學(xué)習(xí)準(zhǔn)則可以描述為:
(1)
式中:argmin()為括號(hào)中樣本xi差值最小的值所對(duì)應(yīng)的下標(biāo)i作為Cuncertainty(xi)的輸出值。Cuncertainty(xi)的值越小,代表樣本的信息含量越高,越有利于提高分類模型預(yù)測(cè)的精度。通過BvSB主動(dòng)學(xué)習(xí)算法從樣本集合U中,選擇k個(gè)Cuncertainty(xi)值較小的樣本,經(jīng)標(biāo)注后添加到訓(xùn)練樣本集中。根據(jù)BvSB不確定性采樣所選擇的k個(gè)樣本(x1,x2,…,xk),再利用ECBD主動(dòng)學(xué)習(xí)算法進(jìn)行差異性選擇。首先,利用徑向基核函數(shù)(radial basis function,RBF)將選出的k個(gè)樣本映射到高維的特征空間中(通過解決高維空間中線性可分的情況,來解決原始空間中線性不可分的問題),在特征空間中將BvSB主動(dòng)學(xué)習(xí)選擇的k個(gè)樣本劃分成h(h (2) 1)TSVM半監(jiān)督學(xué)習(xí)。TSVM這一概念是由Vapnik[3]首先提出。其主要思想是利用較少的標(biāo)簽樣本和大量易獲取的未標(biāo)簽樣本共同建立分類模型[7],提高分類器的泛化能力。下面將對(duì)TSVM的原理進(jìn)行簡(jiǎn)單介紹。 (3) 2)融合主動(dòng)學(xué)習(xí)思想的TSVM查詢策略。因?yàn)槲礃?biāo)簽樣本數(shù)量龐大,因此基于主動(dòng)學(xué)習(xí)選擇信息含量大的樣本的思想對(duì)TSVM未標(biāo)簽樣本選擇模塊進(jìn)行改進(jìn),利用未標(biāo)簽樣本查詢函數(shù),在保證未標(biāo)簽樣本所含信息量大的同時(shí),避免大量冗余信息樣本的加入。 (4) 式中:SV是支持向量集;αi和b是用來確定最優(yōu)分類超平面的參數(shù)。對(duì)于海冰分類的問題,利用RBF核函數(shù)作為分類器的核函數(shù),即k(·,·)。通過融入主動(dòng)學(xué)習(xí)的算法思想從半標(biāo)簽樣本集中選擇信息含量大的樣本[15-16]添加到訓(xùn)練集中,其數(shù)學(xué)模型可表示為: C(x)=f1(x)-f2(x) (5) H={x|x∈U,0≤C(x)≤2} (6) 通過置信度C(x)確立一批信息含量豐富的未標(biāo)簽樣本集。其中x代表未標(biāo)簽樣本,f1(x)和f2(x)則是在多個(gè)二類分類模型中構(gòu)成的一對(duì)多分類框架下的最高和次高的決策函數(shù)的值。通過劃定C(x)的范圍確立信息含量更高的半標(biāo)簽樣本集H,其中C(x)的值越接近于2越有利于優(yōu)化分類超平面 (即分布在分類超平面附近的樣本)[16]。通過采樣算法從H中選擇γ個(gè)樣本。對(duì)于選中的這部分半標(biāo)簽樣本,它們同樣存在冗余信息的情況。因此需要對(duì)選出的γ個(gè)樣本進(jìn)一步篩選。本文利用RBF核函數(shù)將選出的這部分樣本映射到高維特征空間中,并在特征空間中用核余弦相似性準(zhǔn)則從已選擇的γ個(gè)樣本選擇ρ(ρ<γ)個(gè)半標(biāo)簽樣本。核余弦角相似性準(zhǔn)則公式表示為[17]: (7) 主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都基于減少人工標(biāo)注代價(jià)并提高分類精度的共同出發(fā)點(diǎn),在實(shí)現(xiàn)方法上也具有內(nèi)在的相關(guān)性。本文將基于BvSB+ ECBD的主動(dòng)學(xué)習(xí)和TSVM半監(jiān)督學(xué)習(xí)結(jié)合引入到遙感海冰圖像分類中,在提高分類精度的基礎(chǔ)上進(jìn)一步減少初始標(biāo)簽訓(xùn)練樣本的數(shù)量。 首先,通過主動(dòng)學(xué)習(xí)迭代一定的次數(shù)選擇信息量大、有代表性的標(biāo)簽樣本,獲得較可靠的分類器后再對(duì)未標(biāo)簽樣本進(jìn)行預(yù)測(cè);再利用融合主動(dòng)學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法,從大量未標(biāo)簽樣本中選擇信息含量高的樣本作為半標(biāo)簽樣本,利用標(biāo)簽樣本集與半標(biāo)簽樣本集共同訓(xùn)練TSVM分類模型。將主動(dòng)學(xué)習(xí)與半監(jiān)督技術(shù)的結(jié)合的優(yōu)點(diǎn)在于:一方面利用主動(dòng)學(xué)習(xí)算法主動(dòng)選擇最有價(jià)值的樣本加入到標(biāo)簽樣本集中解決海冰檢測(cè)中標(biāo)簽樣本不足的問題;另一方面可以充分利用大量未標(biāo)簽樣本的信息進(jìn)一步減少標(biāo)注成本并提高分類精度。 本文提出的海冰圖像分類算法包括2個(gè)模塊,即AL模塊和TSVM模塊,分類框架圖如圖1所示。 1)主動(dòng)學(xué)習(xí)模塊。首先確立未標(biāo)簽樣本集U,并將訓(xùn)練樣本集T1設(shè)置為空。在初始分類時(shí),從未標(biāo)簽樣本U中隨機(jī)選取k個(gè)未標(biāo)簽樣本,經(jīng)人工標(biāo)注后,建立初始的標(biāo)簽訓(xùn)練樣本集T1,更新未標(biāo)簽樣本集U和訓(xùn)練樣本集T1。用訓(xùn)練樣本集T1建立初始的SVM分類器,對(duì)未標(biāo)簽樣本集U中的樣本進(jìn)行預(yù)測(cè),并獲取未標(biāo)簽樣本屬于每個(gè)類別的標(biāo)號(hào)概率信息,即p(yi|x),yi∈Y,x∈U。 圖1 基于AL-TSVM的海冰分類總體框架圖 對(duì)于主動(dòng)學(xué)習(xí)采樣模塊,采用不確定性與多樣性結(jié)合的方式來選擇未標(biāo)簽樣本,即BvSB-ECBD。根據(jù)BvSB準(zhǔn)則,首先從U中選取k個(gè)不確定性高的樣本,記為kBvSB。再基于ECBD多樣性準(zhǔn)則從kBvSB個(gè)樣本中選擇hBvSB-ECBD個(gè)未標(biāo)簽樣本,將hBvSB-ECBD個(gè)樣本經(jīng)人工標(biāo)注后,添加到訓(xùn)練樣本集T1中,利用更新后的T1重新訓(xùn)練SVM分類器。這一過程重復(fù)進(jìn)行,直到迭代的次數(shù)達(dá)到預(yù)先設(shè)定迭代次數(shù)后停止。 2)半監(jiān)督學(xué)習(xí)模塊。當(dāng)滿足主動(dòng)學(xué)習(xí)的停止條件后,將主動(dòng)學(xué)習(xí)最后一次迭代確立的標(biāo)簽訓(xùn)練集T1作為TSVM初始的標(biāo)簽訓(xùn)練樣本集T2。對(duì)于TSVM模塊,從剩余的未標(biāo)簽樣本集U中定義樣本池psemi。首次利用初始的標(biāo)簽訓(xùn)練集T2來建立分類器模型,將主動(dòng)學(xué)習(xí)思想融入半監(jiān)督樣本選擇中,從psemi中確立半標(biāo)簽樣本集。通過決策值來選取在區(qū)間[0,2]內(nèi)的γ個(gè)半標(biāo)簽樣本,再利用核余弦角相似性度量法則,從γ個(gè)半標(biāo)簽樣本中選擇ρ個(gè)最具代表性的半標(biāo)簽樣本。最終,將ρ個(gè)半標(biāo)簽樣本添加到T2中,更新訓(xùn)練樣本集T2和半標(biāo)簽樣本池psemi。更新后的T2就包含標(biāo)簽樣本集與半標(biāo)簽樣本集,利用更新后的T2建立TSVM分類模型,通過迭代的方式不斷擴(kuò)大訓(xùn)練樣本集T2,利用每次更新后的T2重新訓(xùn)練分類模型,這一過程重復(fù)進(jìn)行直到滿足條件迭代次數(shù)才停止。 具體的AL-TSVM算法描述如算法1所示。 為了檢驗(yàn)提出方法的可行性,利用2016年1月27日渤海鲅魚圈區(qū)附近海域Landsat-8數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。因?yàn)楹1鶎?shí)測(cè)數(shù)據(jù)難以獲取,用相同場(chǎng)景4.77 m分辨率的天地圖遙感圖像作為基準(zhǔn)數(shù)據(jù),然而實(shí)驗(yàn)數(shù)據(jù)與基準(zhǔn)數(shù)據(jù)有3 d的時(shí)間差,但對(duì)于沿岸海域,海冰的分布基本一致,海冰受潮汐、洋流等外界影響因素可降低至最低。因此,選擇2幅圖像中沿岸重疊的區(qū)域進(jìn)行海冰圖像分類實(shí)驗(yàn)。圖2(a)是選取實(shí)驗(yàn)區(qū)域圖像,圖2(b)是從圖像中選取訓(xùn)練數(shù)據(jù)區(qū)域分布圖。紅色代表白冰,綠色代表灰冰,藍(lán)色代表灰白冰。其中實(shí)驗(yàn)中的訓(xùn)練樣本與測(cè)試樣本如表1所示。 圖2 實(shí)驗(yàn)數(shù)據(jù) 類別訓(xùn)練樣本的數(shù)目測(cè)試樣本的數(shù)目白冰 430300灰冰 423300灰白冰450300共計(jì) 1 303900 本次實(shí)驗(yàn)使用支持向量機(jī)作為基礎(chǔ)分類器,以RBF核函數(shù)作為支持向量機(jī)分類器的核函數(shù)。對(duì)于支持向量機(jī)中所用到的兩個(gè)參數(shù):RBF核函數(shù)g和正則化參數(shù)c,對(duì)訓(xùn)練樣本集用5倍交叉驗(yàn)證,估計(jì)不同c、g參數(shù)的性能。對(duì)于主動(dòng)學(xué)習(xí)模塊,隨機(jī)從未標(biāo)簽樣本池中選出9個(gè)樣本建立初始標(biāo)簽樣本集,通過主動(dòng)學(xué)習(xí)查詢函數(shù)每次選擇6個(gè)樣本添加到主動(dòng)學(xué)習(xí)的訓(xùn)練樣本集中,更新當(dāng)前分類模型。對(duì)于TSVM模塊,利用半標(biāo)簽樣本采樣算法每次添加6個(gè)半標(biāo)簽樣本加入直推式支持向量機(jī)的訓(xùn)練樣本集中。利用更新后的樣本集訓(xùn)練分類器。并對(duì)相同場(chǎng)景內(nèi)的基準(zhǔn)圖像區(qū)域使用混淆矩陣進(jìn)行性能性評(píng)估,并用總體的平均分類精度顯示算法的性能。 圖3是BvSB-ECBD-TSVM方法與主動(dòng)學(xué)習(xí)及隨機(jī)采樣方法總體分類精度的比較。從圖3可以看出,隨機(jī)采樣得到的最終分類精度只達(dá)到89.76%,而采用主動(dòng)學(xué)習(xí)最終分類精度達(dá)到92%。這是因?yàn)殡S機(jī)采樣算法對(duì)樣本的選擇具有較大的隨機(jī)性,并不能確保所選樣本的信息量,而主動(dòng)學(xué)習(xí)是主動(dòng)地選擇一部分信息含量高的未標(biāo)簽樣本進(jìn)行標(biāo)注,避免了樣本選擇的隨機(jī)性,可有效提高分類器模型的泛化能力。 圖3 BvSB-ECBD-TSVM與隨機(jī)及主動(dòng)學(xué)習(xí)分類精度的比較 相對(duì)于隨機(jī)采樣算法,主動(dòng)學(xué)習(xí)建立的分類模型可進(jìn)一步提高分類精度。然而不同的主動(dòng)學(xué)習(xí)方法,因?yàn)椴蓸臃绞讲煌?,它們的性能也存在著差異。從圖3可以看出:在獲得相同分類精度的情況下,BvSB-ECBD方法的迭代次數(shù)明顯小于BvSB與Entropy的迭代次數(shù)。例如,當(dāng)BvSB-ECBD的分類精度達(dá)到89.36%時(shí),只需要4次迭代,而BvSB方法則需要迭代6次,Entropy方法則需要迭代7次才能達(dá)到近似的精度。這也說明了BvSB-ECBD方法基于多樣性與不確定性2個(gè)準(zhǔn)則選擇的樣本更具信息量和代表性,更加有利于提高海冰的分類精度。 當(dāng)BvSB-ECBD主動(dòng)學(xué)習(xí)過程迭代8次,已經(jīng)確定了一定數(shù)量的標(biāo)簽樣本。TSVM半監(jiān)督學(xué)習(xí)在已建立的標(biāo)簽樣本集的基礎(chǔ)上,再利用半標(biāo)簽樣本,優(yōu)化分類超平面,進(jìn)一步地提高分類精度。從圖3可以看出,BvSB-ECBD-TSVM的最終分類精度可達(dá)到96.54%,相對(duì)于BvSB-ECBD最終的分類精度,精度提高了6.78%。這表明在BvSB-ECBD主動(dòng)學(xué)習(xí)后,TSVM算法可利用那些分布在標(biāo)簽樣本周邊的半標(biāo)簽樣本調(diào)整分類超平面。在標(biāo)簽樣本的基礎(chǔ)上,通過半標(biāo)簽樣本采樣算法選出半標(biāo)簽樣本建立預(yù)測(cè)準(zhǔn)確率更高的TSVM分類模型。 因?yàn)榘氡O(jiān)督學(xué)習(xí)對(duì)初始標(biāo)簽樣本集具有一定的敏感性[16],本文進(jìn)行了主動(dòng)學(xué)習(xí)迭代不同次數(shù)的標(biāo)簽樣本集對(duì)TSVM分類精度的影響實(shí)驗(yàn)。在實(shí)驗(yàn)中TSVM初始標(biāo)簽樣本集是由BvSB-ECBD方法確定的,利用10組獨(dú)立的數(shù)據(jù)實(shí)驗(yàn),并取它們總體精度的平均值來顯示分類結(jié)果。 表2表示的是BvSB-ECBD主動(dòng)學(xué)習(xí)迭代不同次數(shù)確立的標(biāo)簽訓(xùn)練樣本集對(duì)后續(xù)TSVM分類精度的影響。從表2中可知:當(dāng)BvSB-ECBD只迭代2次的情況下,后續(xù)TSVM所得到的分類精度要低于BvSB-ECBD迭代次數(shù)更多時(shí)所得到的TSVM分類精度。當(dāng)BvSB-ECBD只迭代2次時(shí),TSVM總體的分類精度會(huì)存在一定的波動(dòng);而當(dāng)BvSB-ECBD迭代4次時(shí),總體分類精度隨著TSVM迭代次數(shù)的增加相對(duì)穩(wěn)定;當(dāng)BvSB-ECBD迭代8次時(shí),總體分類精度的波動(dòng)明顯減少,這是因?yàn)門SVM對(duì)初始標(biāo)簽樣本集比較敏感,雖然BvSB-ECBD可以選擇可靠的標(biāo)簽樣本,但是當(dāng)標(biāo)簽訓(xùn)練樣本數(shù)量較少時(shí),TSVM選擇的半標(biāo)簽樣本對(duì)分類超平面的優(yōu)化存在歧義,存在著部分樣本標(biāo)簽類別誤判的情況,會(huì)導(dǎo)致TSVM分類精度下降,因此需要主動(dòng)學(xué)習(xí)迭代一定的次數(shù),以獲得足夠數(shù)量的標(biāo)簽樣本。但是隨著主動(dòng)學(xué)習(xí)迭代次數(shù)的增加,標(biāo)簽樣本集的數(shù)量不斷擴(kuò)大,人工標(biāo)注的工作量也在增加,為了在標(biāo)注成本與分類精度之間取得平衡,本文采用BvSB-ECBD迭代8次時(shí)確定的標(biāo)簽樣本集作為后續(xù)TSVM分類器的初始標(biāo)簽樣本。 表2 不同大小的BvSB-ECBD標(biāo)簽訓(xùn)練樣本集對(duì)TSVM總體分類精度的影響 % 圖4是不同的主動(dòng)學(xué)習(xí)方法迭代8次后分別與TSVM結(jié)合的分類精度圖(其中,前8次迭代由不同主動(dòng)學(xué)習(xí)方法分別得到的分類精度,9到15次則代表結(jié)合TSVM后總體的分類精度)。從圖4可以發(fā)現(xiàn):在主動(dòng)學(xué)習(xí)的前8次迭代中,本文BvSB-ECBD方法所獲得的海冰總體的分類精度要明顯高于其他方法的精度,說明在少量的初始標(biāo)簽樣本的情況下,利用BvSB-ECBD方法可獲得更高質(zhì)量的標(biāo)簽樣本。BvSB-ECBD-TSVM與其他結(jié)合方法相比,BvSB-ECBD-TSVM仍然獲得最高的分類精度,并且明顯高于只采用主動(dòng)學(xué)習(xí)(BvSB-ECBD)的分類結(jié)果,這一方面說明TSVM對(duì)主動(dòng)學(xué)習(xí)選擇的標(biāo)簽樣本集比較敏感,高質(zhì)量的標(biāo)簽樣本可以改進(jìn)TSVM的分類精度,另一方面也說明與TSVM結(jié)合后,利用大量的未標(biāo)簽樣本所包含的信息,確實(shí)可以提高分類精度。 從圖4也可以觀察到:Random-TSVM這種結(jié)合方式的分類精度不夠穩(wěn)定,并且分類精度和其他方法比起來精度明顯偏低,這是因?yàn)殡S機(jī)采樣方式,對(duì)樣本的選擇具有較大的隨機(jī)性,導(dǎo)致總體上分類精度較低而且不穩(wěn)定。綜上,本文建議的BvSB-ECBD-TSVM方法在進(jìn)行海冰檢測(cè)過程中具有較好的優(yōu)勢(shì)。 圖4 不同方法與TSVM結(jié)合的分類精度的比較 為了更清晰地展示提出建議的方法對(duì)海冰分類的效果,本文選取部分海域進(jìn)行海冰分類實(shí)驗(yàn)。圖5(a)是選擇的實(shí)驗(yàn)海域的原始海冰圖像;圖5(b)是選擇的部分標(biāo)簽樣本集;圖5(c)是基準(zhǔn)圖像的分類圖,其中紅色代表白冰,綠色代表灰冰,藍(lán)色代表灰白冰;圖5(d)表示的是BvSB-ECBD-TSVM方法的分類結(jié)果圖。本實(shí)驗(yàn)中的海冰總體平均分類精度可達(dá)到96.31%。我們選擇最后一次得到的預(yù)測(cè)標(biāo)簽與基準(zhǔn)標(biāo)簽計(jì)算Kappa系數(shù),Kappa系數(shù)為92.15%。從實(shí)驗(yàn)結(jié)果可以看出,本文建議的方法結(jié)合了主動(dòng)學(xué)習(xí)和半監(jiān)督方法的優(yōu)勢(shì),利用少量的標(biāo)簽樣本,借助于主動(dòng)學(xué)習(xí)方法選擇出高信息量和代表性的樣本進(jìn)行標(biāo)注,并充分利用大量未標(biāo)簽樣本包含的信息,達(dá)到了較好的海冰分類效果,可以有效用于海冰檢測(cè)。 圖5 海冰檢測(cè)分類結(jié)果 針對(duì)遙感海冰檢測(cè)中標(biāo)簽樣本獲取困難、遙感圖像標(biāo)注成本較高及海冰檢測(cè)精度偏低等問題,本文提出一種將主動(dòng)學(xué)習(xí)和半監(jiān)督技術(shù)相結(jié)合的方法進(jìn)行海冰檢測(cè),并將該方法與其他傳統(tǒng)方法進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,BvSB-ECBD-TSVM方法可在較少的人工標(biāo)注成本的情況下,在總體上獲得較優(yōu)的檢測(cè)性能,具體總結(jié)如下: ①主動(dòng)學(xué)習(xí)可選擇一批信息含量豐富且有代表性的樣本建立分類模型。因主動(dòng)學(xué)習(xí)采樣策略不同,導(dǎo)致最終的分類精度表現(xiàn)出一定的差異性,基于BvSB-ECBD的采樣方式要優(yōu)于其他采樣方法。 ②從實(shí)驗(yàn)中可知,半監(jiān)督學(xué)習(xí)可以充分利用未標(biāo)簽樣本的分布信息可進(jìn)一步提高分類精度。通過主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)結(jié)合的方式可解決海冰分類中因標(biāo)簽樣本不足導(dǎo)致分類器泛化能力受限的問題。這種結(jié)合方式,提高分類精度的同時(shí)進(jìn)一步減少人工標(biāo)注樣本的工作量。 ③因?yàn)榘氡O(jiān)督學(xué)習(xí)對(duì)初始標(biāo)簽樣本具有一定的敏感性,本文利用主動(dòng)學(xué)習(xí)選擇一批信息含量豐富的標(biāo)簽樣本,并作為TSVM初始的標(biāo)簽樣本。實(shí)驗(yàn)結(jié)果表明,合理的主動(dòng)學(xué)習(xí)迭代次數(shù)可以達(dá)到標(biāo)注成本和分類精度之間的平衡,實(shí)現(xiàn)用盡量少的標(biāo)注成本獲得更高的分類精度,達(dá)到較好的海冰分類效果,為海冰檢測(cè)提供了一種新的方式。1.2 半監(jiān)督學(xué)習(xí)
2 主動(dòng)學(xué)習(xí)與半監(jiān)督技術(shù)相結(jié)合的海冰分類算法
2.1 算法實(shí)現(xiàn)框架
2.2 算法描述
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)描述
3.2 實(shí)驗(yàn)設(shè)置
3.3 BvSB-ECBD-TSVM與主動(dòng)學(xué)習(xí)方法的精度比較
3.4 主動(dòng)學(xué)習(xí)迭代次數(shù)對(duì)分類精度的影響
3.5 不同主動(dòng)學(xué)習(xí)方法與TSVM結(jié)合的分類精度比較
3.6 海冰實(shí)驗(yàn)分類效果圖
4 結(jié)束語(yǔ)