韓彥嶺,趙耀,周汝雁*,張?jiān)疲蹯o,楊樹瑚,洪中華
( 1. 上海海洋大學(xué) 信息學(xué)院,上海 201306)
海冰災(zāi)害對(duì)極地和高緯度地區(qū)的人類海上運(yùn)輸、海洋漁業(yè)和海洋油氣資源開發(fā)等社會(huì)實(shí)踐活動(dòng)造成巨大的損失,因此對(duì)海冰的防災(zāi)檢測(cè)及分類識(shí)別的研究日益受到重視[1]。
相比傳統(tǒng)的海冰檢測(cè)方式,遙感技術(shù)能夠提供全天候、大面積、實(shí)時(shí)準(zhǔn)確的海冰遙感圖像信息,現(xiàn)已被廣泛應(yīng)用于海冰檢測(cè)中,成為一種高效的檢測(cè)海冰的方法。在圖像分類中,監(jiān)督分類方法雖然可以利用標(biāo)簽樣本信息獲得較高的分類精度,但是分類精度受標(biāo)簽樣本的數(shù)量和質(zhì)量的影響較大。由于海冰檢測(cè)受環(huán)境條件的限制,實(shí)測(cè)資料稀少,而專家對(duì)遙感圖像的標(biāo)注十分耗時(shí)費(fèi)力,導(dǎo)致標(biāo)簽樣本難以獲??;同時(shí),遙感圖像中存在大量的無(wú)標(biāo)簽樣本,這些樣本中包含了豐富的信息,卻沒有得到充分地利用。針對(duì)這個(gè)問(wèn)題,主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)逐漸被應(yīng)用到遙感圖像分類中來(lái)。
主動(dòng)學(xué)習(xí)(Active Learning, AL)類似一種人機(jī)交互的過(guò)程,它能查詢富含信息量的未標(biāo)簽樣本,并通過(guò)人工標(biāo)注加入標(biāo)簽樣本集中,而那些對(duì)分類器的分類性能沒有明顯影響的樣本可以避免被選擇,從而大大降低標(biāo)注成本并提高標(biāo)簽樣本集的質(zhì)量。主動(dòng)學(xué)習(xí)的性能取決于查詢算法,即采樣策略,不同的采樣策略對(duì)于提升當(dāng)前分類器的性能有著不同的效果。目前已經(jīng)有許多主動(dòng)學(xué)習(xí)方法應(yīng)用在遙感圖像分類中并取得較好的分類結(jié)果,如邊緣采樣(Margin Sampling, MS)[2]、最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)(Best Versus Second-Best, BVSB)[3]、多類不確定性采樣(Multiclass-Level Uncertainty, MCLU)[4]、基于熵的不確定性采樣(Entropy)[5]等,這些方法都是通過(guò)各自的采樣策略查詢具有最大不確定性的樣本并通過(guò)專家標(biāo)注添加到標(biāo)簽樣本集中。近年來(lái),研究者們通過(guò)聚類假設(shè)[6]開發(fā)出更為有效的主動(dòng)學(xué)習(xí)采樣策略,這種加入聚類猜想的主動(dòng)學(xué)習(xí)方法分為不確定性采樣和差異性選擇兩個(gè)部分。在不確性采樣部分使用不確定性準(zhǔn)則選取m(m>2)個(gè)樣本,然后在差異性選擇部分使用差異性準(zhǔn)則從m個(gè)樣本中選擇h(1<h<m)個(gè)樣本,所選的樣本兼具信息量和差異性,將這些樣本通過(guò)專家標(biāo)注加入到標(biāo)簽樣本集中能夠訓(xùn)練出效果更好的分類器。Demir 等[4]研究出幾種不同差異性準(zhǔn)則和不確定性準(zhǔn)則相結(jié)合的主動(dòng)學(xué)習(xí)方法來(lái)對(duì)遙感圖像進(jìn)行分類。Patra 和Bruzzone[7]提出利用自組織映射(Self-Organizing Map, SOM)神經(jīng)網(wǎng)絡(luò)查詢具有差異性的樣本并結(jié)合不確定性準(zhǔn)則形成一種新的主動(dòng)學(xué)習(xí)算法。
半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning, SSL)利用少量的標(biāo)簽樣本,在不需要額外人工標(biāo)注的情況下,利用大量的未標(biāo)簽樣本來(lái)更新訓(xùn)練分類器,相比主動(dòng)學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)進(jìn)一步減少了人工標(biāo)注的成本,更加省時(shí)省力。但是,半監(jiān)督分類模型受初始標(biāo)簽樣本的影響較大,初始分類模型對(duì)未標(biāo)簽樣本的錯(cuò)誤預(yù)測(cè)會(huì)導(dǎo)致誤差傳遞,影響最終的分類精度。在半監(jiān)督學(xué)習(xí)技術(shù)領(lǐng)域中,Vapnik 和Sterin[8]提出了直推式支持向量機(jī)(Transductive Support Vector Machine,TSVM),該方法是使用最廣泛的SSL 技術(shù)之一。它使用估計(jì)標(biāo)簽的線性預(yù)測(cè)函數(shù),在訓(xùn)練分類器的過(guò)程中直接利用未標(biāo)簽樣本,逐步搜索最佳的分類超平面,得到了效果顯著的分類器模型。Zhou 和Li[9]提出了基于差異的SSL 方法,利用多個(gè)學(xué)習(xí)機(jī)之間的差異性來(lái)改進(jìn)SSL 性能,有效地降低了時(shí)間的損耗,并且提高了學(xué)習(xí)機(jī)的泛化能力。Bruzzone 等[10]提出了漸進(jìn)式的半監(jiān)督支持向量機(jī)(Progressive Semi-supervised Support Vector Machine,利用通常在主動(dòng)學(xué)習(xí)中考慮的采樣方法尋找最靠近當(dāng)前分類器分類面的未標(biāo)簽樣本,選取的樣本包含了一定的信息量和可信度。
主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都是從少量的標(biāo)簽樣本出發(fā),不斷利用未標(biāo)簽樣本提升分類模型性能的技術(shù),具有內(nèi)在相似性且具有良好的互補(bǔ)性。如果能將它們有效地集成,不但可以提高分類模型的性能,而且能夠減少人工標(biāo)記的工作量。目前已經(jīng)有一些主動(dòng)學(xué)習(xí)結(jié)合半監(jiān)督學(xué)習(xí)的方法被相關(guān)研究者提出來(lái)[5]。2013 年,Leng 等[11]提出結(jié)合標(biāo)簽變化率(Label Changing Rate, LCR)和類中心樣本(Median Distant, MD)的AL+LCR_MD SSL 方法,該方法使用標(biāo)簽變化率來(lái)保證預(yù)測(cè)標(biāo)簽的可靠性,并查詢類中心樣本作為具有信息量的樣本,一定程度上提升了分類性能。2015 年,Wan 等[12]提出Collaborative Active And Semisupervised Learning(CASSL)方法,該方法迭代地訓(xùn)練兩個(gè)分類器并對(duì)未標(biāo)簽樣本進(jìn)行預(yù)測(cè),通過(guò)分類器之間的相互驗(yàn)證機(jī)制,保證對(duì)未標(biāo)簽樣本預(yù)測(cè)準(zhǔn)確率的不斷提高,最終獲得較好的分類模型。但是,由于該方法將所有通過(guò)驗(yàn)證的未標(biāo)簽樣本都加入到訓(xùn)練集中,會(huì)導(dǎo)致訓(xùn)練集中存在大量的冗余樣本,降低模型的計(jì)算效率和分類精度。
為了進(jìn)一步提高分類器的性能,減少人工標(biāo)注工作量,本文提出一種協(xié)同主動(dòng)學(xué)習(xí)和直推式支持向量機(jī)(Cooperative Active Learning and Transductive SVM,CATSVM)的分類方法。該方法在主動(dòng)學(xué)習(xí)部分提出結(jié)合BVSB 不確定性準(zhǔn)則、SOM 神經(jīng)網(wǎng)絡(luò)和改進(jìn)的聚類差異性準(zhǔn)則(Enhanced Clustering-based Diversity,ECBD) 差異性準(zhǔn)則的方法,從樣本低密度區(qū)域查詢信息量豐富并且具有顯著差異性的樣本進(jìn)行標(biāo)注,來(lái)提升監(jiān)督分類器的性能;在半監(jiān)督學(xué)習(xí)部分,利用主動(dòng)學(xué)習(xí)思想從未標(biāo)簽樣本中查詢處于當(dāng)前分類器分類面之間,并且包含一定信息量和差異性的樣本,并利用TSVM 訓(xùn)練半監(jiān)督分類器,實(shí)現(xiàn)半監(jiān)督分類學(xué)習(xí)過(guò)程;同時(shí),我們將基于主動(dòng)學(xué)習(xí)的監(jiān)督分類器和基于TSVM 的半監(jiān)督分類器的分類結(jié)果相比較,通過(guò)協(xié)同驗(yàn)證機(jī)制來(lái)保證所加入偽標(biāo)簽樣本(半監(jiān)督分類器預(yù)測(cè)得到的標(biāo)簽)的正確性,從而進(jìn)一步提高分類性能。在高光譜遙感數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,相比于經(jīng)典的主動(dòng)學(xué)習(xí)方法,以及其他主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)相結(jié)合的方法,CATSVM 方法具有更好的分類性能。
在介紹CATSVM 方法之前,首先介紹一下在CATSVM中用到的主動(dòng)學(xué)習(xí)采樣策略和半監(jiān)督學(xué)習(xí)采樣策略。
采樣策略是主動(dòng)學(xué)習(xí)的核心部分,分類器根據(jù)采樣策略選擇信息量最大的樣本,通過(guò)人工標(biāo)注加入到標(biāo)簽樣本集中,并利用更新的標(biāo)簽樣本集訓(xùn)練新的分類模型。
BVSB[3]是一種不確定性采樣方法,該方法根據(jù)未標(biāo)簽樣本屬于各個(gè)類別的概率,計(jì)算最大概率和次大概率的差值,然后選擇差值較小的一批樣本作為主動(dòng)學(xué)習(xí)的樣本,選出來(lái)的樣本具有豐富的信息量。
SOM 神經(jīng)網(wǎng)路可以以非監(jiān)督的方式進(jìn)行訓(xùn)練來(lái)識(shí)別屬于特征空間低密度區(qū)域的樣本,該方法可以在歐式空間中有效的對(duì)未標(biāo)簽樣本進(jìn)行差異性選取。在網(wǎng)絡(luò)訓(xùn)練階段的收斂處,我們通過(guò)使用它們相應(yīng)的權(quán)重向量來(lái)計(jì)算輸出層中每個(gè)神經(jīng)元到其相鄰神經(jīng)元的平均近鄰距離。神經(jīng)元的平均近鄰距離用來(lái)表示,計(jì)算過(guò)程如下[7]:
ECBD 是一種基于核空間的聚類算法,利用徑向基核函數(shù)(Radial Basis Function, RBF)將樣本映射到高維的特征空間中,并將樣本劃分成h個(gè)聚類,選擇每個(gè)聚類中心的樣本作為最具差異性和代表性的樣本[4, 13]。
CATSVM 方法的主動(dòng)學(xué)習(xí)部分融合BVSB、SOM和ECBD 方法形成了一種新的主動(dòng)學(xué)習(xí)采樣策略該策略能夠通過(guò)BVSB 方法查詢具有豐富信息量的樣本,然后利用SOM 和ECBD 方法從樣本低密度區(qū)域篩選出處于核特征空間中差異性較大的代表性樣本。主動(dòng)學(xué)習(xí)采樣策略的具體描述如算法1 所示。
輸入:SVM 分類器F;
未標(biāo)簽樣本集U。
步驟1:利用已有的標(biāo)簽樣本和未標(biāo)簽樣本共同訓(xùn)練SOM 神經(jīng)網(wǎng)絡(luò)。
步驟2:根據(jù)式(1)計(jì)算每一個(gè)神經(jīng)元的平均近鄰距離。
半監(jiān)督學(xué)習(xí)是一種利用大量未標(biāo)簽樣本來(lái)提升分類器性能的方法,TSVM 是一種有效的半監(jiān)督分類技術(shù)。TSVM 這一概念是由Vapnik 和Sterin[8]首先提出,其主要思想是利用較少的標(biāo)簽樣本和大量易獲取的未標(biāo)簽樣本共同建立分類模型,提高分類器的泛化能力。下面將對(duì)TSVM 的原理進(jìn)行簡(jiǎn)單介紹。
由于未標(biāo)簽樣本數(shù)量龐大,我們借鑒主動(dòng)學(xué)習(xí)的思想,選擇信息含量較大的樣本,來(lái)改進(jìn)TSVM 未標(biāo)簽訓(xùn)練樣本的選擇過(guò)程。利用未標(biāo)簽樣本采樣策略(具體采樣過(guò)程如算法2),在保證未標(biāo)簽樣本具有較大信息量的同時(shí),避免大量冗余樣本的加入。
對(duì)于TSVM 訓(xùn)練部分,我們將標(biāo)簽樣本集和通過(guò)半監(jiān)督學(xué)習(xí)查詢的偽標(biāo)簽樣本集結(jié)合作為TSVM 的訓(xùn)練樣本集其中N為獨(dú)立樣本的個(gè)數(shù),則表示訓(xùn)練樣本表示樣本對(duì)應(yīng)的標(biāo)簽。基于Kuhn-Tucker 定理求解對(duì)偶規(guī)劃問(wèn)題,最終二類分類問(wèn)題轉(zhuǎn)化為求解以下問(wèn)題,
式中,SV是支持向量集;和是用來(lái)確定最優(yōu)分類超平面的參數(shù)是核函數(shù)。對(duì)于海冰分類的問(wèn)題,我們利用RBF 核函數(shù)作為分類器的核函數(shù)。通過(guò)融入主動(dòng)學(xué)習(xí)的思想從半標(biāo)簽樣本集中選擇具有信息量的樣本添加到訓(xùn)練集中,其數(shù)學(xué)模型可表示為
式中,x代表未標(biāo)簽樣本和是根據(jù)公式(3)得到的樣本x的最大和次大決策函數(shù)值。通過(guò)給定的范圍確立信息含量更高的半標(biāo)簽樣本集,其中C(x)的值越接近于2 越有利于優(yōu)化分類超平面(即分布在分類超平面附近的樣本)[15]。
通過(guò)公式(4)從H中選擇t個(gè)樣本。對(duì)于選中的這部分半標(biāo)簽樣本,同樣存在一些具有冗余信息的樣本。因此需要對(duì)t個(gè)樣本進(jìn)一步篩選,我們用RBF 核函數(shù)將選出的這部分樣本映射到高維特征空間中,并在高維特征空間中用核余弦相似性準(zhǔn)則從已選擇的t個(gè)樣本選擇個(gè)半標(biāo)簽樣本。核余弦角相似性準(zhǔn)則公式表示為
輸入:TSVM 分類器F;
未標(biāo)簽樣本集U;
步驟1:根據(jù)分類器F和公式(4)和公式(5)從U中選出前t(t>q2)個(gè)C(x)的值最大并且在分類器的分類面之間的樣本組成集合J;
步驟2:根據(jù)公式(4)從J中選出對(duì)應(yīng)的C(x)的值最大的樣本
步驟4:對(duì)于集合J中的每個(gè)樣本x,根據(jù)公式(6)計(jì)算樣本x和Uq2中 樣本xi最 大的核余弦角值選擇所有最大核余弦角值中的最小值所對(duì)應(yīng)的樣本x作為
步驟6:若Uq2中樣本數(shù)量小于或等于q2時(shí)算法停止,否則回到步驟4。
遙感海冰檢測(cè)中人工標(biāo)注費(fèi)時(shí)費(fèi)力,成本很高,而大量存在的未標(biāo)簽樣本卻沒有得到充分利用。鑒于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)在減少人工標(biāo)注代價(jià)和提高分類精度方面的內(nèi)在一致性,本文提出協(xié)同主動(dòng)學(xué)習(xí)和TSVM 半監(jiān)督學(xué)習(xí)的CATSVM 分類框架,并將其應(yīng)用到海冰圖像分類中。該方法的技術(shù)優(yōu)勢(shì)在于:一方面利用主動(dòng)學(xué)習(xí)算法主動(dòng)選擇最有價(jià)值的樣本加入到標(biāo)簽樣本集;另一方面可以有效地利用大量未標(biāo)簽樣本中包含的信息,并通過(guò)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的協(xié)同機(jī)制對(duì)加入分類模型的偽標(biāo)簽進(jìn)行驗(yàn)證,進(jìn)一步提高偽標(biāo)簽樣本的準(zhǔn)確率,實(shí)現(xiàn)在較小標(biāo)注成本的基礎(chǔ)上獲得較好的分類性能。下面描述CATSVM 的算法框架和實(shí)現(xiàn)。
CATSVM 分類算法實(shí)現(xiàn)框架如圖1 所示。實(shí)驗(yàn)開始先設(shè)置初始標(biāo)簽訓(xùn)練樣本集L,未標(biāo)簽樣本集U,空的偽標(biāo)簽樣本集P和空的TSVM 未標(biāo)簽訓(xùn)練樣本集S。圖1 為算法框架描述。
首先,用標(biāo)簽訓(xùn)練樣本集L、偽標(biāo)簽樣本集P與未標(biāo)簽訓(xùn)練樣本集S共同訓(xùn)練TSVM 分類器;然后,把S中的樣本加入未標(biāo)簽樣本侯選集CP中,并清空S,接著用TSVM 分類器對(duì)CP中的樣本進(jìn)行預(yù)測(cè),得到相應(yīng)的預(yù)測(cè)結(jié)果
接下來(lái),通過(guò)TSVM 分類器和主動(dòng)學(xué)習(xí)采樣策略Q1,從U中選取q1個(gè)樣本通過(guò)人工標(biāo)注加入L中,利用更新后的L訓(xùn)練SVM 分類器,并對(duì)CP中的樣本進(jìn)行分類得到相應(yīng)的預(yù)測(cè)結(jié)果接著通過(guò)和對(duì)CP中的樣本實(shí)施驗(yàn)證過(guò)程:把分類結(jié)果相同的樣本篩選出來(lái)賦予相應(yīng)的偽標(biāo)簽加入到偽標(biāo)簽樣本集P中;然后,通過(guò)TSVM 分類器和半監(jiān)督學(xué)習(xí)采樣策略 Q2從U中選擇q2個(gè)樣本加入S中,為下一次迭代訓(xùn)練TSVM 分類器做準(zhǔn)備,并從U中剔除被選擇的樣本。整個(gè)迭代過(guò)程在U為空時(shí)停止。
最后,值得注意的是,在算法第一次訓(xùn)練TSVM 分類器的時(shí)候,TSVM 未標(biāo)簽訓(xùn)練樣本集S為空,因此,所得的分類器并沒有經(jīng)過(guò)TSVM 訓(xùn)練過(guò)程,而是用初始標(biāo)簽樣本集L訓(xùn)練的普通SVM 分類器,但是從第二次迭代開始,S不為空,所得的分類器便是經(jīng)過(guò)TSVM 訓(xùn)練過(guò)程得到的分類器,為了統(tǒng)一起見,我們便在第一次迭代中也稱它為TSVM 分類器。
具體的CATSVM 方法描述如算法3。
算法3:CATSVM 算法。
輸入:初始標(biāo)簽訓(xùn)練樣本集L;
未標(biāo)簽樣本集U;
偽標(biāo)簽樣本集P=?;
主動(dòng)學(xué)習(xí)查詢樣本數(shù)量;
TSVM 未標(biāo)簽訓(xùn)練樣本查詢數(shù)量;
TSVM 未標(biāo)簽訓(xùn)練樣本集S=?。開始
步驟1:更新LP=L∪P,用LP和S訓(xùn)練TSVM 分類器;
步驟2:判斷S是否為空,如果為空則執(zhí)行步驟7,否則執(zhí)行步驟3;
圖 1 CATSVM 方法的流程圖Fig. 1 Flowchart of CATSVM method
步驟3:更新未標(biāo)簽樣本候選集CP=CP∪S,再更新S=?,然后用TSVM 分類器對(duì)CP中的樣本預(yù)測(cè)得到對(duì)應(yīng)的結(jié)果
步驟4:用步驟1 得到的TSVM 分類器通過(guò)主動(dòng)學(xué)習(xí)采樣策略 Q1從U中查找q1個(gè)樣本Uq1進(jìn)行人工標(biāo)注,更新L和
步驟5:用L訓(xùn)練SVM 分類器,并用該分類器對(duì)CP中的樣本預(yù)測(cè)得到對(duì)應(yīng)的結(jié)果
步驟6:經(jīng)一致性驗(yàn)證得到偽標(biāo)簽樣本集P,
步驟7:用步驟1 得到的TSVM 分類器通過(guò)半監(jiān)督學(xué)習(xí)采樣策略 Q2從U中查找q2個(gè) 樣本Uq2,更新S和
步驟8:若U為?停止,否則回到步驟1。
結(jié)束。
4.1.1 巴芬灣數(shù)據(jù)
第一個(gè)實(shí)驗(yàn)數(shù)據(jù)為2014 年4 月12 日格陵蘭島附近巴芬灣海域的Hyperion EO-1 高光譜影像,坐標(biāo)范圍為73°57′5″~74°16′16″N,79°29′20″~79°51′27″W。實(shí)驗(yàn)數(shù)據(jù)經(jīng)過(guò)系統(tǒng)幾何校正、投影配準(zhǔn)以及地形校正,圖像級(jí)別為L(zhǎng)1Gst 級(jí),波段光譜范圍為356~2 578 nm,總共包含242 個(gè)波段,空間分辨率是30 m,光譜分辨率達(dá)到納米級(jí)[16]。在242 波段的圖像數(shù)據(jù)中,有一部分波段受到了噪聲和水汽的干擾,實(shí)驗(yàn)中把這些波段提前去除,去除的波段和波長(zhǎng)范圍見表1。去除后,本實(shí)驗(yàn)采用自適應(yīng)波段選擇方法[17]對(duì)剩下的176 個(gè)波段進(jìn)行降維處理,最終選擇了6 個(gè)波段進(jìn)行分類實(shí)驗(yàn),采用的波段為13、18、24、35、49、84。
表 1 去除的Hyperion 波段Table 1 The Hyperion bands that been removed
由于海冰環(huán)境特殊,實(shí)測(cè)數(shù)據(jù)難以獲取,可以把同時(shí)間同場(chǎng)景具有更高空間分辨率的遙感圖像作為基準(zhǔn)圖像,將它的分類結(jié)果作為地表真實(shí)分布[18]。因此實(shí)驗(yàn)中我們將同時(shí)間同場(chǎng)景的Landsat-8 數(shù)據(jù)(空間分辨率為15 m)作為驗(yàn)證數(shù)據(jù)。
根據(jù)光譜特征,海冰數(shù)據(jù)被劃分為厚冰、薄冰、海水3 個(gè)類別,見圖2。通過(guò)人工選取一定數(shù)量的標(biāo)簽樣本,共計(jì)1 678 個(gè)標(biāo)簽樣本。從所有標(biāo)簽數(shù)據(jù)中選出9 個(gè)作為初始訓(xùn)練樣本集L,剩下的作為未標(biāo)簽樣本集U進(jìn)行模型訓(xùn)練,最后用訓(xùn)練好的模型對(duì)整幅圖像進(jìn)行分類,通過(guò)混淆矩陣計(jì)算總體分類精度和Kappa 系數(shù)。用于實(shí)驗(yàn)的海冰類型和相關(guān)的樣本數(shù)量見表2。
圖 2 帶有標(biāo)簽樣本的高光譜圖像(a),a 中部分區(qū)域的放大圖(b)Fig. 2 Hyperspectral image marked with labeled samples(a), b is partial hyperspectral image taken from a
表 2 巴芬灣數(shù)據(jù)中每個(gè)類別的初始訓(xùn)練樣本集L 和未標(biāo)簽樣本集U 中的樣本數(shù)量Table 2 Number of samples for each class in the initial training set (L), and in the unlabeled pool (U) for the Baffin Bay data set
4.1.2 遼東灣數(shù)據(jù)
第二個(gè)實(shí)驗(yàn)數(shù)據(jù)為2016 年1 月27 日渤海鲅魚圈區(qū)附近海域Landsat-8 圖像。因?yàn)楹1鶎?shí)測(cè)數(shù)據(jù)難以獲取,我們用相同場(chǎng)景4.77 m 分辨率的Google Earth遙感圖像作為基準(zhǔn)數(shù)據(jù),然而實(shí)驗(yàn)數(shù)據(jù)與基準(zhǔn)數(shù)據(jù)有3 d 的時(shí)間差,但對(duì)于沿岸海域,海冰的分布基本一致,海冰受潮汐、洋流等外界影響因素可降低至最低。因此,我們選擇兩幅圖像中沿岸重疊的區(qū)域進(jìn)行海冰圖像分類實(shí)驗(yàn)。圖3a 是選取的實(shí)驗(yàn)區(qū)域圖像,圖3b 是從圖像中選取的訓(xùn)練數(shù)據(jù)區(qū)域分布。實(shí)驗(yàn)中的海冰類型和相關(guān)樣本數(shù)量如表3 所示。
圖 3 Landsat-8 實(shí)驗(yàn)數(shù)據(jù)圖像(a),實(shí)驗(yàn)中標(biāo)記樣本分布(b)Fig. 3 Landsat-8 image(a), and distribution of labeled samples (b)
實(shí)驗(yàn)過(guò)程中,每個(gè)波段的像素值被歸一化到[0,1]之間,在算法運(yùn)行開始前,將隨機(jī)地從活動(dòng)池里每個(gè)類別的樣中選擇3 個(gè)樣本人工加以標(biāo)注,構(gòu)成初始標(biāo)簽訓(xùn)練樣本集L。通過(guò)查詢函數(shù) Q1查詢的樣本數(shù)量設(shè) 為12,h1設(shè) 為6,q1設(shè) 為3。通過(guò)查詢函數(shù) Q2查詢加入到TSVM 未標(biāo)簽訓(xùn)練樣本集S中的樣本數(shù)量h設(shè)為12,q2設(shè)為6,并根據(jù)分類器對(duì)S中樣本的預(yù)測(cè)標(biāo)簽結(jié)果,設(shè)置TSVM 訓(xùn)練過(guò)程中需要的正類樣本的數(shù)量N+。
在CATSVM 方法中,SVM 分類器和TSVM 分類器使用RBF 核函數(shù),其中通過(guò)網(wǎng)格參數(shù)尋優(yōu)的方法在范 圍內(nèi)確定高斯核參數(shù)γ,在的范圍內(nèi)確定懲罰參數(shù)C,并利用五折交叉驗(yàn)證選取性能較好的參數(shù)組合γ和C。實(shí)驗(yàn)中,SOM 神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元數(shù)量設(shè)置為25×25(所設(shè)置的神經(jīng)元的數(shù)量足夠多于可獲得的標(biāo)簽樣本的類別),拓?fù)浣Y(jié)構(gòu)為六角形柵格,網(wǎng)絡(luò)迭代學(xué)習(xí)4 000 次,神經(jīng)元距離函數(shù)設(shè)置為“l(fā)inkdist”。網(wǎng)絡(luò)的初始鄰域值設(shè)為20,并且隨著網(wǎng)絡(luò)迭代學(xué)習(xí)到第4 000 次的時(shí)候逐漸減少到1。實(shí)驗(yàn)中SVM 分類使用LibSVM 工具箱[19]實(shí)現(xiàn),TSVM 分類使用SVMlight[14]工具箱實(shí)現(xiàn),實(shí)驗(yàn)中的所有過(guò)程都是在Matlab R2013b 中實(shí)現(xiàn)。
為了表現(xiàn)所提方法的有效性,我們將建議的方法分別與幾個(gè)經(jīng)典的主動(dòng)學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法進(jìn)行比較。用于比較的主動(dòng)學(xué)習(xí)方法有:MCLUECBD[4],BVSB-ECBD[13],BVSB,ENTROPY。在主動(dòng)學(xué)習(xí)的不確定性采樣策略中,選擇m個(gè)樣本;在差異性采樣策略中從m個(gè)樣本中選擇h(1<h<m)個(gè)樣本,不同主動(dòng)學(xué)習(xí)方法的采樣數(shù)量見表4。
用于比較的AL 和SSL 相結(jié)合的方法有CASSL、AL+LCR_MD SSL,還有主動(dòng)學(xué)習(xí)和TSVM 順序結(jié)合的方法BVSB-ECBD-TSVM。其中CASSL 方法中的主動(dòng)學(xué)習(xí)采樣數(shù)量q設(shè)置為3;AL+LCR_MD SSL 方法中,主動(dòng)學(xué)習(xí)采樣數(shù)量設(shè)置為1,主動(dòng)學(xué)習(xí)迭代次數(shù)M設(shè)為3,半監(jiān)督學(xué)習(xí)迭代次數(shù)K在巴芬灣數(shù)據(jù)實(shí)驗(yàn)中為30,在遼東灣數(shù)據(jù)實(shí)驗(yàn)中為20。
表 3 遼東灣數(shù)據(jù)中每個(gè)類別的初始訓(xùn)練樣本集L 和未標(biāo)簽樣本集U 中的樣本數(shù)量Table 3 Number of samples for each class in the initial training set (L), and in the unlabeled pool (U) for the Liaodong Bay data set
表 4 不同主動(dòng)學(xué)習(xí)方法采樣數(shù)量Table 4 Number of samples chosen by the different active learning methods
BVSB-ECBD-TSVM 方法分為兩個(gè)階段[20],第一階段使用基于BVSB-ECBD 主動(dòng)學(xué)習(xí)采樣策略,其中m設(shè)為12,h設(shè)為3。主動(dòng)學(xué)習(xí)部分結(jié)束后,進(jìn)行TSVM 半監(jiān)督學(xué)習(xí)階段,半監(jiān)督學(xué)習(xí)采樣數(shù)量t設(shè)為12,q2設(shè)為6。主動(dòng)學(xué)習(xí)迭代次數(shù)NUMAL設(shè)為8,半監(jiān)督學(xué)習(xí)迭代次數(shù)在巴芬灣數(shù)據(jù)實(shí)驗(yàn)中為22,在遼東灣數(shù)據(jù)實(shí)驗(yàn)中為12。
為了排除初始訓(xùn)練樣本的隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果造成的影響,對(duì)于每種方法我們都重復(fù)進(jìn)行10 次實(shí)驗(yàn),取10 次實(shí)驗(yàn)的平均值作為最終分類精度進(jìn)行對(duì)比。
4.3.1 CATSVM 與AL 方法的分類精度對(duì)比
圖4 是在相同數(shù)量的標(biāo)簽訓(xùn)練樣本條件下,CATSVM 方法和經(jīng)典的主動(dòng)學(xué)習(xí)方法進(jìn)行10 次實(shí)驗(yàn)的平均分類精度結(jié)果對(duì)比。從圖中可以看出,4 種主動(dòng)學(xué)習(xí)方法都可以從少量標(biāo)簽樣本中,查詢有代表性的樣本通過(guò)人工標(biāo)注加入訓(xùn)練集從而提高分類精度。但是由于不同主動(dòng)學(xué)習(xí)方法的采樣策略不同,選取出的樣本信息量和代表性不同,因此它們的分類性能也存在差異。BVSB 和ENTROPY 算法都是經(jīng)典的主動(dòng)學(xué)習(xí)算法,但是其分類效果并不理想,最終的分類精度分別是73.38% 和76.17%;BVSB-ECBD 和MCLU-ECBD 算法收斂速度較慢,可以達(dá)到87.14%和89.73%的分類精度。
從圖4 中,對(duì)比其他主動(dòng)學(xué)習(xí)方法,CATSVM 方法可以達(dá)到更高的分類精度和更快的收斂速度。例如,CATSVM 方法在迭代到第5 次時(shí)分類精度達(dá)到90.00%,基本達(dá)到收斂;MCLU-ECBD 算法需要迭代28 次才能達(dá)到相應(yīng)的精度結(jié)果;BVSB-ECBD 算法收斂速度慢而且最終迭代30 次的分類結(jié)果要比CATSVM 方法低2.41%;而BVSB 和ENTROPY 算法的最終分類精度比CATSVM 方法的最終精度低了16.44%和13.65%。這一方面是由于CATSVM 采用了BVSB不確定性采樣策略和SOM 與ECBD 的差異性采樣策略,不但選擇了最有信息量的一批樣本,而且將這批樣本映射到SOM 網(wǎng)絡(luò)輸出層的神經(jīng)元后,從不同神經(jīng)元選擇了處于樣本低密度區(qū)域不同的樣本,再經(jīng)過(guò)核空間的多樣性聚類分析,篩選最具代表性的樣本,從而樣本之間的冗余性較小,更加有利于提高海冰分類的精度;另一方面,由于CATSVM 結(jié)合了半監(jiān)督學(xué)習(xí)算法的思想,充分利用了大量的未標(biāo)簽樣本所包含的信息,可以更好地刻畫不同類別海冰的分布特性,進(jìn)一步提高海冰分類精度。
該實(shí)驗(yàn)結(jié)果表明,利用較少的未標(biāo)簽訓(xùn)練樣本,本文提出的CATSVM 方法可以自動(dòng)地選擇包含一定信息量的有價(jià)值的未標(biāo)簽樣本參與訓(xùn)練,相比單獨(dú)的主動(dòng)學(xué)習(xí)方法,可以獲得更好的分類性能,暗示了未標(biāo)簽樣本中包含大量有價(jià)值的信息,可以從整體上更好地刻畫海冰類別分布特性,用于提高海冰分類性能。
圖 4 巴芬灣數(shù)據(jù)CATSVM 與AL 方法總體分類精度對(duì)比Fig. 4 Average classification accuracy for CATSVM and AL methods of the Baffin Bay data
圖 5 巴芬灣數(shù)據(jù)CATSVM 方法和其他AL+SSL 方法的總體分類精度對(duì)比Fig. 5 Average classification accuracy between CATSVM and other AL+SSL methods of the Baffin Bay data
4.3.2 CATSVM 與AL+SSL 方法的分類精度對(duì)比
圖5 是在相同數(shù)量的標(biāo)簽訓(xùn)練樣本條件下CATSVM方法和其他主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)相結(jié)合方法的分類精度結(jié)果對(duì)比。從圖中可以看出,CATSVM 方法相對(duì)于其他結(jié)合方法具有明顯的優(yōu)勢(shì),該方法所得精度結(jié)果迭代到第5 次就基本收斂,并且隨著迭代次數(shù)的增加,精度十分穩(wěn)定。CASSL 方法收斂速度相對(duì)較慢,在迭代到第10 次時(shí)才達(dá)到收斂,并且在之后的迭代過(guò)程中,精度也會(huì)略有波動(dòng);BVSB-ECBD-TSVM 因?yàn)槿狈︱?yàn)證機(jī)制導(dǎo)致加入一些錯(cuò)誤的偽標(biāo)簽樣本,從而導(dǎo)致最終的分類精度偏低,從圖中我們也可以看出BVSB-ECBD-TSVM 方法得到的精度結(jié)果在迭代到12 次時(shí)才達(dá)到收斂,并且最終的精度結(jié)果比CATSVM 的方法低了1% 左右;AL+LCR_MD SSL 方法利用標(biāo)簽變化率選擇相對(duì)確定的樣本進(jìn)行標(biāo)注,但是從這些相對(duì)確定的樣本中選擇出來(lái)的類中心樣本并不一定能影響當(dāng)前分類器的分類面,并且有可能添加標(biāo)簽錯(cuò)誤的樣本影響分類器的性能,因此該方法收斂相對(duì)較慢,精度結(jié)果相對(duì)較差,最終的精度只有87.45%。
從圖5 的實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法從總體上獲得了較好的性能,要達(dá)到相同的精度,CATSVM方法只需要較少的迭代次數(shù),如當(dāng)精度達(dá)到87%,CATSVM 需要迭代3 次,CASSL 需要迭代7 次,BVSBECBD-TSVM 需要迭代11 次,AL+LCR_MD SSL 需要迭代21 次;經(jīng)過(guò)相同的迭代次數(shù),CATSVM 方法可以達(dá)到更好的精度,如經(jīng)過(guò)5 次迭代時(shí),幾種方法的分類精度分別為:CATSVM 為90.00%;CASSL 為80.54%;BVSB-ECBD-TSVM 為78.29%;AL+LCR_MD SSL 為86.20%,這在一定程度上降低了人工標(biāo)注成本。
本文建議的主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)協(xié)同方法,在主動(dòng)學(xué)習(xí)過(guò)程中采用了基于不確定性和差異性的采樣策略,確保選擇既有信息量又有代表性的有價(jià)值樣本;在半監(jiān)督學(xué)習(xí)選擇偽標(biāo)簽樣本時(shí),通過(guò)半監(jiān)督學(xué)習(xí)采樣策略,選擇了對(duì)當(dāng)前SVM 分類器的分類面產(chǎn)生重要影響的未標(biāo)簽樣本,既具有一定的信息量,又去掉了大量冗余樣本;在兩者協(xié)同中,通過(guò)主動(dòng)學(xué)習(xí)分類結(jié)果和半監(jiān)督分類結(jié)果的一致性驗(yàn)證過(guò)程保證了所加入偽標(biāo)簽樣本的正確性,所以相對(duì)其他的結(jié)合方法該協(xié)同方法可以完成更快地收斂,并獲得更高的分類精度,適用于海冰遙感圖像分類。圖5 的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的優(yōu)勢(shì)。
4.3.3 基于CATSVM 算法的海冰分類結(jié)果
為了更清晰地展示CATSVM 方法對(duì)海冰分類的效果,本文對(duì)格陵蘭島巴芬灣海域進(jìn)行海冰分類實(shí)驗(yàn),分類結(jié)果如圖6 所示。表5 是CATSVM 方法與4 種主動(dòng)學(xué)習(xí)方法和其他AL+SSL 方法的Kappa 系數(shù)對(duì)比。從表5 可以看出,AL+SSL 方法的的Kappa 系數(shù)整體上高于單獨(dú)采用AL 方法,而本文所提CATSVM 方法的Kappa 系數(shù)高于其他所有方法,也就是說(shuō)CATSVM 方法得到的分類結(jié)果與基準(zhǔn)圖像具有更高的一致性,進(jìn)一步驗(yàn)證了該方法的有效性。
本實(shí)驗(yàn)中海冰分類的總體分類精度可達(dá)90.003%,最終的Kappa 系數(shù)為0.697。該結(jié)果表明本文建議的方法通過(guò)協(xié)同主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法,充分利用了兩者的優(yōu)勢(shì),可以獲得較好的分類效果,有效用于遙感海冰圖像分類。
圖 6 原始高光譜圖像(a),Landsat-8 驗(yàn)證數(shù)據(jù)類別圖(b),CATSVM 算法的分類結(jié)果圖(c)Fig. 6 Hyperspectral image (a), result of the classification of the Landsat-8 data (b), result of the classification of CATSVM algorithm (c)
表 5 CATSVM 方法和其他方法的最終Kappa 系數(shù)結(jié)果Table 5 The final Kappa coefficient result of the CATSVM method and other methods
4.4.1 CATSVM 與AL 方法的分類精度對(duì)比
圖7 是在相同數(shù)量的標(biāo)簽訓(xùn)練樣本條件下,CATSVM 方法和其他4 種主動(dòng)學(xué)習(xí)方法進(jìn)行10 次實(shí)驗(yàn)的平均分類精度結(jié)果對(duì)比。從該圖中可以看出,4 種主動(dòng)學(xué)習(xí)方法都可以利用少量標(biāo)簽樣本,通過(guò)查詢函數(shù)獲得代表性樣本進(jìn)行人工標(biāo)注,從而提高分類精度。雖然4 種主動(dòng)學(xué)習(xí)方法最終精度結(jié)果幾乎相同,但是不同主動(dòng)學(xué)習(xí)方法的采樣策略不同,選取出的樣本信息量和代表性也有所不同,因此在前面10 次迭代過(guò)程中它們的分類性能存在的差異明顯。
由圖7 可見,對(duì)比其他主動(dòng)學(xué)習(xí)方法,CATSVM 方法可以達(dá)到更高的分類精度和更快的收斂速度。例如,CATSVM 方法在迭代到第6 次時(shí)分類精度達(dá)到93.22%,基本達(dá)到收斂;而在第6 次迭代時(shí),其他4 種方法的分類精度分別為:MCLU-ECBD 方法為90.67%,BVSB-ECBD 方法為90.30%,BVSB 方法為89.79%,ENTROPY 方法為89.17%。從最終的分類結(jié)果來(lái)看,CATSVM 方法比其他主動(dòng)學(xué)習(xí)方法要高出2%。
該實(shí)驗(yàn)結(jié)果再次驗(yàn)證了本文所提CATSVM 方法的主動(dòng)學(xué)習(xí)策略可以選擇更加有代表性的樣本參與訓(xùn)練,同時(shí)可以充分利用大量未標(biāo)簽樣本所包含的豐富信息,相比單獨(dú)采用主動(dòng)學(xué)習(xí)方法,可以獲得更好的分類性能。
圖 7 遼東灣數(shù)據(jù)CATSVM 與AL 方法總體分類精度對(duì)比Fig. 7 Average classification accuracy for CATSVM and AL methods of the Liaodong Bay data
圖 8 遼東灣數(shù)據(jù)CATSVM 方法和其他AL+SSL 方法的總體分類精度對(duì)比Fig. 8 Average classification accuracy between CATSVM and other AL+SSL methods of the Liaodong Bay data
4.4.2 CATSVM 與AL+SSL 方法的分類精度對(duì)比
圖8 是在相同數(shù)量的標(biāo)簽訓(xùn)練樣本條件下CATSVM方法和其他主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)相結(jié)合方法的分類精度結(jié)果對(duì)比。從圖中我們可以看出,CATSVM 方法相對(duì)于其他結(jié)合方法具有較明顯的優(yōu)勢(shì),該方法所得精度結(jié)果迭代到第6 次就基本收斂,并且隨著迭代次數(shù)的增加,精度十分穩(wěn)定。CASSL 方法雖然收斂速度和CATSVM 方法相近,但是在迭代到第5 次后,精度有所下降并趨于穩(wěn)定,這是由于CASSL方法在利用大量未標(biāo)簽樣本時(shí)沒有去冗余的過(guò)程,導(dǎo)致最終的精度結(jié)果會(huì)低于CATSVM 方法;BVSBECBD-TSVM 方法隨著迭代次數(shù)的增加,精度逐步提升,但是因?yàn)槿狈︱?yàn)證機(jī)制導(dǎo)致可能加入一些錯(cuò)誤的偽標(biāo)簽樣本,從而導(dǎo)致該方法的收斂速度較慢,并且最終的分類精度偏低;AL+LCR_MD SSL 方法雖然比其他3 種AL+SSL 方法的初始分類精度高,但是該方法利用標(biāo)簽變化率從相對(duì)確定的樣本中選擇出來(lái)的類中心樣本并不一定能影響當(dāng)前分類器的分類面,并且有可能添加標(biāo)簽錯(cuò)誤的樣本影響分類器的性能,精度結(jié)果相對(duì)較差,最終的精度只有91.47%。
從圖8 的實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法從總體上獲得了較好的性能,CATSVM 方法不但收斂速度較快,并且可以獲得更高的分類精度。CATSVM 在迭代到第6 次時(shí),精度基本達(dá)到收斂,隨著迭代次數(shù)的增加精度十分穩(wěn)定,最終分類精度為93.29%,而迭代6 次時(shí),CASSL 的精度為92.72%,BVSBECBD-TSVM 的精度為91.09%,AL+LCR_MD SSL 的精度為91.45%。
圖8 的實(shí)驗(yàn)結(jié)果再次驗(yàn)證了CATSVM 方法的優(yōu)勢(shì)。相對(duì)其他的結(jié)合方法該協(xié)同方法可以實(shí)現(xiàn)較快地收斂,并獲得更高的分類精度,適用于海冰遙感圖像分類。
4.4.3 遼東灣數(shù)據(jù)海冰分類結(jié)果
為了進(jìn)一步展示CATSVM 方法對(duì)海冰分類的效果,本文對(duì)遼東灣部分海域進(jìn)行海冰分類實(shí)驗(yàn),分類結(jié)果如圖9 所示。表6 是CATSVM 方法與4 種主動(dòng)學(xué)習(xí)方法和其他AL+SSL 方法的Kappa 系數(shù)對(duì)比。從表中可以看出,CATSVM 的Kappa 系數(shù)高于其他方法,該方法得到的分類結(jié)果與基準(zhǔn)圖像具有更高的一致性,進(jìn)一步驗(yàn)證了該方法的有效性。
遼東灣數(shù)據(jù)中海冰分類的總體分類精度可達(dá)93.29%,最終的Kappa 系數(shù)為0.907。該結(jié)果再次表明本文建議的方法通過(guò)協(xié)同主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法,獲得較好的分類效果,可以有效用于遙感海冰圖像分類。
圖 9 原始Landsat-8 海冰圖像(a),Google Earth 驗(yàn)證數(shù)據(jù)類別(b),CATSVM 方法的分類結(jié)果(c)Fig. 9 Landsat-8 image(a), result of the classification of the Google Earth data (b), result of the classification of CATSVM algorithm (c)
表 6 CATSVM 方法和其他方法的最終Kappa 系數(shù)結(jié)果Table 6 The final Kappa coefficient result of the CATSVM method and other methods
針對(duì)海冰遙感圖像分類中標(biāo)注成本較高、標(biāo)簽樣本難以獲取及海冰分類精度較低等問(wèn)題,本文提出了一種新的協(xié)同主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的分類算法方法用于海冰遙感圖像分類,并將本文提出的方法與其他主動(dòng)學(xué)習(xí)方法、主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)相結(jié)合方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,相比其他方法,本文建議的CATSVM 方法可以通過(guò)少量的標(biāo)簽樣本,有效利用大量包含豐富信息的未標(biāo)簽樣本,總體上獲得較優(yōu)的分類性能,具體總結(jié)如下:
(1)主動(dòng)學(xué)習(xí)可以利用較少的未標(biāo)簽訓(xùn)練樣本,自動(dòng)選擇一批信息含量豐富且有代表性的樣本進(jìn)行標(biāo)注,提高了分類器精度。但是不同的主動(dòng)學(xué)習(xí)方法因采樣策略不同,導(dǎo)致最終的分類精度表現(xiàn)出一定的差異性,本文建議的方法在主動(dòng)學(xué)習(xí)部分采用BVSB 不確定采樣策略、SOM 神經(jīng)網(wǎng)絡(luò)和ECBD 差異性采樣策略,能夠查詢處于樣本低密度區(qū)域具有豐富信息且在核空間中差異性較大的代表性樣本,并通過(guò)人工標(biāo)注加入標(biāo)簽樣本集中,是一種有效的主動(dòng)學(xué)習(xí)采樣策略。
(2)半監(jiān)督學(xué)習(xí)可以充分利用未標(biāo)簽樣本的分布信息進(jìn)一步提高分類精度。本文建議的方法在半監(jiān)督學(xué)習(xí)部分融合主動(dòng)學(xué)習(xí)采樣策略,并且利用TSVM從大量未標(biāo)簽樣本中選取相對(duì)可靠且包含一定信息量的樣本進(jìn)行迭代訓(xùn)練,可以進(jìn)一步減少標(biāo)注成本并提高分類精度。
(3)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)在減少人工標(biāo)注代價(jià)和提高分類精度方面具有內(nèi)在一致性,本文提出協(xié)同主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的CATSVM 分類框架,一方面利用主動(dòng)學(xué)習(xí)選擇最有價(jià)值的樣本加入到標(biāo)簽樣本集參與訓(xùn)練;另一方面可以有效的利用大量未標(biāo)簽樣本中包含的信息,并通過(guò)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的協(xié)同機(jī)制對(duì)加入分類模型的偽標(biāo)簽進(jìn)行驗(yàn)證,進(jìn)一步提高偽標(biāo)簽樣本的準(zhǔn)確率,實(shí)現(xiàn)在較小標(biāo)注成本的基礎(chǔ)上獲得較好的分類性能,達(dá)到較好的海冰分類效果,為海冰圖像分類提供了一種新的方法。