單嘉欣,龔智強(qiáng),鐘 平
?
高光譜目標(biāo)表述的不均衡數(shù)據(jù)多示例學(xué)習(xí)方法
單嘉欣,龔智強(qiáng),鐘 平
(國(guó)防科技大學(xué)電子科學(xué)學(xué)院,湖南 長(zhǎng)沙 410073)
高光譜目標(biāo)表述是高光譜目標(biāo)檢測(cè)中的核心問(wèn)題。在眾多高光譜目標(biāo)表述方法中,多示例學(xué)習(xí)方法(MIL)由于不需要精確的像素級(jí)語(yǔ)義標(biāo)簽等因素,而成為研究高光譜目標(biāo)表述的一個(gè)有效方法。但是,面向高光譜目標(biāo)表述的多示例學(xué)習(xí)方法中,存在正包內(nèi)目標(biāo)示例遠(yuǎn)少于背景示例的示例級(jí)數(shù)據(jù)不均衡問(wèn)題,導(dǎo)致學(xué)習(xí)到的目標(biāo)表述性能不佳。為此,提出一種面向不均衡數(shù)據(jù)的多示例學(xué)習(xí)方法,提取每個(gè)包中最可能為正的示例組成正示例集,以此為基礎(chǔ)合成新的正樣本,增加正樣本在正包中所占比例,改善高光譜目標(biāo)表述能力。在真實(shí)高光譜數(shù)據(jù)上驗(yàn)證所提方法的有效性,結(jié)果表明該方法使正包樣本組成更均衡,從而學(xué)習(xí)到更正確的目標(biāo)表述,提高目標(biāo)檢測(cè)的性能。
高光譜;目標(biāo)表述;多示例學(xué)習(xí);不均衡
高光譜遙感圖像目標(biāo)檢測(cè)在軍事和民用領(lǐng)域中都有廣闊的應(yīng)用前景,是當(dāng)前遙感信息處理研究中的一個(gè)熱點(diǎn)問(wèn)題。高光譜遙感目標(biāo)檢測(cè)主要利用目標(biāo)與背景地物在光譜特性上的差異來(lái)進(jìn)行檢測(cè)識(shí)別。高光譜圖像立方體數(shù)據(jù)具有高光譜分辨率、圖譜合一的觀測(cè)特性,數(shù)據(jù)中每個(gè)像元通過(guò)高分辨率光譜曲線表示[1],該像元光譜曲線包含目標(biāo)的診斷性光譜特征,可用于目標(biāo)的譜識(shí)別。然而,由于高光譜遙感圖像的空間分辨率一般不是很高,有些目標(biāo)在圖像中可能只占一個(gè)像元甚至是亞像元。由于可利用的信息相對(duì)有限,檢測(cè)這種亞像素目標(biāo)是高光譜圖像分析中的一個(gè)極具挑戰(zhàn)性的任務(wù)。目前針對(duì)亞像素目標(biāo)的檢測(cè)方法,多數(shù)需要目標(biāo)的表述光譜[2]。常見(jiàn)的目標(biāo)表述方法包括實(shí)驗(yàn)室測(cè)定、手持光譜測(cè)量?jī)x測(cè)量、直接從高光譜圖像中獲取。這些常見(jiàn)的目標(biāo)表述方法應(yīng)用到實(shí)際任務(wù)中存在以下難點(diǎn)[2]:①實(shí)驗(yàn)室和手持光譜儀測(cè)定的目標(biāo)光譜曲線不能考慮大氣等因素對(duì)成像的影響,與實(shí)際應(yīng)用場(chǎng)景中的目標(biāo)光譜曲線差異大;②結(jié)合現(xiàn)場(chǎng)標(biāo)定和高光譜圖像獲取的目標(biāo)表述,由于現(xiàn)有測(cè)量條件(如GPS)的定位精確度有限,不能精確獲得目標(biāo)的像素級(jí)語(yǔ)義標(biāo)簽,從而不能精確地從圖像中提取出目標(biāo)的表述光譜曲線;③通過(guò)手動(dòng)從圖像中選取目標(biāo)的表述,也因?yàn)槿庋酆茈y辨認(rèn)出處于亞像素級(jí)的目標(biāo)而無(wú)法得到良好的目標(biāo)表述光譜。
近年來(lái)出現(xiàn)的多示例學(xué)習(xí)方法,只需要包級(jí)的訓(xùn)練樣本,不需要精確的示例(像素)級(jí)標(biāo)記樣本。因此可以解決上述常見(jiàn)目標(biāo)表述方法面臨的問(wèn)題。在多示例學(xué)習(xí)方法中,訓(xùn)練樣本是一個(gè)個(gè)由多個(gè)示例組成的包,按照包中有無(wú)目標(biāo)示例分為正包和負(fù)包。包中只要有一個(gè)目標(biāo)示例,則該包為正包;包中若全部為非目標(biāo)示例,則該包為負(fù)包[3]。不精確標(biāo)簽中估計(jì)目標(biāo)類(lèi)概念的多示例學(xué)習(xí)方法稱(chēng)為多示例概念學(xué)習(xí)(multiple instance concept learning,MICL)方法[2]。文獻(xiàn)[4]提出的多樣性密度(diversity density,DD)算法是第一個(gè)用于多示例學(xué)習(xí)的概率模型,本文方法則以該算法為基礎(chǔ)。
DD算法尋找屬性空間中多樣性密度最大的點(diǎn)作為最佳正目標(biāo)點(diǎn)。多樣性密度最大的點(diǎn)應(yīng)盡可能的與更多的正包距離相近,與更多的負(fù)包距離相遠(yuǎn)。多樣性密度的一般定義為
其中,(|B)為點(diǎn)B和目標(biāo)點(diǎn)的親近度估計(jì),即一個(gè)示例為正的概率;相應(yīng)地,1–(|B)為一個(gè)示例為負(fù)的概率。此外還有多樣性密度算法與期望最大化方法結(jié)合形成的EM-DD算法[5]、基于字典的多示例學(xué)習(xí)方法[6-7]、多示例學(xué)習(xí)拓展函數(shù)[8-9]等多示例概念學(xué)習(xí)方法。
多示例學(xué)習(xí)用于高光譜圖像目標(biāo)表述的優(yōu)勢(shì)在于:①多示例學(xué)習(xí)的輸入為實(shí)際的高光譜圖像,可以在學(xué)習(xí)到的高光譜目標(biāo)表述中充分考慮各種成像條件,解決通過(guò)實(shí)驗(yàn)室測(cè)定和手持光譜儀測(cè)定的目標(biāo)光譜曲線與實(shí)際應(yīng)用場(chǎng)景中目標(biāo)光譜曲線差異大的問(wèn)題;②多示例學(xué)習(xí)方法引入包的概念,將包作為訓(xùn)練數(shù)據(jù),不需要示例級(jí)的目標(biāo)語(yǔ)義標(biāo)記,因此可以解決常見(jiàn)從圖像中獲取目標(biāo)表述面臨的不精確定位和不能分辨亞像素目標(biāo)的問(wèn)題。
基于多示例學(xué)習(xí),一種實(shí)際可行的目標(biāo)表述工作流程為:首先人工選定可能包含表述目標(biāo)的圖像塊作為正包,然后選擇若干確定不含目標(biāo)的圖像塊作為負(fù)包,最后通過(guò)多示例學(xué)習(xí)方法得到目標(biāo)的表述。這種工作流程中,由于考慮的目標(biāo)可能尺寸很小,甚至是子像素目標(biāo),導(dǎo)致正包中目標(biāo)示例較少,而大多是背景(負(fù))樣本,使多示例學(xué)習(xí)面臨訓(xùn)練數(shù)據(jù)不均衡問(wèn)題。針對(duì)傳統(tǒng)的單示例學(xué)習(xí)方法面臨的不均衡問(wèn)題,已經(jīng)提出很多解決方法[10];針對(duì)多示例分類(lèi)學(xué)習(xí)方法面臨的數(shù)據(jù)不均衡問(wèn)題,有少量相關(guān)研究[11]。但在面向高光譜目標(biāo)表述的多示例學(xué)習(xí)方法的數(shù)據(jù)不均衡問(wèn)題上,仍缺乏相關(guān)解決方案。
本文在高光譜目標(biāo)表述的多示例學(xué)習(xí)方法的基礎(chǔ)上,提出示例級(jí)不均衡問(wèn)題的解決方案,即不均衡數(shù)據(jù)多示例學(xué)習(xí)方法。通過(guò)為正包合成新的正示例,增大正示例在正包中所占比例,使得正包中正負(fù)樣本均衡,從而改善高光譜目標(biāo)表述能力,提高高光譜目標(biāo)檢測(cè)性能。本文在MUUFL Gulfport實(shí)測(cè)高光譜數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法能均衡正負(fù)樣本,并學(xué)習(xí)到性能優(yōu)異的目標(biāo)表述,進(jìn)而改善檢測(cè)性能。
本文提出的不均衡多示例高光譜目標(biāo)表述工作流程如圖1所示,首先專(zhuān)家從訓(xùn)練高光譜數(shù)據(jù)中提取出正包和負(fù)包樣本;然后估計(jì)每個(gè)正包中最可能為正的示例,為每個(gè)正包合成新的正樣本,將新的正樣本分別加入相應(yīng)正包中;再應(yīng)用多示例學(xué)習(xí)方法對(duì)新組成的樣本數(shù)據(jù)學(xué)習(xí)目標(biāo)表述;最后將目標(biāo)的表述光譜和對(duì)應(yīng)的檢測(cè)器對(duì)測(cè)試數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè),所得結(jié)果經(jīng)專(zhuān)家判斷,若符合預(yù)期目標(biāo),則將得到該結(jié)果的目標(biāo)表述光譜存入目標(biāo)光譜數(shù)據(jù)集中。這種人機(jī)交互的不均衡數(shù)據(jù)多示例高光譜目標(biāo)表述方法的優(yōu)勢(shì)在于:①可以創(chuàng)建特定場(chǎng)景下的目標(biāo)表述光譜數(shù)據(jù)集;②可以學(xué)習(xí)到針對(duì)特定檢測(cè)器檢測(cè)性能最優(yōu)的目標(biāo)表述;③應(yīng)用不均衡數(shù)據(jù)算法改善正包中正負(fù)樣本不均衡問(wèn)題。下面分別介紹本文提出的不均衡數(shù)據(jù)多示例學(xué)習(xí)目標(biāo)表述方法中最重要的兩個(gè)步驟:多示例目標(biāo)表述和均衡數(shù)據(jù)方法。
圖1 不均衡多示例高光譜目標(biāo)表述人機(jī)交互流程
本文主要采用最近針對(duì)光譜匹配濾波器(spectral matched filter,SMF)和自適應(yīng)余弦估計(jì)器(adaptive cosine estimator,ACE)提出的多示例高光譜目標(biāo)表述方法,即MI-ACE和MI-SMF算法[2]。與多樣性密度算法相似,MI-ACE和MI-SMF都是估計(jì)目標(biāo)概念的方法,但其不是用歐式距離來(lái)測(cè)量示例和所估計(jì)目標(biāo)概念間的相似性,而是使用了余弦相似度,余弦相似度在目標(biāo)特征為亞像素的情況下更具魯棒性[2]。此外,該方法結(jié)合相應(yīng)的高光譜目標(biāo)檢測(cè)器對(duì)目標(biāo)進(jìn)行表述,針對(duì)不同檢測(cè)器的不同特點(diǎn)得到最適用于相應(yīng)檢測(cè)器的目標(biāo)表述。
目標(biāo)檢測(cè)問(wèn)題通常轉(zhuǎn)化為假設(shè)檢驗(yàn)問(wèn)題來(lái)處理,然后通過(guò)廣義似然比測(cè)試法[12]設(shè)計(jì)檢測(cè)器。本文采用的SMF檢測(cè)器表示為
本文從高光譜數(shù)據(jù)預(yù)處理角度,提出一種基于數(shù)據(jù)過(guò)采樣的不均衡數(shù)據(jù)多示例學(xué)習(xí)方法。其核心思想為:首先應(yīng)用Parzen窗函數(shù)法求得正包中每個(gè)示例為正的概率,將每個(gè)包中最可能為正的示例取出組成一個(gè)正示例集;然后以此正示例集為基礎(chǔ)合成新的正樣本,并將新的正樣本分別加入原有正包中形成新的正包,從而增大正包中正樣本所占比例,改善由于數(shù)據(jù)不均衡而導(dǎo)致的高光譜目標(biāo)表述不準(zhǔn)確問(wèn)題,進(jìn)而提高光譜目標(biāo)檢測(cè)性能。均衡數(shù)據(jù)算法流程具體為:
1.3.1 Parzen窗函數(shù)法
1.3.2 新樣本合成
在求出正包中每個(gè)示例為正樣本的概率后,可以通過(guò)式(9)找到正包中最有可能為正樣本的示例
本文實(shí)驗(yàn)選擇的數(shù)據(jù)是MUUFL Gulfport高光譜數(shù)據(jù)集[13-14]。數(shù)據(jù)集測(cè)試地點(diǎn)為美國(guó)密西西比大學(xué)格爾夫波特校區(qū)。由于數(shù)據(jù)測(cè)試區(qū)域很多目標(biāo)被遮擋、數(shù)據(jù)目標(biāo)大小不一且含有大量亞像素目標(biāo),所以選擇該數(shù)據(jù)集做高光譜目標(biāo)表述與檢測(cè)極具挑戰(zhàn)性和代表性。高光譜圖像包括325×337個(gè)像素,共有72個(gè)波段,波長(zhǎng)范圍為367.7~1043.4 nm且光譜樣本間隔為9.5~9.6 nm,空間分辨率為1 m。數(shù)據(jù)庫(kù)包含在兩個(gè)不同時(shí)間段拍攝的兩套高光譜圖像數(shù)據(jù)(Gulfport Campus Flight1和Gulfport Campus Flight3)。拍攝區(qū)域RGB圖像如圖2所示。數(shù)據(jù)庫(kù)的前4個(gè)波段和后4個(gè)波段作為噪聲被去除。實(shí)驗(yàn)中的目標(biāo)是4種不同顏色的布?jí)K,共放置了64個(gè)人造目標(biāo),其中棕色目標(biāo)、黑綠色目標(biāo)、淡綠色目標(biāo)各15個(gè),偽造件綠色目標(biāo)12個(gè),本文取前3種顏色的目標(biāo)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集中的目標(biāo)大小多種多樣,區(qū)域中包含0.25 m2、1 m2、9 m2的目標(biāo),且處于亞像素級(jí)的0.25 m2目標(biāo)數(shù)量最多。由于用于記錄地表位置的GPS設(shè)備精確度為5 m,本文以所選3種顏色的每個(gè)目標(biāo)為中心擴(kuò)充大小為5×5的矩形正包。選取全部非目標(biāo)樣本為一個(gè)負(fù)包。實(shí)驗(yàn)采用normalized area under the receive operating characteristic curve (NAUC)衡量目標(biāo)檢測(cè)性能(間接衡量目標(biāo)表述方法的性能),其中區(qū)域被歸一化為1×10–3flase alarm/m2的虛警率(false alarm rate,F(xiàn)AR)。NAUC值為1對(duì)應(yīng)于零誤報(bào)率,即100%檢測(cè)率。
圖2 MUUFL Gulfport高光譜數(shù)據(jù)集RGB圖像
2.2.1 固定權(quán)值0.5
第一個(gè)實(shí)驗(yàn)中取權(quán)值為固定值0.5,通過(guò)式(10)均衡數(shù)據(jù)后的實(shí)驗(yàn)結(jié)果與原算法[15](不均衡數(shù)據(jù))實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表1 (效果好的數(shù)據(jù)已加粗)。
表1 本文方法同原始方法的NAUC值對(duì)比(固定權(quán)值0.5)
實(shí)驗(yàn)首先針對(duì)大小為0.25 m2、1 m2、9 m2的目標(biāo)分別進(jìn)行樣本擴(kuò)充,測(cè)試算法應(yīng)用于不同大小目標(biāo)的改進(jìn)效果,結(jié)果表明:在棕色類(lèi)型目標(biāo)的測(cè)試中,大小為0.25 m2的亞像素級(jí)目標(biāo)檢測(cè)效果提升最大,MI-SMF算法檢測(cè)率提高13%左右,MI-ACE算法從最初幾乎無(wú)法檢測(cè),到合成樣本后NAUC達(dá)到0.64。但黑綠色和淡綠色目標(biāo)由于被遮擋較多等因素,未能有明顯改善;大小為1 m2的全像素級(jí)目標(biāo)的測(cè)試中,3種目標(biāo)性能提升均很明顯,其中棕色目標(biāo)效果最佳,MI-SMF算法的NAUC從0.661提高到0.705,MI-ACE算法從0.098提高到0.704,其余兩種目標(biāo)也均有明顯性能提高。以上兩種情況說(shuō)明合成的新樣本有效,且通過(guò)提高正示例所占比例,亞像素級(jí)和大小為1 m2的像素級(jí)目標(biāo)的檢測(cè)效果明顯增強(qiáng)。但大小為9 m2的目標(biāo)實(shí)驗(yàn)中檢測(cè)效果無(wú)顯著變化,這是因?yàn)槟繕?biāo)尺寸較大,本身在正包中占有較大比例,數(shù)據(jù)不均衡問(wèn)題不明顯。
進(jìn)一步測(cè)試了提出的方法對(duì)不同尺寸目標(biāo)組合訓(xùn)練樣本的性能。首先同時(shí)選取大小為0.25 m2和1 m2的小目標(biāo)進(jìn)行測(cè)試,3種目標(biāo)效果都較好;考慮到人工選取目標(biāo)時(shí)一般只能看到像素級(jí)以上目標(biāo),同時(shí)選取大小為1 m2和9 m2的目標(biāo)進(jìn)行試驗(yàn),由于含有的9 m2目標(biāo)本身檢測(cè)效果較好,該情況合成新樣本沒(méi)有使得檢測(cè)效果有顯著增強(qiáng);最后選取大小為0.25 m2、1 m2和9 m2的目標(biāo)進(jìn)行測(cè)試時(shí),棕色和黑綠色目標(biāo)檢測(cè)效果有5%左右的提升,這是因?yàn)樽厣繕?biāo)中含有的亞像素級(jí)目標(biāo)使得合成新樣本有效,黑綠色目標(biāo)中大于亞像素級(jí)的目標(biāo)未被完全遮擋使得合成新樣本有效。淡綠色目標(biāo)檢測(cè)效果同原始多示例學(xué)習(xí)方法相似,這是由于淡綠色不同大小目標(biāo)均被遮擋較多導(dǎo)致的,同本文理論分析一致。
圖3所示為表1所示棕色目標(biāo)6組實(shí)驗(yàn)的ROC曲線圖,曲線下方面積值即為效果評(píng)估所用的NAUC值,其中MI-SMF/ACE-0代表不均衡數(shù)據(jù)的ROC曲線,MI-SMF/ACE-1代表均衡數(shù)據(jù)的ROC曲線,NAUC值相應(yīng)標(biāo)示在圖中。由ROC曲線圖可以看出,當(dāng)目標(biāo)大小為亞像素級(jí)和1 m2的單像素級(jí)時(shí),通過(guò)合成新示例可使目標(biāo)表述能力顯著增強(qiáng),目標(biāo)檢測(cè)效果顯著提升;而當(dāng)目標(biāo)較大且跨越多個(gè)像素時(shí),即使不合成新示例目標(biāo)表述效果也較好,通過(guò)合成新示例沒(méi)有明顯提高目標(biāo)表述能力,也沒(méi)能明顯提升目標(biāo)檢測(cè)效果。
圖3 提出方法同原始方法的ROC曲線
2.2.2 自適應(yīng)權(quán)值
第二個(gè)實(shí)驗(yàn)中取權(quán)值為自適應(yīng)值,權(quán)值通過(guò)公式(11)計(jì)算得到,通過(guò)公式(10)均衡數(shù)據(jù)后的實(shí)驗(yàn)結(jié)果與原算法[15](不均衡數(shù)據(jù))實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表2 (效果好的數(shù)據(jù)已加粗)。
表2 本文方法同原始方法的NAUC值對(duì)比(自適應(yīng)權(quán)值)
結(jié)合表1~2結(jié)果可知,自適應(yīng)權(quán)值在多數(shù)情況下與固定權(quán)值的實(shí)驗(yàn)效果類(lèi)似,少部分情況下自適應(yīng)權(quán)值的實(shí)驗(yàn)效果略差,這可能是因?yàn)槔碚撋线x取的最可能為正的示例與實(shí)際正示例有偏差導(dǎo)致的,但自適應(yīng)權(quán)值的方法在理論上更具容錯(cuò)性,在理論上和普適性上都更有價(jià)值。
綜上,針對(duì)尺寸較大的目標(biāo),本文算法取得同原始方法相似的性能;針對(duì)大小為1個(gè)像素以及亞像素的目標(biāo),本文通過(guò)合成少數(shù)類(lèi)樣本,增大正包中正示例數(shù)量,可以顯著提高目標(biāo)表述效果,進(jìn)而顯著提高亞像素級(jí)高光譜目標(biāo)檢測(cè)性能。
本文從面向高光譜目標(biāo)表述的多示例學(xué)習(xí)方法出發(fā),提出了不均衡數(shù)據(jù)多示例學(xué)習(xí)方法。通過(guò)合成少數(shù)類(lèi)樣本來(lái)增加正包中正示例占所有示例的比重,解決多示例學(xué)習(xí)方法中示例級(jí)數(shù)據(jù)不均衡問(wèn)題。真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,針對(duì)小目標(biāo)尤其是亞像素級(jí)目標(biāo)的高光譜表述,本文提出算法能夠顯著提高目標(biāo)表述和檢測(cè)的性能。
此外,多示例學(xué)習(xí)方法中,當(dāng)正包數(shù)過(guò)少,負(fù)包數(shù)過(guò)多時(shí),會(huì)出現(xiàn)包不均衡問(wèn)題,今后將對(duì)多示例高光譜目標(biāo)表述中的包不均衡問(wèn)題做進(jìn)一步研究。
[1] MANOLAKIS D, MARDEN D, SHAW G A. Hyperspectral image processing for automatic target detection applications [J]. Lincoln Laboratory Journal, 2003, 14(1): 79-116.
[2] ZARE A, JIAO C Z, GLENN T. Discriminative multiple instance hyperspectral target characterization [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018, 40(10): 2342-2354.
[3] DIETTERICH T G, LATHROP R H, LOZANO-PéREZ T. Solving the multiple instance problem with axis-parallel rectangles [J]. Artificial Intelligence, 1997, 89(1-2): 31-71.
[4] MARON O, LOZANO-PéREZ T. A framework for multiple-instance learning [C]//NIPS’97 Proceedings of the 1997 Conference on Advances in Neural Information Processing Systems.Cambridge: MIT Press, 1998: 570-576.
[5] ZHANG Q, GOLDMAN S A. EM-DD: an improved multiple-instance learning technique [C]//International Conference on Neural Information Processing Systems, Cambridge: MIT Press, 2001: 1073-1080.
[6] SHRIVASTAVA A, PILLAI J K, PATEL V M, et al. Dictionary-based multiple instance learning [C]//IEEE International Conference on Image Processing. New York: IEEE Press, 2015: 160-164.
[7] SHRIVASTAVA A, PATEL V M, PILLAI J K, et al. Generalized dictionaries for multiple instance learning [J]. International Journal of Computer Vision, 2015, 114(2-3): 288-305.
[8] ZARE A, GADER P. Pattern recognition using functions of multiple instances [C]//2010 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 1092-1095.
[9] ZARE A, GADER P, BOLTON J, et al. Sub-pixel target spectra estimation and detection using functions of multiple instances [C]//2011 3rd Worshop on Hyperspectral Image and Signal Processing: Evolution in Remote Sensing. New York: IEEE Press, 2011: 1-4.
[10] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[11] MERA C, OROZEO-ALZATE M, BRANCH J. Improving representation of the positive class in imbalanced multiple-instance-learning [C]// International Conference Image Analysis and Recognition. Berlin: Springer International Publishing, 2014: 266-273.
[12] KELLY E J. An adaptive detection algorithm [J]. IEEE Transactions on Aerospace & Electronic Systems, 2007, AES-22(2): 115-127.
[13] GADER P, ZARE A, CLOSE R, et al. MUUFL gulfport hyperspectral and LiDAR airborne data set. [EB/OL]. (2013-10-27) [2018-03-10]. http://engineers.missouri. edu/zarea/2013/10/muufl-gulfport-hyperspectral-and-lidar-data-collection/.
[14] DU X X, ZARE A. Scene label ground truth map for MUUFL gulfport data set [EB/OL]. (2017-04-17) [2018-03-11]. http://ufdc.ufl.edu/IR00009711/00001.
[15] GLENN T, ZARE A, GADER P. Bullwinkle: scoring code for sub-pixel targets [EB/OL]. (2016-05-21) [2018-03-11]. https://github.com/GatorSense/MUUFL Gulfport/.
Multiple Instance-Based Learning Method for Imbalanced Data in Hyperspectral Target Representation
SHAN Jiaxin, GONG Zhiqiang, ZHONG Ping
(College of Electrical Science and Engineering, National University of Defense Technology, Changsha Hunan 410073, China)
Target representation is the key process for hyperspectral target detection. Many methods have been proposed for better target representation. Among these methods, multiple instance-based learning method (MIL) is an effective one as it does not require pixel-level semantic labels. However, traditional MIL-based hyperspectral target representation methods usually cause the instance-level data imbalance because of the limited target instances and too many background instances in positive bags, leading to poor performance on hyperspectral target representation. To overcome this problem, a data imbalanced multiple instance learning-based method is proposed in this paper. First, a positive sample set with the most probably positive sample in each package will be constructed; then, new positive samples will be synthetized to increase the proportion of positive samples in the positive packages, balancing the positive and negative samples in positive packages, improving the representational ability. Experiments over real-world hyperspectral dataset validate the effectiveness of the proposed method and the experiment results show that the proposed method can enforce the balance of the positive packages and learn target representation more accurately which improves the target detection performance.
hyperspectral; target representation; multiple instance learning; imbalance
TP 391
10.11996/JG.j.2095-302X.2018061028
A
2095-302X(2018)06-1028-08
2018-04-16;
2018-06-14
國(guó)家自然科學(xué)基金項(xiàng)目(61671456)
單嘉欣(1995-),女,黑龍江哈爾濱人,碩士研究生。主要研究方向?yàn)閳D形與圖像處理技術(shù)。E-mail:shanjiaxin123@126.com
鐘 平(1970-),男,四川內(nèi)江人,副教授,博士。主要研究方向?yàn)閳D形與圖像處理技術(shù)。E-mail:zhongping@nudt.deu.cn