葉志鵬,賈 睿,楊 勇,齊 歡,梁 浩
(北京宇航系統(tǒng)工程研究所,北京 100076)
近年來,智能航天器正在越來越多地吸引航天從業(yè)者的關(guān)注[1]。圖像識別是航天器智能化的主要條件之一,同時(shí)也是計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和模式識別等領(lǐng)域的重要研究課題。隨著計(jì)算技術(shù)及圖像傳感器的快速發(fā)展,拓展了圖像采集方式并促進(jìn)了視覺領(lǐng)域的發(fā)展,越來越多的設(shè)備具有了獲取圖像的能力,掀起了設(shè)備智能化的浪潮。然而,受限于當(dāng)前航天器中飛控機(jī)的計(jì)算能力,目前流行的深度學(xué)習(xí)模型通常需要海量的數(shù)據(jù)和存儲空間以及大量的計(jì)算資源進(jìn)行長時(shí)間的模型訓(xùn)練,若在航天器中應(yīng)用,需要專用計(jì)算設(shè)備,增加了航天器的成本和起飛質(zhì)量。同時(shí),空間場景隨著時(shí)間推移千變?nèi)f化,通過解決快速在線訓(xùn)練問題,能夠使航天器具有自主目標(biāo)識別的能力,對空間環(huán)境具有更好的適應(yīng)性。因此,在軟件層面提出一種能夠根據(jù)實(shí)際應(yīng)用靈活調(diào)整的快速圖像分類方法是十分必要的。
計(jì)算機(jī)視覺是實(shí)現(xiàn)機(jī)器智能的基本途徑,其基本載體為圖像。計(jì)算技術(shù)及圖像傳感器的快速發(fā)展為圖像的獲取與分享提供了極大的便利,圖像數(shù)據(jù)的規(guī)模呈現(xiàn)爆發(fā)式增長。從行星光學(xué)圖像獲取到深空探測,從視頻監(jiān)控到預(yù)警偵察,圖像及圖像處理技術(shù)無所不在。
圖像分類是計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的熱門領(lǐng)域之一,在航天領(lǐng)域也得到了廣泛的應(yīng)用[2-5]。圖像分類的過程如圖1所示。圖像分類由分類器學(xué)習(xí)和測試兩部分組成。學(xué)習(xí)時(shí),利用由圖像中提取的特征信息訓(xùn)練分類器,形成分類規(guī)則。測試時(shí),每個(gè)待識別樣本均被描述為一組特征矢量,分類器根據(jù)學(xué)習(xí)到的分類規(guī)則判斷特征矢量的類別。因此,圖像分類可以看作是完成“特征空間”到“類別空間”映射的過程。
圖像分類經(jīng)過多年的發(fā)展,提出了很多有效的學(xué)習(xí)模型[6],包括BP網(wǎng)絡(luò)[7]、支持向量機(jī)[8]和深度學(xué)習(xí)網(wǎng)絡(luò)[9]等。BP網(wǎng)絡(luò)利用樣本集訓(xùn)練網(wǎng)絡(luò),從而獲取其中的規(guī)律,能夠以任意精度擬合任意函數(shù),且學(xué)習(xí)規(guī)則簡單易實(shí)現(xiàn),獲得了廣泛的應(yīng)用。但神經(jīng)網(wǎng)絡(luò)也具有明顯的缺點(diǎn),如訓(xùn)練效果受限于網(wǎng)絡(luò)規(guī)模、參數(shù)設(shè)置理論不完善,導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂速度滿、分類性能受過擬合效應(yīng)影響。由于這些問題難以克服,相關(guān)研究的熱度逐漸降低,研究人員的目光投向了支持向量機(jī)。支持向量機(jī)利用和函數(shù)通過映射的方式對非線性問題進(jìn)行分類。支持向量機(jī)的優(yōu)點(diǎn)在于具有完備的理論基礎(chǔ),并且適用于小樣本學(xué)習(xí)問題,同時(shí)具有較高的學(xué)習(xí)效率,因此自提出以來得到了廣泛的應(yīng)用。上述兩種分類模型均為有監(jiān)督學(xué)習(xí)模型,不足之處在于進(jìn)行學(xué)習(xí)的前提是需要專家提供樣本的類別信息。深度學(xué)習(xí)方法是對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法的再發(fā)展,在語音識別、人工智能等領(lǐng)域取得了很多舉世矚目的成就,是目前圖像分類領(lǐng)域最前沿的研究內(nèi)容之一,深度學(xué)習(xí)方法認(rèn)為多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度可以通過無監(jiān)督方式有效克服。深度學(xué)習(xí)可通過學(xué)習(xí)深層非線性神經(jīng)網(wǎng)絡(luò),將低等級特征映射到更高等級形式的特征,并從中學(xué)習(xí)具有層次結(jié)構(gòu)的特征,不僅保留了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近復(fù)雜函數(shù)的優(yōu)點(diǎn),而且解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法參數(shù)調(diào)校的難題和容易出現(xiàn)的過擬合問題,顯著提高了圖像分類的準(zhǔn)確性,自提出以來得到了學(xué)術(shù)界廣泛重視,各類研究與應(yīng)用層出不窮。但是深度學(xué)習(xí)的缺點(diǎn)也十分明顯。首先,深度學(xué)習(xí)方法弱化了圖像特征提取,導(dǎo)致學(xué)習(xí)過程需要海量的數(shù)據(jù)才能夠獲取較為滿意的結(jié)果,學(xué)習(xí)效率較低;其次,學(xué)習(xí)過程需要耗費(fèi)大量的計(jì)算資源,具有極高的時(shí)間和空間復(fù)雜度,很難在資源受限的箭載計(jì)算機(jī)上部署,通常需要額外的專用硬件才能夠完成分類任務(wù),增加了飛行成本。
本文針對航天器圖像分類問題,結(jié)合聚類和支持向量機(jī)給出了一種箭載計(jì)算機(jī)圖像分類器快速學(xué)習(xí)方法。
本文針對圖像分類器學(xué)習(xí)問題,提出了一種快速分類器訓(xùn)練方法,弱化了有監(jiān)督學(xué)習(xí)方法對于樣本類別的依賴性。首先,利用聚類方法將未標(biāo)注樣本集根據(jù)樣本相似性聚成n個(gè)散列桶,進(jìn)行標(biāo)注后利用散列桶中的樣本有針對性地訓(xùn)練支持向量機(jī)并完成細(xì)分類獲取圖像的具體類別。具體過程如圖2所示。
圖2 快速學(xué)習(xí)過程Fig.2 The fast learning process
樣本分類過程如圖3所示,利用上述學(xué)習(xí)過程訓(xùn)練好的分類模型估計(jì)待分類樣本集中每個(gè)樣本的類別,獲取圖像標(biāo)簽。
圖3 樣本分類過程Fig.3 Sample classification process
本文采用分類法,通過聚類方法將相似的圖像散列到一個(gè)桶中,從而提高分類器的訓(xùn)練效率。圖像間的相似性利用結(jié)構(gòu)相似性(structural similarity, SSIM)度量[10]。將圖像看作兩個(gè)二維矩陣,對于兩幅圖像x和y,μx和μy為其平均亮度,σx和σy為標(biāo)準(zhǔn)差,σxy為協(xié)方差。C1、C2為常數(shù)。
(1)
聚類分析是一種無監(jiān)督學(xué)習(xí)方法,即根據(jù)一定的度量方法將無標(biāo)簽輸入樣本數(shù)據(jù)集合劃分為若干個(gè)子集的過程。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)正變得越來越易得。對于圖像樣本,可利用爬蟲程序[11]輕易獲取大規(guī)模的數(shù)據(jù)集。然而,數(shù)據(jù)的標(biāo)注通常是枯燥和昂貴的,導(dǎo)致采用有標(biāo)注樣本訓(xùn)練分類器的有監(jiān)督學(xué)習(xí)方法通常面臨樣本量不足的問題。因此,無監(jiān)督學(xué)習(xí)方法應(yīng)運(yùn)而生,較為著名的方法包括聚類分析和部分深度學(xué)習(xí)方法。本文采用k-means作為聚類分析方法完成無標(biāo)記樣本集的無監(jiān)督學(xué)習(xí)。k-means算法的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡單,計(jì)算和存儲復(fù)雜度低,無需提供樣本類別標(biāo)簽即可進(jìn)行學(xué)習(xí)和分類。
在聚類問題中,給定訓(xùn)練樣本{x(1),x(2),…,x(m)},k-means算法按下述過程將樣本聚類成k個(gè)簇。在進(jìn)行散列時(shí),使用SSIM而非傳統(tǒng)的距離度量,能夠從均值(圖像亮度)、方差(圖像對比度)和圖像結(jié)構(gòu)3個(gè)層次比較圖像的相似性,與傳統(tǒng)距離度量相比能更有效地反映圖像間的相似度,提高了構(gòu)建的散列桶的質(zhì)量。
1)隨機(jī)選取k個(gè)聚類質(zhì)心點(diǎn)mj,j=1,…k;
2)重復(fù)下列過程直至所有質(zhì)心點(diǎn)均不再變化:
①對于每個(gè)樣例,計(jì)算其類別ci
②對于每個(gè)類j,重新計(jì)算該類的質(zhì)心
支持向量機(jī)是一種有監(jiān)督學(xué)習(xí)方法,定義為特征空間上間隔最大的線性分類器。給定一個(gè)訓(xùn)練集,SVM的目標(biāo)是從假設(shè)空間中找出一個(gè)能夠很好地?cái)M合該訓(xùn)練集的模型,從而獲得一個(gè)決策函數(shù)。分類時(shí),利用學(xué)習(xí)的模型估計(jì)待分類樣本的類別。SVM的學(xué)習(xí)策略是將非線性數(shù)據(jù)映射到高維空間,從而將非線性優(yōu)化問題轉(zhuǎn)換為線性優(yōu)化問題,進(jìn)而尋找高維空間中的最優(yōu)超平面。超平面是位于兩個(gè)類別中間、距離兩個(gè)類別樣本點(diǎn)距離相同,能夠?qū)⒉煌悇e分開的平面。SVM原理示意圖如圖4所示。
圖4 SVM分類原理示意圖Fig.4 Principle of SVM classification
對于一個(gè)兩類分類問題,用x表示數(shù)據(jù)點(diǎn),用y表示類別,y={+1,-1}。線性分類器的學(xué)習(xí)目標(biāo)是在n維數(shù)據(jù)空間中找到一個(gè)超平面,將兩類數(shù)據(jù)分開。該超平面可線性表示為
ωTx+b=0
(2)
對于樣本的分類問題,可通過判斷樣本屬于某個(gè)類別的概率進(jìn)行判別
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1-hθ(x)
(3)
其中,假設(shè)函數(shù)
(4)
若hθ(x)>0.5,則樣本屬于y=1的類別,反之屬于y=-1的類別。SVM學(xué)習(xí)的目標(biāo)是獲得θ,滿足上述可分條件。定義Lagrange函數(shù)
(5)
令θ=maxL(ω,b,α),通過Lagrange乘數(shù)法可求解滿足約束條件的θ,進(jìn)而可根據(jù)樣本屬于某一類別的概率判斷樣本的類別。
傳統(tǒng)分類器學(xué)習(xí)方法利用圖像數(shù)據(jù)集直接訓(xùn)練圖像分類器。本文針對航天器圖像分類問題,采用分治策略提出了一種分類器快速學(xué)習(xí)方法。學(xué)習(xí)時(shí)首先利用k-means方法利用結(jié)構(gòu)相似性度量將圖像樣本集散列為數(shù)個(gè)類別桶,每個(gè)圖像樣本都對應(yīng)到一個(gè)桶中。接下來對每個(gè)桶中的樣本訓(xùn)練一個(gè)SVM分類器進(jìn)行分類。該方法具有以下優(yōu)點(diǎn):1)能夠有效縮小訓(xùn)練樣本規(guī)模,提高分類器訓(xùn)練速度;2)同一桶內(nèi)的圖像樣本具有相似性,不同桶內(nèi)的圖像樣本具有較大差異,符合有監(jiān)督學(xué)習(xí)分類器訓(xùn)練原則。本文提出的方法與傳統(tǒng)分類方法的異同見圖5。
圖5 本文分類器學(xué)習(xí)方法與傳統(tǒng)方法的異同F(xiàn)ig.5 Difference between traditional and the proposed classifier learning methods dataset
為了充分評估訓(xùn)練模型的分類效果,本文使用了圖像分類領(lǐng)域流行的公開的數(shù)據(jù)集和自行收集的航天器圖像數(shù)據(jù)集以全面考核分類效果。公開數(shù)據(jù)集包括PASCAL VOC 2007[12]和Caltech-101[13],各數(shù)據(jù)集均包含目標(biāo)類別的標(biāo)注信息用于訓(xùn)練分類器。PASCAL VOC為圖像識別和分類提供了一整套標(biāo)準(zhǔn)化的優(yōu)秀數(shù)據(jù),自2005年起每年舉辦圖像識別挑戰(zhàn)賽,吸引了國內(nèi)外頂尖高校的參與,各種新方法和新模型層出不窮,為圖像分類的進(jìn)步做出了卓越貢獻(xiàn)。PASCAL VOC 2007數(shù)據(jù)集具有完整詳細(xì)的標(biāo)注信息,包含20個(gè)類別9963幅圖像。其中大部分類別包含50幅以上的圖像數(shù)據(jù),每幅圖像的尺寸約為300×200。Caltech-101數(shù)據(jù)集于2003年由目前計(jì)算機(jī)視覺領(lǐng)域領(lǐng)軍人物L(fēng)i Fei-fei等創(chuàng)建,數(shù)據(jù)集組織良好,標(biāo)注精確,是目前廣為使用的圖像分類性能評估數(shù)據(jù)集之一,包含101個(gè)類別共9146幅圖像。航天器圖像數(shù)據(jù)集包括常見的5種類型航天器共計(jì)100幅圖像,全部圖像收集自公開的互聯(lián)網(wǎng)圖像。測試用DSP為8核心,每個(gè)核心可使用1GB內(nèi)存,時(shí)鐘頻率為800MHz。
實(shí)驗(yàn)時(shí)將各數(shù)據(jù)集平均分為訓(xùn)練集和測試集。3種數(shù)據(jù)集的部分樣本示例見圖6。通過實(shí)驗(yàn)分別對比了單獨(dú)采用k-means、SVM和本文所提出的分類器學(xué)習(xí)方法以證明所提方法的有效性。SVM分類器采用LIBLINEAR SVM實(shí)現(xiàn)[14]。
圖6 圖像數(shù)據(jù)集部分樣本示例Fig.6 Samples of image datasets
各數(shù)據(jù)集總體分類結(jié)果見表1,分類性能以均值平均精度(mean average precision, MAP)表示
(6)
表1 各測試數(shù)據(jù)集分類結(jié)果
從表1結(jié)果可以看出,本文提出的分類器學(xué)習(xí)方法訓(xùn)練的分類器效果優(yōu)于k-means與SVM分別單獨(dú)分類的效果,證明了本文提出的粗分類與細(xì)分類結(jié)合方法是有效的。
圖7~圖8以混淆矩陣的形式給出了本文所提分類方法在PASCAL VOC 2007和航天器數(shù)據(jù)集的詳細(xì)分類結(jié)果,圖中小于5%的數(shù)值均未顯示以保證清晰性。對于Caltech-101數(shù)據(jù)集,由于類別數(shù)較多,因此依照慣例給出分類的MAP。從圖中可以清楚地看出本文所提出的分類方法各類別的分類正確率及樣本誤分類情況。
圖7 本文方法在PASCAL VOC 2007數(shù)據(jù)集的詳細(xì)分類結(jié)果Fig.7 Detailed classfication results of the proposed method on PASCAL VOC 2007
圖8 本文方法在航天器數(shù)據(jù)集的詳細(xì)分類結(jié)果Fig.8 Detailed classfication results of the proposed method on spacecraft dataset
表2和表3分別給出了上述方法實(shí)時(shí)性比較結(jié)果。為方便比較,以本文所提方法作為比較的參考值。其中t1=30814.5s,t2=48542.8s,t3=1842.7s;t4=37.51ms,t5=40.12ms,t6=34.46ms。從表中結(jié)果可以看出,本文采用的先聚類后分類策略訓(xùn)練耗時(shí)和分類性能優(yōu)于僅采用SVM作為分類器的情況。數(shù)據(jù)集越復(fù)雜,樣本類別越多,差異越明顯。同時(shí),處理一幅圖像的時(shí)間穩(wěn)定在33.33ms(30幀/s)和41.67ms(24幀/s)之間,能夠滿足實(shí)時(shí)性要求。結(jié)合表1的分類結(jié)果可以看出,本文采用的分類方法與k-means分類方法相比,在PASCAL VOC 2007數(shù)據(jù)集的訓(xùn)練耗時(shí)增加54%、分類性能提高了19.1%,Caltech-101數(shù)據(jù)集訓(xùn)練耗時(shí)增加43%、分類性能提高了27.7%,航天器數(shù)據(jù)集訓(xùn)練耗時(shí)增加32%、分類性能提高了20.8%。雖然與k-means相比訓(xùn)練耗時(shí)增加,但依然能夠滿足實(shí)時(shí)性約束,并且顯著提高了分類性能。因此本文提出的方法是有效的,能夠滿足應(yīng)用要求。
表2 各方法訓(xùn)練實(shí)時(shí)性比較(訓(xùn)練耗時(shí))
表3 各方法分類實(shí)時(shí)性比較(分類耗時(shí))
本文提出了一種航天器圖像分類器快速學(xué)習(xí)方法。該方法利用分治策略,通過在聚類方法中引入相似性度量構(gòu)建圖像桶,從而有針對性地訓(xùn)練分類器,能夠?qū)崿F(xiàn)圖像分類器的快速學(xué)習(xí)與分類。通過實(shí)驗(yàn)結(jié)果可以看出,與傳統(tǒng)方法相比,本文所提方法在滿足實(shí)時(shí)性約束的前提下提高了分類效果。