韓怡園,韓 冰+,高新波
1.西安電子科技大學(xué)電子工程學(xué)院,西安710071
2.重慶郵電大學(xué)重慶市圖像認(rèn)知重點(diǎn)實(shí)驗(yàn)室,重慶400065
極光亞暴[1-2]也稱(chēng)作地磁亞暴,是地球磁層產(chǎn)生強(qiáng)烈擾動(dòng)時(shí)的一種現(xiàn)象,它也是地球磁層中能量輸入、耦合和釋放的過(guò)程。據(jù)有關(guān)研究顯示,其發(fā)生時(shí)釋放的能量大約相當(dāng)于一次中等地震的能量。巨大的能量釋放會(huì)對(duì)高緯度地區(qū)的通訊、飛行器、全球定位系統(tǒng)(global positioning system,GPS)等產(chǎn)生強(qiáng)烈的干擾和影響。而現(xiàn)代人類(lèi)的生活非常依賴(lài)于這些設(shè)施,假如極光亞暴的發(fā)生對(duì)這些設(shè)備造成了破壞和干擾,則在一定程度上也會(huì)影響到現(xiàn)代人類(lèi)社會(huì)的生活。因此,自動(dòng)且高效地對(duì)極光亞暴進(jìn)行識(shí)別、研究其發(fā)生機(jī)制、對(duì)其進(jìn)行預(yù)測(cè)不僅具有非常重要的科學(xué)意義同時(shí)也對(duì)保障人類(lèi)生活、避免不必要的損失起到了至關(guān)重要的作用。
隨著科技的發(fā)展,許多衛(wèi)星攜帶的成像儀可以全方位地對(duì)高空極光現(xiàn)象進(jìn)行有效捕捉。在眾多類(lèi)型的極光圖像中,有研究表明,Polar 衛(wèi)星[3]攜帶的紫外成像儀[4-5]獲取到的紫外極光(ultraviolet imager,UVI)圖像則是研究亞暴發(fā)生機(jī)制最有效的數(shù)據(jù)[6]。Polar 衛(wèi)星在其運(yùn)行過(guò)程中每一年可以采集到上千萬(wàn)張UVI 圖像。準(zhǔn)確地識(shí)別亞暴事件是后續(xù)對(duì)其發(fā)生機(jī)制等研究的前提,但由人工在海量的圖像中挑選出亞暴發(fā)生的序列是非常耗時(shí)且費(fèi)精力的。因此,如何自動(dòng)且準(zhǔn)確地從海量的紫外極光圖像中識(shí)別出亞暴事件是當(dāng)下該領(lǐng)域亟需解決的關(guān)鍵問(wèn)題。
在對(duì)亞暴事件研究的初始階段,大多數(shù)方法是以人工篩選的方式進(jìn)行識(shí)別的。這些方法[7-8]主要根據(jù)亞暴發(fā)生的階段性特點(diǎn)對(duì)其初始時(shí)刻進(jìn)行判斷和定位,從而根據(jù)一般亞暴發(fā)生的時(shí)長(zhǎng)得到亞暴發(fā)生的序列。除此之外,有部分學(xué)者發(fā)現(xiàn)某些空間物理參數(shù)的變化與亞暴發(fā)生有非常密切的關(guān)系。例如極光電集流指數(shù)(auroral electrojet,AE)的變化能夠反映亞暴發(fā)生對(duì)磁層的擾動(dòng)強(qiáng)度[9-10]。通過(guò)觀測(cè)相關(guān)物理參數(shù)的變化就能夠定位和識(shí)別亞暴發(fā)生和結(jié)束的時(shí)刻。以上的這些方法雖然可以比較準(zhǔn)確地識(shí)別亞暴事件,但都是非自動(dòng)化的識(shí)別方法,完全依賴(lài)于研究者個(gè)人對(duì)亞暴發(fā)生特性的主觀認(rèn)知,存在識(shí)別效率低下的問(wèn)題。
隨著計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)的迅猛發(fā)展,部分研究者則致力于如何利用機(jī)器學(xué)習(xí)領(lǐng)域的算法對(duì)亞暴事件進(jìn)行自動(dòng)的識(shí)別和檢測(cè)。這些方法[11-12]以人工標(biāo)注的亞暴事件為基準(zhǔn),將UVI 圖像作為機(jī)器學(xué)習(xí)算法的輸入,從而實(shí)現(xiàn)對(duì)亞暴事件的自動(dòng)化識(shí)別。但這些方法僅依賴(lài)于UVI 圖像在亞暴發(fā)生時(shí)所呈現(xiàn)的物理特性,因此,其識(shí)別結(jié)果與人工標(biāo)注的亞暴事件相比,還具有一定的差距。
區(qū)別于一般的視頻/序列識(shí)別任務(wù),亞暴事件的識(shí)別是非常依賴(lài)于空間物理科學(xué)的專(zhuān)業(yè)知識(shí)。而空間物理專(zhuān)家們對(duì)亞暴序列的視覺(jué)認(rèn)知過(guò)程是識(shí)別亞暴事件最科學(xué)和有效的知識(shí)來(lái)源?,F(xiàn)有能夠有效獲取人類(lèi)視覺(jué)行為的儀器稱(chēng)為眼動(dòng)儀,它能夠?qū)崟r(shí)跟蹤人類(lèi)的視線[13],獲取和記錄人類(lèi)對(duì)任何圖像或場(chǎng)景的視覺(jué)眼動(dòng)數(shù)據(jù)。因此,本文提出了一種新的基于眼動(dòng)信息和序列指紋的極光亞暴事件識(shí)別方法。該方法結(jié)合了人工標(biāo)注與機(jī)器學(xué)習(xí)算法兩者的優(yōu)勢(shì)。首先通過(guò)眼動(dòng)儀獲取空間物理領(lǐng)域?qū)<覍?duì)亞暴序列的視覺(jué)認(rèn)知信息(眼動(dòng)信息);其次根據(jù)極光亞暴發(fā)生不同階段的物理特性對(duì)每個(gè)亞暴事件中的圖像進(jìn)行標(biāo)記得到其對(duì)應(yīng)的序列指紋;最終以眼動(dòng)信息為輸入,序列指紋為指導(dǎo),利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對(duì)亞暴事件的自動(dòng)且精確的識(shí)別?;谝陨媳硎觯疚牡呢暙I(xiàn)可總結(jié)如下:
(1)構(gòu)建了一個(gè)新的基于極光亞暴事件的眼動(dòng)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含了15 位不同的空間物理專(zhuān)家在觀察不同亞暴序列時(shí)的視覺(jué)認(rèn)知信息(眼動(dòng)信息),也就是每張紫外極光圖像對(duì)應(yīng)的眼動(dòng)注視圖。
(2)不同于直接對(duì)亞暴事件進(jìn)行整體標(biāo)記的方式,本文所提出的方法通過(guò)對(duì)亞暴事件中的每張圖像進(jìn)行二分類(lèi)的標(biāo)記得到每個(gè)事件的序列指紋,從而將事件識(shí)別問(wèn)題轉(zhuǎn)化為圖像分類(lèi)問(wèn)題,在一定程度上減小了該任務(wù)的難度。
(3)通過(guò)設(shè)計(jì)對(duì)序列指紋的判別策略,結(jié)合專(zhuān)家眼動(dòng)注視圖,提出了基于眼動(dòng)信息和序列指紋的極光亞暴事件識(shí)別方法。該方法的性能優(yōu)于其他亞暴事件自動(dòng)識(shí)別方法。
本章除了介紹極光亞暴事件的識(shí)別相關(guān)工作,還主要介紹近年來(lái)基于圖像分類(lèi)任務(wù)的相關(guān)深度學(xué)習(xí)網(wǎng)絡(luò)的研究進(jìn)展。
關(guān)于極光亞暴事件識(shí)別任務(wù)的相關(guān)研究主要分為三大類(lèi):人工篩選識(shí)別方法、基于物理參數(shù)的識(shí)別方法和基于機(jī)器學(xué)習(xí)的識(shí)別方法。
人工篩選識(shí)別方法主要有兩項(xiàng)工作。對(duì)于Polar衛(wèi)星采集的UVI 圖像數(shù)據(jù),Liou[8]挑選出了其運(yùn)行期間所有年份的亞暴事件。對(duì)于IMAGE 衛(wèi)星采集的UVI 圖像數(shù)據(jù),F(xiàn)rey 等人[7]對(duì)其進(jìn)行了人工標(biāo)記。但人工篩選的工作量非常大,且在一定程度上會(huì)受到標(biāo)記者的主觀認(rèn)知的影響。因此,不適用于在海量的UVI圖像中識(shí)別亞暴事件。
基于物理參數(shù)的識(shí)別方法主要是通過(guò)尋找特定的亞暴事件,分析在該事件發(fā)生時(shí)與亞暴相關(guān)的空間物理參數(shù)的變化規(guī)律,利用這些規(guī)律對(duì)其余的UVI圖像數(shù)據(jù)進(jìn)行判斷,從而實(shí)現(xiàn)對(duì)亞暴事件的識(shí)別。目前已有學(xué)者通過(guò)研究亞暴發(fā)生時(shí)Pi2地磁脈動(dòng)[14-15]、AE[16-17]等參數(shù)的變化實(shí)現(xiàn)對(duì)亞暴事件的識(shí)別和檢測(cè)。例如Sutcliffe 借助Pi2 地磁脈沖的變化實(shí)現(xiàn)對(duì)亞暴事件的檢測(cè)[18]。這些方法都依賴(lài)于物理參數(shù)的變化規(guī)律,然而物理參數(shù)的獲取和UVI 圖像的獲取分辨率是不一致的,有些情況下會(huì)存在缺失的情況,這些問(wèn)題都影響著該類(lèi)方法的準(zhǔn)確性。
基于機(jī)器學(xué)習(xí)的方法近年來(lái)也有許多工作。針對(duì)Polar 衛(wèi)星的UVI 圖像,楊秋菊等人提出了一種基于亞暴膨脹相的自動(dòng)亞暴事件識(shí)別方法[11]。Yang 等人也根據(jù)亞暴發(fā)生時(shí)的圖像序列特征,提出了一種基于形狀約束的稀疏低質(zhì)矩陣分解的亞暴自動(dòng)檢測(cè)方法[12]。連慧芳則基于美國(guó)的國(guó)防氣象衛(wèi)星(defense meteorological satellite program,DMSP)和全球紫外線成像儀(global ultraviolet imager,GUVI)衛(wèi)星的低時(shí)間、高空間分辨率的紫外極光圖像數(shù)據(jù),通過(guò)檢測(cè)西行浪涌結(jié)構(gòu)實(shí)現(xiàn)對(duì)亞暴事件的檢測(cè)[19]。這些方法均利用亞暴發(fā)生過(guò)程不同階段的圖像特征對(duì)亞暴事件進(jìn)行識(shí)別,但都忽略了空間物理專(zhuān)家在識(shí)別極光亞暴事件時(shí)的視覺(jué)認(rèn)知信息,其識(shí)別準(zhǔn)確率與人工篩選的方式還具有一定的差距。
隨著深度學(xué)習(xí)算法的發(fā)展,近年來(lái)涌現(xiàn)出了許多深度學(xué)習(xí)網(wǎng)絡(luò),這些網(wǎng)絡(luò)在圖像分類(lèi)任務(wù)取得了非常好的效果。從2012 年AlexNet[20]在ImageNet 分類(lèi)比賽中取得冠軍之后,深度學(xué)習(xí)網(wǎng)絡(luò)的性能在圖像分類(lèi)任務(wù)中逐漸占據(jù)了領(lǐng)先地位。針對(duì)AlexNet網(wǎng)絡(luò)的參數(shù)量較大的問(wèn)題,Simonyan 等人通過(guò)堆疊3×3 的卷積核加深網(wǎng)絡(luò)深度,進(jìn)而提出了VGGNet[21],提高了網(wǎng)絡(luò)的分類(lèi)性能。隨后,Szegedy 等人提出的GoogLeNet[22]采用多支路并行的方式在保證計(jì)算資源使用效率的前提下,進(jìn)一步地提高了網(wǎng)絡(luò)的性能。隨著深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)的增加,在訓(xùn)練過(guò)程中出現(xiàn)了梯度爆炸、消失等問(wèn)題,使得網(wǎng)絡(luò)難以?xún)?yōu)化。
為了解決上述問(wèn)題,He 等人在2016 年利用殘差塊結(jié)構(gòu)代替原有的卷積結(jié)構(gòu)提出了ResNet[23],該網(wǎng)絡(luò)不僅進(jìn)一步地提升了分類(lèi)效果,同時(shí)在網(wǎng)絡(luò)層數(shù)高達(dá)152 層時(shí)也能夠較好地克服梯度消失問(wèn)題。在此之后,出現(xiàn)了許多基于ResNet 改進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò),例如Wide Residual Network[24]、DenseNet[25]、ResNeXt[26]、Res2Net[27]、ResNeSt[28]。這些網(wǎng)絡(luò)從寬度、模塊連接方式、通道分支數(shù)、特征提取粒度、增加通道注意力等不同方面對(duì)ResNet 進(jìn)行了改進(jìn),并提高了網(wǎng)絡(luò)的分類(lèi)精度。這些網(wǎng)絡(luò)雖然提高了網(wǎng)絡(luò)的性能,但訓(xùn)練時(shí)間長(zhǎng)、模型復(fù)雜,是非常耗費(fèi)計(jì)算資源的。
在保證網(wǎng)絡(luò)性能的前提下,是否能夠盡可能地減少網(wǎng)絡(luò)計(jì)算量和參數(shù)?基于此思想,許多學(xué)者開(kāi)始研究輕量化的深度學(xué)習(xí)網(wǎng)絡(luò)。典型的輕量化網(wǎng)絡(luò)有SqueezeNet[29]、Xception[30]、MobileNet[31]系列和Shuffle-Net[32]系列。這些網(wǎng)絡(luò)有效提高了內(nèi)存利用率和網(wǎng)絡(luò)運(yùn)行速度,但在分類(lèi)性能上略低于傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)。上述的網(wǎng)絡(luò)均是研究者根據(jù)經(jīng)驗(yàn)或者知識(shí)人工設(shè)計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)。人工設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)性能是有限的,因此出現(xiàn)了利用神經(jīng)網(wǎng)絡(luò)自動(dòng)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的方法,稱(chēng)為神經(jīng)架構(gòu)搜索(neural architecture search,NAS)。2019 年,Tan 等人基于NAS 搜索設(shè)計(jì)出了EfficientNets[33]系列模型。該模型平衡了網(wǎng)絡(luò)的寬度、深度和分辨率,這一系列的部分網(wǎng)絡(luò)模型不僅具有輕量化的特性,同時(shí)在當(dāng)前的所有深度學(xué)習(xí)網(wǎng)絡(luò)中其分類(lèi)性能是處于優(yōu)勢(shì)地位的。
該部分主要介紹極光亞暴事件眼動(dòng)數(shù)據(jù)庫(kù)的構(gòu)建和對(duì)眼動(dòng)數(shù)據(jù)的分析。
極光亞暴的發(fā)生主要有3 個(gè)階段:增長(zhǎng)相、膨脹相和恢復(fù)相。如圖1 所示,在增長(zhǎng)相階段,極光活動(dòng)較弱,極光橢圓上的亮度較暗。在膨脹相階段,極光活動(dòng)最為強(qiáng)烈,可以看到極光橢圓上的亮斑有明顯的向兩側(cè)擴(kuò)散的現(xiàn)象。在恢復(fù)相階段,極光橢圓上的亮斑會(huì)逐漸消散,也就說(shuō)明極光活動(dòng)強(qiáng)度變?nèi)醪⒅饾u恢復(fù)平靜。
如表1 所示,本研究中構(gòu)建的極光亞暴事件眼動(dòng)數(shù)據(jù)庫(kù)包括原始極光亞暴序列、每個(gè)序列對(duì)應(yīng)的眼動(dòng)txt 數(shù)據(jù)(包括每位被試者的每個(gè)注視點(diǎn)位置和時(shí)長(zhǎng)信息)和序列指紋、所有亞暴事件中圖像對(duì)應(yīng)的二分類(lèi)標(biāo)簽及其對(duì)應(yīng)的眼動(dòng)注視圖。如圖1 所示,二分類(lèi)標(biāo)簽為0 和1,0 代表增長(zhǎng)相和恢復(fù)相中的極光圖像,1 代表膨脹相中的極光圖像。序列指紋由每個(gè)序列中所有圖像的分類(lèi)標(biāo)簽組成,可表示為01110。眼動(dòng)注視圖由各位專(zhuān)家觀看亞暴序列時(shí)眼動(dòng)儀記錄的注視位置和時(shí)長(zhǎng)生成,作為專(zhuān)家的眼動(dòng)信息參與深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,具體實(shí)現(xiàn)細(xì)節(jié)將會(huì)在實(shí)驗(yàn)部分介紹。
表1 極光亞暴眼動(dòng)數(shù)據(jù)庫(kù)數(shù)據(jù)組成Table 1 Data composition of auroral substorm eye movement database
圖1 極光亞暴不同階段圖像樣例Fig.1 Image samples of different stages of auroral substorms
本文所使用的數(shù)據(jù)為1996—1997 年冬季的UVI數(shù)據(jù),根據(jù)Liou[8]所提供的人工標(biāo)注,共選取197 個(gè)亞暴序列與197 個(gè)非亞暴序列作為眼動(dòng)測(cè)試數(shù)據(jù)。實(shí)驗(yàn)中采用的亞暴序列基本上包含了大部分類(lèi)型的亞暴事件,且根據(jù)亞暴發(fā)生持續(xù)的時(shí)間,每個(gè)序列的長(zhǎng)度是不一致的。
極光亞暴事件識(shí)別眼動(dòng)實(shí)驗(yàn)共邀請(qǐng)了15 位被試者參與。所有被試者均來(lái)自西安電子科技大學(xué),年齡在20~40 歲,裸眼或矯正后視力良好。被試者中有7 位為常年從事極光亞暴研究的學(xué)生/老師,其余的為學(xué)習(xí)過(guò)極光亞暴相關(guān)知識(shí)的學(xué)生。使用Eyelink 1000 plus 眼動(dòng)儀進(jìn)行眼動(dòng)數(shù)據(jù)采集。首先保證實(shí)驗(yàn)環(huán)境安靜,其次每位被試者參與20~30 組的亞暴序列識(shí)別實(shí)驗(yàn),期間每5 組休息5~10 min 以保證眼動(dòng)數(shù)據(jù)的準(zhǔn)確性。
極光亞暴識(shí)別眼動(dòng)實(shí)驗(yàn)流程如圖2 所示,實(shí)驗(yàn)過(guò)程中會(huì)在屏幕上隨機(jī)顯示一段極光圖像序列,要求被試者通過(guò)觀察判斷該序列是否為亞暴序列,若一次觀察無(wú)法確定該序列是否為亞暴序列,可按鍵選擇進(jìn)行重復(fù)觀看直至做出判斷。為了使被試了解實(shí)驗(yàn)流程,每位被試在正式開(kāi)始實(shí)驗(yàn)前,先進(jìn)行一次預(yù)測(cè)試實(shí)驗(yàn),該測(cè)試實(shí)驗(yàn)設(shè)置與極光亞暴事件識(shí)別的正式眼動(dòng)實(shí)驗(yàn)一致。為了保證不干擾被試對(duì)亞暴序列的判斷,僅將極光亞暴序列換成自然圖像序列。
圖2 眼動(dòng)實(shí)驗(yàn)流程圖Fig.2 Flowchart of eye movement experiment
在完成極光亞暴事件的眼動(dòng)數(shù)據(jù)采集之后,首先對(duì)不同亞暴發(fā)生階段(增長(zhǎng)相onset、膨脹相expansion 和恢復(fù)相recovery)的眼動(dòng)注視位置分別在x坐標(biāo)軸下和y坐標(biāo)軸下進(jìn)行了統(tǒng)計(jì)分析。所使用的統(tǒng)計(jì)指標(biāo)為平均值、標(biāo)準(zhǔn)差、方差以及偏差數(shù)。其中偏差數(shù)為平均值與方差的比值,數(shù)值區(qū)間為[0,1]。
眼動(dòng)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果如圖3 和圖4 所示。從圖中可以看出,無(wú)論是在x坐標(biāo)軸下還是y坐標(biāo)軸下,眼動(dòng)注視點(diǎn)位置的平均值和偏差數(shù)從增長(zhǎng)相到膨脹相呈現(xiàn)增長(zhǎng)的趨勢(shì),在恢復(fù)相又逐漸減小。從方差和標(biāo)準(zhǔn)差上看,膨脹相的數(shù)值較小,也就說(shuō)明在觀察膨脹相時(shí),被試者的注視點(diǎn)位置較為集中。膨脹相中極光圖像上呈現(xiàn)的亮斑較為明顯,被試者的注意大部分會(huì)集中在有亮斑的區(qū)域。而增長(zhǎng)相和恢復(fù)相中極光橢圓上的亮度分布較為均勻且亮斑不明顯,被試的注視點(diǎn)較為分散,因此增長(zhǎng)相和恢復(fù)相中極光圖像注視點(diǎn)位置的方差和標(biāo)準(zhǔn)差會(huì)大于膨脹相中的極光圖像注視點(diǎn)位置的方差和標(biāo)準(zhǔn)差。
圖3 x 坐標(biāo)軸下的眼動(dòng)注視位置統(tǒng)計(jì)圖Fig.3 Statistics results of eye movement fixation position under x coordinate
圖4 y 坐標(biāo)軸下的眼動(dòng)注視位置統(tǒng)計(jì)圖Fig.4 Statistics results of eye movement fixation position under y coordinate
該統(tǒng)計(jì)結(jié)果說(shuō)明,從整體上看,被試者在觀察亞暴序列時(shí),在不同的亞暴發(fā)生階段其視覺(jué)認(rèn)知存在明顯的差異。與此同時(shí),發(fā)現(xiàn)當(dāng)不同的被試者在觀察同一亞暴序列時(shí),每位被試者的眼動(dòng)信息在不同的亞暴發(fā)生階段同樣存在這種差異。這與原始亞暴序列在圖像上所表現(xiàn)出來(lái)的特征是一致的。因此,對(duì)任何一個(gè)亞暴序列,使用單一被試者的眼動(dòng)信息作為先驗(yàn)加入提出方法中的思想是可行的。
本文方法主要分為兩部分:第一部分為基于眼動(dòng)信息的序列指紋獲取模塊,該模塊基于原始UVI圖像和其對(duì)應(yīng)的眼動(dòng)注視圖,利用一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)亞暴序列中的圖像進(jìn)行分類(lèi)預(yù)測(cè)得到其序列指紋。第二部分為序列指紋識(shí)別模塊,該模塊通過(guò)設(shè)計(jì)合理的序列指紋識(shí)別策略實(shí)現(xiàn)對(duì)亞暴事件的識(shí)別。算法框圖如圖5 所示。
基于眼動(dòng)信息的序列指紋獲取模塊由一個(gè)基于分類(lèi)任務(wù)的深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)。綜合考慮網(wǎng)絡(luò)模型的速度和精度,本文采用EfficientNets[33]系列網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)UVI圖像的精確分類(lèi)。
如圖5 所示,在訓(xùn)練階段,不考慮圖像所屬的序列,將其與對(duì)應(yīng)的眼動(dòng)注視圖同時(shí)打亂輸入深度分類(lèi)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中,使用交叉熵作為L(zhǎng)oss函數(shù),如式(1)所示。
圖5 本文方法的流程圖Fig.5 Flowchart of proposed method
其中,n代表分類(lèi)的總類(lèi)別數(shù),本實(shí)驗(yàn)中設(shè)n=2 。GT代表真實(shí)標(biāo)簽,CLS代表分類(lèi)的結(jié)果。
在測(cè)試階段,按照亞暴序列中圖像的順序依次將其輸入網(wǎng)絡(luò)中進(jìn)行測(cè)試,輸出的分類(lèi)預(yù)測(cè)標(biāo)簽則可組成其序列指紋。
根據(jù)亞暴事件發(fā)生不同階段的特征可知,相比膨脹相中的圖像,增長(zhǎng)相與恢復(fù)相中的圖像特不明顯。根據(jù)2.1 節(jié)對(duì)極光圖像的標(biāo)記,任何一個(gè)亞暴事件的序列指紋都應(yīng)該符合0-1-0 這樣的規(guī)律。因此在利用每個(gè)圖像的分類(lèi)預(yù)測(cè)標(biāo)簽得到每個(gè)亞暴事件序列指紋的前提下,本文提出了兩種序列指紋識(shí)別策略實(shí)現(xiàn)對(duì)極光亞暴事件的識(shí)別。
如圖6 以及算法1 所示,策略1 要求序列指紋必須完全服從亞暴發(fā)生的規(guī)律。也就是說(shuō)必須出現(xiàn)膨脹相、增長(zhǎng)相與恢復(fù)相3 個(gè)階段(0-1-0 模式),且增長(zhǎng)相與恢復(fù)相中全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽必須為0,膨脹相中全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽必須為1。
圖6 兩種序列指紋識(shí)別策略示意圖Fig.6 Diagram of two sequence fingerprint recognition strategies
算法1序列指紋識(shí)別策略1
在策略2 中,只要符合以下3 種情況的序列指紋均可被認(rèn)為符合亞暴發(fā)生的規(guī)律:
(1)序列指紋的模式保證有從增長(zhǎng)相到膨脹相再到恢復(fù)相的轉(zhuǎn)換,增長(zhǎng)相與恢復(fù)相中的全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽必須為0,并且膨脹相中全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽的容錯(cuò)率為10%。
(2)序列指紋的模式保證有從增長(zhǎng)相到膨脹相再到恢復(fù)相的轉(zhuǎn)換,但僅保證膨脹相的前一個(gè)圖像的分類(lèi)預(yù)測(cè)標(biāo)簽與膨脹相的后一個(gè)圖像的分類(lèi)預(yù)測(cè)標(biāo)簽必須為0。同時(shí)膨脹相中全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽的容錯(cuò)率為10%。
(3)序列指紋的模式保證有從增長(zhǎng)相到膨脹相的轉(zhuǎn)換,并且在膨脹相中全部圖像的分類(lèi)預(yù)測(cè)標(biāo)簽的容錯(cuò)率為10%。具體的實(shí)現(xiàn)流程如算法2 所示。
算法2序列指紋識(shí)別策略2
本文在相同的實(shí)驗(yàn)條件下構(gòu)建了3 種不同輸入條件下實(shí)驗(yàn):第一種輸入為UVI 圖像。第二種輸入為極光卵邊界分割結(jié)果、UVI 圖像和眼動(dòng)注視圖。UVI圖像背景具有多變性和干擾性,加入極光卵邊界分割結(jié)果是為了抑制UVI 圖像數(shù)據(jù)中背景干擾。第三種輸入為UVI 圖像和眼動(dòng)注視圖,其目的是為了驗(yàn)證眼動(dòng)信息的加入是否提高了分類(lèi)網(wǎng)絡(luò)的性能。
由于UVI 圖像為灰度圖像,而深度學(xué)習(xí)網(wǎng)絡(luò)更加適用于三通道的圖像。因此,首先將UVI 圖像進(jìn)行復(fù)制,拼接成一個(gè)三通道的圖像。即每一個(gè)通道都是原始的UVI 圖像。這樣得到的UVI 圖像則不會(huì)缺失或增加信息。對(duì)于另外兩種輸入數(shù)據(jù),同樣進(jìn)行了通道拼接的操作。圖7 中的第二行是用UVI 圖像、極光卵邊界分割結(jié)果以及眼動(dòng)注視圖拼接的圖像,其中極光卵邊界分割結(jié)果由目前精度最高的極光卵分割算法[34]得到。第三行是將UVI 圖像與眼動(dòng)注視圖2:1 進(jìn)行通道拼接的圖像。
圖7 不同輸入數(shù)據(jù)的示例Fig.7 Samples of different input data
本文中所有實(shí)驗(yàn)均是在NVIDIA GeForce GTX 1070Ti 顯卡上進(jìn)行,并且實(shí)驗(yàn)環(huán)境為CUDA 10.0 +CUDNN v7.6.5+Python 3.6+Pytorch 1.2.0、torchvision 0.4.0。本文實(shí)驗(yàn)部分所有表格中最好的實(shí)驗(yàn)結(jié)果顯示為加粗且斜體,次好的實(shí)驗(yàn)結(jié)果顯示為加粗。
利用分類(lèi)準(zhǔn)確率對(duì)基于眼動(dòng)信息的序列指紋獲取模塊中深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測(cè)的分類(lèi)結(jié)果進(jìn)行驗(yàn)證。網(wǎng)絡(luò)的輸入分別為圖7 所示的3 種不同類(lèi)型的輸入數(shù)據(jù)。同時(shí),考慮到速度和精度的平衡,僅使用Efficientnets 系列b0~b3 這4 個(gè)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。由于這4個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)從簡(jiǎn)單到復(fù)雜,網(wǎng)絡(luò)達(dá)到收斂狀態(tài)時(shí)訓(xùn)練的次數(shù)是不一致的。因此,實(shí)驗(yàn)也同時(shí)對(duì)比了不同網(wǎng)絡(luò)在20 次和40 次迭代次數(shù)下的實(shí)驗(yàn)結(jié)果。網(wǎng)絡(luò)訓(xùn)練采用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化算法,批處理大小(batch size)設(shè)置為4,學(xué)習(xí)率設(shè)置為0.01。
實(shí)驗(yàn)結(jié)果如表2 所示,從整體上看,在使用b2 網(wǎng)絡(luò)、迭代次數(shù)為40 且UVI 圖像和眼動(dòng)注視圖作為輸入數(shù)據(jù)的條件下,網(wǎng)絡(luò)的性能最佳。
表2 序列指紋獲取模塊的消融實(shí)驗(yàn)對(duì)比結(jié)果Table 2 Ablation experiment results of sequence fingerprint acquisition module
從輸入數(shù)據(jù)上來(lái)看,同時(shí)使用UVI 圖像和眼動(dòng)注視圖數(shù)據(jù)時(shí),除了b0 網(wǎng)絡(luò),其他的網(wǎng)絡(luò)在不同的迭代次數(shù)下均比使用另外兩種數(shù)據(jù)作為網(wǎng)絡(luò)輸入的效果好。由于b0 網(wǎng)絡(luò)的結(jié)構(gòu)比較簡(jiǎn)單,使用40 次的迭代次數(shù)對(duì)其進(jìn)行訓(xùn)練會(huì)產(chǎn)生嚴(yán)重的過(guò)擬合現(xiàn)象[35],從而導(dǎo)致其分類(lèi)準(zhǔn)確率大幅下降。另一方面,原始的UVI圖像相比其他兩種輸入圖像內(nèi)容較為單一,對(duì)于較為簡(jiǎn)單的b0 網(wǎng)絡(luò)而言,其能夠較好地學(xué)習(xí)UVI 圖像之間的差異,而對(duì)于加入眼動(dòng)信息和分割信息的這兩種內(nèi)容豐富的圖像而言,其學(xué)習(xí)能力則會(huì)下降。同樣,雖然分割結(jié)果圖在一定程度上起到了抑制背景干擾的作用,但由于部分圖像的分割結(jié)果不精確,使得邊界的變化特征較弱,網(wǎng)絡(luò)可能無(wú)法完全學(xué)習(xí)到其變化模式,從而使得其分類(lèi)精度不如僅使用UVI圖像和眼動(dòng)注視圖數(shù)據(jù)作為輸入時(shí)的效果。
對(duì)比不同的網(wǎng)絡(luò)結(jié)構(gòu),無(wú)論在哪一個(gè)迭代次數(shù)下將UVI 圖像和眼動(dòng)注視圖作為輸入數(shù)據(jù)的b2 網(wǎng)絡(luò)取得了最好的分類(lèi)準(zhǔn)確率并且其在不同的迭代次數(shù)下的分類(lèi)準(zhǔn)確率非常接近。這也就說(shuō)明,相對(duì)于其他的網(wǎng)絡(luò),該網(wǎng)絡(luò)更加適合UVI 圖像的分類(lèi)任務(wù),且其穩(wěn)定性較高。
本節(jié)實(shí)驗(yàn)條件與4.2 節(jié)實(shí)驗(yàn)條件一致,為了驗(yàn)證在不同模型、輸入、策略下的序列指紋識(shí)別準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表3 所示。其中,Acc-st1 和Acc-st2 分別代表兩種不同的序列指紋判別策略的準(zhǔn)確率。從整體上看,除了b0 網(wǎng)絡(luò)之外,無(wú)論是在哪種策略和網(wǎng)絡(luò)模型下,使用UVI 圖像和眼動(dòng)注視圖作為輸入均取得了最高的識(shí)別準(zhǔn)確率。該結(jié)果與4.2 節(jié)的網(wǎng)絡(luò)分類(lèi)準(zhǔn)確率是一致的。
從表3 中可以看出,以策略1 為判別準(zhǔn)則的亞暴事件識(shí)別準(zhǔn)確率均低于以策略2 為判別準(zhǔn)則的亞暴事件識(shí)別準(zhǔn)確率。亞暴恢復(fù)相的形態(tài)多變,很多情況下是難以判定其具體消散時(shí)刻的。因此,根據(jù)與空間物理學(xué)家的討論,認(rèn)為只要在某個(gè)極光圖像序列中出現(xiàn)增長(zhǎng)相到膨脹相的轉(zhuǎn)換,并且膨脹相可以持續(xù)一段時(shí)間,就可認(rèn)為該序列是亞暴序列。這與策略2 中所提出的3 種情況的判斷準(zhǔn)則是一致的。因此,策略2 所提出的判別準(zhǔn)則是完全符合客觀知識(shí)的,可以作為亞暴事件識(shí)別的客觀準(zhǔn)則對(duì)其進(jìn)行有效判別,其對(duì)應(yīng)的識(shí)別準(zhǔn)確率也是可靠的。
表3 序列指紋識(shí)別模塊的消融實(shí)驗(yàn)對(duì)比結(jié)果Table 3 Ablation experiment results of sequence fingerprint recognition module
為了驗(yàn)證文本方法的有效性,與近年來(lái)兩個(gè)亞暴事件識(shí)別方法[11-12]進(jìn)行對(duì)比。這兩個(gè)對(duì)比方法均是基于UVI 圖像數(shù)據(jù)所提出的亞暴序列識(shí)別方法且以Liou[8]所標(biāo)記亞暴事件為真實(shí)標(biāo)簽計(jì)算識(shí)別準(zhǔn)確率。楊秋菊等人[11]所提出的方法與文本所使用的數(shù)據(jù)一致。具體的實(shí)驗(yàn)結(jié)果如表4 所示。表中Ours-st1 與Ours-st2 分別為b2 網(wǎng)絡(luò)在不同亞暴序列指紋判別策略下的結(jié)果。從表中可以看出,本文方法性能優(yōu)于其余兩種對(duì)比方法。
表4 與其他方法的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experiment results with other methods
楊秋菊等人[11]所提出的方法識(shí)別準(zhǔn)確率較低,是因?yàn)槠浞椒ㄊ芟抻赨VI 圖像對(duì)極光卵的分割的結(jié)果。在分割效果準(zhǔn)確率不高的前提下,后續(xù)借助物理特征對(duì)亞暴序列進(jìn)行識(shí)別的誤差較大。SCLSD 方法[12]通過(guò)分離亞暴序列的運(yùn)動(dòng)特征和背景特征,結(jié)合亞暴發(fā)生時(shí)相關(guān)物理指標(biāo)的變化對(duì)1996—2008 年南北極全部的亞暴序列進(jìn)行了檢測(cè)。對(duì)比楊秋菊等人的方法,該方法大大提高了亞暴序列識(shí)別的準(zhǔn)確率,但該方法的準(zhǔn)確率略低于本文方法,并且其實(shí)現(xiàn)過(guò)程相較于本文方法也較為繁瑣。
在本文方法中,每一個(gè)極光亞暴序列都需要其對(duì)應(yīng)的眼動(dòng)信息(眼動(dòng)注視圖)輔助。這樣的設(shè)定使得算法有一定的局限性且并不能減輕專(zhuān)家們的負(fù)擔(dān)?;诖?,本文設(shè)計(jì)了基于不同輸入數(shù)據(jù)的外推實(shí)驗(yàn)。該實(shí)驗(yàn)使用包含眼動(dòng)信息的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),同時(shí)僅使用原始的亞暴圖像序列進(jìn)行測(cè)試,以此檢驗(yàn)所提出方法對(duì)數(shù)據(jù)的魯棒性。
實(shí)驗(yàn)結(jié)果如表5 所示。表5 的前兩行是基于眼動(dòng)信息的序列指紋獲取模塊中UVI 圖像的分類(lèi)準(zhǔn)確率,后四行是序列指紋識(shí)別模塊中根據(jù)不同序列指紋策略所得到的亞暴事件識(shí)別的準(zhǔn)確率。從結(jié)果可以看出,當(dāng)訓(xùn)練與測(cè)試數(shù)據(jù)的類(lèi)型不一致時(shí),無(wú)論其分類(lèi)結(jié)果還是事件識(shí)別結(jié)果均差于使用同一類(lèi)型的輸入數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試的結(jié)果。但當(dāng)使用原始亞暴序列對(duì)使用包含眼動(dòng)信息的數(shù)據(jù)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行測(cè)試時(shí),其分類(lèi)準(zhǔn)確率在90%左右。
表5 外推實(shí)驗(yàn)對(duì)比結(jié)果Table 5 Extrapolation experiment results
對(duì)于亞暴事件識(shí)別任務(wù),不同模型準(zhǔn)確率降低程度不同。有部分網(wǎng)絡(luò)的亞暴事件識(shí)別準(zhǔn)確率在80%以上,并且性能最好的b3 網(wǎng)絡(luò)得到的事件識(shí)別準(zhǔn)確率為86%。也就是說(shuō),即使在訓(xùn)練和測(cè)試時(shí)數(shù)據(jù)信息缺失且差異較大的情況下,本文方法識(shí)別效果也與其他亞暴識(shí)別算法差距不大,在可接受的范圍內(nèi)。
為了有效利用空間物理專(zhuān)家在識(shí)別極光亞暴事件時(shí)的視覺(jué)認(rèn)知信息和亞暴發(fā)生時(shí)的物理特征,本文提出了一種基于眼動(dòng)信息和序列指紋的極光亞暴事件識(shí)別方法。該方法通過(guò)對(duì)UVI 圖像分類(lèi)標(biāo)記得到亞暴事件的序列指紋,從而將序列識(shí)別任務(wù)轉(zhuǎn)化成簡(jiǎn)單的二分類(lèi)任務(wù),在一定程度上降低了序列識(shí)別任務(wù)的難度。同時(shí),充分利用專(zhuān)家的眼動(dòng)注視圖以及設(shè)計(jì)了合理的序列指紋判別策略提升了現(xiàn)有亞暴事件識(shí)別算法的準(zhǔn)確率。
但眼動(dòng)注視圖的獲取是非常不易且繁瑣的,為了減少在采集眼動(dòng)信息時(shí)專(zhuān)家們的勞動(dòng),擬設(shè)計(jì)一個(gè)端到端的深度學(xué)習(xí)網(wǎng)絡(luò),將眼動(dòng)注視圖預(yù)測(cè)與本文算法進(jìn)行融合,從而進(jìn)行多任務(wù)并行訓(xùn)練。也就是說(shuō),對(duì)于任何一張UVI 圖像而言,網(wǎng)絡(luò)不僅能夠得到預(yù)測(cè)的眼動(dòng)注視圖,同時(shí)還可以得到其序列指紋,從而在不需要額外采集專(zhuān)家眼動(dòng)信息的條件下提高所提出方法的魯棒性,實(shí)現(xiàn)真正意義上的亞暴序列自動(dòng)化檢測(cè)。