陳清源,金 帆,馮德華,王云龍,梁毅軍*
(1. 西安交通大學(xué),陜西 西安 710049;2. 浙江科技學(xué)院,浙江 杭州 310023)
太陽黑子與太陽活動密切相關(guān),太陽活動中最強(qiáng)烈的活動現(xiàn)象是太陽耀斑[1-2],主要爆發(fā)在太陽黑子上方的大氣中。這些活動會擾亂地球大氣層,影響地面無線電短波通信,并產(chǎn)生危害,如 “磁暴” 現(xiàn)象。世界各地的天文臺一直在追蹤所有可見的太陽黑子群,并對其進(jìn)行分類和分析,以便及早發(fā)現(xiàn)耀斑。如果能夠比較準(zhǔn)確地實(shí)現(xiàn)太陽黑子群自動分類,我們可以更好地檢測某些類別的太陽黑子群,對預(yù)警耀斑具有重要意義,同時提高對太陽周期、空間氣候及其對地球氣候系統(tǒng)影響的理解和預(yù)警能力。典型的黑子群分類方法可以分為基于傳統(tǒng)數(shù)字圖像處理算法、數(shù)學(xué)形態(tài)法和小波分析法,以及當(dāng)下流行的基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法。近年來,隨著觀測條件的進(jìn)步,與太陽活動有關(guān)的數(shù)據(jù)迅速增長,基于深度學(xué)習(xí)方法的優(yōu)勢越來越顯著。
文[3]采用McIntosh分類方法,提出了一種混合系統(tǒng),該系統(tǒng)使用從太陽和太陽風(fēng)層探測器/邁爾遜多普勒成像儀(Solar And Heliospheric Observatory/Michelson Doppler Imager, SOHO/MDI)磁圖圖像中提取的活動區(qū)數(shù)據(jù),對白光圖像上的黑子群進(jìn)行自動檢測。從白光圖像中檢測到黑子后,使用磁圖圖像對它們進(jìn)行分組或聚類。通過集成圖像處理和神經(jīng)網(wǎng)絡(luò),自動對檢測到的黑子進(jìn)行分類。但系統(tǒng)存在分組錯誤和小型黑子漏檢的缺陷。文[4]使用機(jī)器學(xué)習(xí)方法結(jié)合傳統(tǒng)圖像處理算法提取太陽黑子特征,改善了特征提取效果,但仍存在不同數(shù)據(jù)集間泛化性較差的問題。
文[5]采用改良后的七類Zurich分類方法,使用支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)對太陽全日面白光圖像黑子群的自動分類。在數(shù)據(jù)預(yù)處理階段,文[5]使用了邊緣檢測、噪聲去除以及二值化分割黑子群和日面,再對黑子群進(jìn)行無監(jiān)督分割,將屬于同一組的黑子合并,然后提取每個黑子組的屬性,最后使用支持向量機(jī)進(jìn)行分類。該方法精度對圖片質(zhì)量和失真程度有所要求,且分割過程對推斷耗時有較大影響。
隨著深度學(xué)習(xí)的發(fā)展和可訓(xùn)練數(shù)據(jù)量的增加,越來越多的人嘗試基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取圖像特征,以解決圖像的分類[6-7]、分割[8-9]和檢測[10-11]問題。文[12]使用卷積神經(jīng)網(wǎng)絡(luò)對黑子群的磁類型進(jìn)行分類,在數(shù)據(jù)預(yù)處理階段將圖像分為3類,分別為白光圖、磁圖以及白光圖和磁圖的合成圖像。將3類圖像分別作為輸入源輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,結(jié)果顯示,單獨(dú)使用白光圖的分類效果最佳。文[12]認(rèn)為,相對白光圖,磁圖結(jié)構(gòu)較為復(fù)雜,且磁圖使用卷積神經(jīng)網(wǎng)絡(luò)不能很好地提取特征,是造成使用磁圖分類不佳的主要原因之一。除此之外,3類圖像樣本數(shù)量不均衡帶來的問題同樣沒有得到解決,存在Beta-x類過擬合現(xiàn)象。
文[13]提出一種雙流卷積神經(jīng)網(wǎng)絡(luò)的太陽黑子磁類型分類方法。該模型通過雙流結(jié)構(gòu)解決了白光圖和磁圖的多元輸入問題,在Alpha類上的分類準(zhǔn)確率較高,但模型參數(shù)量較大,在Beta-x類上依然存在過擬合問題。除了分類問題,當(dāng)下最優(yōu)的太陽黑子檢測模型同樣存在小樣本類別過擬合的問題,如文[14]提出的SunspotsNet太陽黑子檢測模型依然無法解決類別不均衡問題。
本文提出的雙模型集成算法通過兩個模型分別承擔(dān)Alpha類和Beta-x類的分類任務(wù),即針對Alpha類和Beta-x類分別設(shè)計(jì)最適合的分類模型和訓(xùn)練策略,并輔以大量針對不均衡數(shù)據(jù)集訓(xùn)練的調(diào)優(yōu)技巧,最終對兩個模型的結(jié)果進(jìn)行集成,從而能夠最大程度地解決數(shù)據(jù)集中類別不均衡的問題。上述雙模型集成算法與主流的集成算法不同[15-17],其中涉及的兩個模型均有明確的任務(wù)分工,集成單元更少,效果更優(yōu)。另外,本文提出的基于雙模型集成的不平衡數(shù)據(jù)集定向分類模型取得了阿里天池太陽風(fēng)暴識別和預(yù)警人工智能挑戰(zhàn)賽的第二名,挑戰(zhàn)賽地址:https://tianchi.aliyun.com/competition/entrance/531803/rankingList;代碼也已開源:https://github.com/qingyuanchen1997/Dual-Model-Integration。
深度學(xué)習(xí)由數(shù)據(jù)驅(qū)動,故本文首先介紹并分析實(shí)驗(yàn)所用數(shù)據(jù)集,進(jìn)而引出后續(xù)算法。
本文實(shí)驗(yàn)所用數(shù)據(jù)集為SOLAR-STORM1,由空間環(huán)境人工智能預(yù)警創(chuàng)新工坊整理提供,可在天池實(shí)驗(yàn)室(https://tianchi.aliyun.com/dataset/)公開下載。該數(shù)據(jù)集基于威爾遜山(Mount Wilson)黑子群磁類型分類方案,該方案根據(jù)磁場極性對黑子群進(jìn)行分類。數(shù)據(jù)集共包含Alpha, Beta和Beta-x 3個類別的太陽黑子數(shù)據(jù)樣本,分別代表單極黑子群、極性之間具有簡單且明確劃分的雙極黑子群和極性之間無明確劃分的復(fù)雜雙極黑子群,3個類別總計(jì)14 469個數(shù)據(jù)樣本,每個數(shù)據(jù)樣本包含兩張圖像:磁圖和白光圖,兩者為一一對應(yīng)關(guān)系,如圖1。其中Alpha類太陽黑子的磁場圖和白光圖各4 709張,占32.54%;Beta類太陽黑子的磁場圖和白光圖各7 353張,占50.82%;Beta-x類太陽黑子的磁場圖和白光圖各2 407張,占16.64%。具體數(shù)據(jù)如表1。數(shù)據(jù)雖整體數(shù)量尚可,但3個類別的訓(xùn)練圖像數(shù)量差異卻十分巨大,其中Beta-x類圖像的數(shù)量遠(yuǎn)小于Alpha和Beta兩個類別;另經(jīng)查閱資料得知,在觀測過程中,Alpha類和Beta類的太陽黑子出現(xiàn)的概率也顯著高于Beta-x類。
圖1 Alpha(左1)、Beta(左2)和更復(fù)雜的Beta-x(左3、左4)磁類型的太陽黑子群磁場觀測圖像(行1)和白光觀測圖像(行2)
表1 Alpha, Beta和Beta-x黑子數(shù)據(jù)樣本占訓(xùn)練集比重
由于數(shù)據(jù)集在萬張量級,總計(jì)14 469組數(shù)據(jù)樣本,為保證模型在驗(yàn)證集和測試集上取得可靠的結(jié)果,將樣本按3∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。另外,由于數(shù)據(jù)具有時間連續(xù)性,時間精度為96 min,即每間隔96 min對黑子群進(jìn)行一次觀測,且黑子群演化較為緩慢,故同一個黑子群在一定時間內(nèi)通常保持同一種磁類型,且相似度較高。為避免訓(xùn)練集同驗(yàn)證集、
測試集在信息上重疊,實(shí)驗(yàn)基于時間段對數(shù)據(jù)集進(jìn)行劃分,將位于同一時間段內(nèi)的不同樣本統(tǒng)一放入訓(xùn)練集或驗(yàn)證集或測試集。文中所有實(shí)驗(yàn)均采用五折交叉驗(yàn)證,即將數(shù)據(jù)集切分為5份,1份作為驗(yàn)證集,1份作為測試集,剩余3份作為訓(xùn)練集。每組實(shí)驗(yàn)共進(jìn)行5次,每次實(shí)驗(yàn)基于已切分的5份數(shù)據(jù)集子集重構(gòu)訓(xùn)練集、驗(yàn)證集和測試集,最終結(jié)果取5次實(shí)驗(yàn)的平均值。為保證雙模型集成的可操作性,在每一輪訓(xùn)練中兩個模型使用相同的數(shù)據(jù)集。實(shí)驗(yàn)首先使用骨干網(wǎng)絡(luò)(Backbone)作為ResNet50卷積層的網(wǎng)絡(luò)在訓(xùn)練集上進(jìn)行訓(xùn)練,并用訓(xùn)練的模型對訓(xùn)練集和驗(yàn)證集進(jìn)行分類。
由表2可見,Beta-x類在訓(xùn)練集上的F1分?jǐn)?shù)遠(yuǎn)高于在驗(yàn)證集上的,而Alpha類和Beta類在訓(xùn)練集上的F1分?jǐn)?shù)只是略高于驗(yàn)證集上的,由此可見,基于ResNet50訓(xùn)練的模型對于訓(xùn)練圖片數(shù)量較少的Beta-x類存在過擬合現(xiàn)象。
表2 使用ResNet50卷積層作為骨干網(wǎng)絡(luò),Alpha類、Beta類和Beta-x類在訓(xùn)練集和驗(yàn)證集上的F1分?jǐn)?shù)
實(shí)驗(yàn)采用比ResNet50卷積層數(shù)更少的AlexNet卷積層作為骨干網(wǎng)絡(luò),從而得到更輕量級的網(wǎng)絡(luò)模型,并重新進(jìn)行訓(xùn)練和分類,結(jié)果如表3。更小更輕的網(wǎng)絡(luò)解決了Beta-x類因數(shù)量較少造成的過擬合問題,且顯著提高了Beta-x類在驗(yàn)證集上的F1分?jǐn)?shù)。但由于此網(wǎng)絡(luò)模型參數(shù)量較少,故模型的擬合能力較弱,導(dǎo)致訓(xùn)練圖像數(shù)量較多的Alpha類和數(shù)量更多的Beta類出現(xiàn)了欠擬合現(xiàn)象,其F1分?jǐn)?shù)低于ResNet50模型分類得到的F1分?jǐn)?shù)。
表3 使用AlexNet作為骨干網(wǎng)絡(luò),Alpha類、Beta類和Beta-x類在訓(xùn)練集和驗(yàn)證集上的F1分?jǐn)?shù)
由此可見,在分類數(shù)據(jù)集各類別數(shù)量極不平衡的情況下,我們無法找出單一的神經(jīng)網(wǎng)絡(luò)模型同時兼顧訓(xùn)練圖像數(shù)量較多和較少的類別。即對于參數(shù)量較大的網(wǎng)絡(luò),擬合能力較強(qiáng),但需要較多的訓(xùn)練圖像,此類模型對分類問題中訓(xùn)練圖像數(shù)量較多的類別更有利;而對于參數(shù)量較少的網(wǎng)絡(luò),擬合能力較弱,但需要較少的訓(xùn)練圖像,此類模型對分類問題中訓(xùn)練圖像數(shù)量較少的類別更有利。因此,本文確立的雙模型集成理論上是有效的。
經(jīng)過多個模型的測試,我們發(fā)現(xiàn)Alpha類和Beta-x類存在互不相干性。由表4可得,在所有模型的分類結(jié)果中,真實(shí)的Alpha類沒有出現(xiàn)或極少出現(xiàn)誤分為Beta-x類的情況,同樣,真實(shí)的Beta-x類沒有出現(xiàn)或極少出現(xiàn)誤分為Alpha類的情況,兩者的錯誤均是因?yàn)榕cBeta類混淆。另外將利用神經(jīng)網(wǎng)絡(luò)提取的三維特征在三維特征空間中顯示,由圖2可以看出,Alpha類和Beta-x類的樣本點(diǎn)在特征空間中距離普遍較遠(yuǎn),兩者特征點(diǎn)極少發(fā)生混疊。上述實(shí)驗(yàn)結(jié)果確定了雙模型集成的可行性,即不同模型的Alpha類與Beta-x類的結(jié)果互不影響,集成后的結(jié)果可以保留兩個模型分別在Alpha類和Beta-x類上的分類精度。因此,本文確立的雙模型集成理論是可行的。
表4 各網(wǎng)絡(luò)模型對驗(yàn)證集的分類結(jié)果中Alpha類和Beta-x類相互誤分的圖像數(shù)量
圖2 Alpha類(紅)、Beta類(綠)和Beta-x類(藍(lán))特征空間分布示意圖
綜合上述情況,本文分別單獨(dú)設(shè)計(jì)一重一輕兩個模型,利用重模型的強(qiáng)擬合能力專注于數(shù)量較多的Alpha類太陽黑子分類;利用輕模型的抗過擬合能力專注于數(shù)量較少的Beta-x類太陽黑子分類,最后再利用Alpha類和Beta-x類的互不相干性,對兩個模型的分類結(jié)果進(jìn)行不損失精度的集成融合,用重模型分出的Alpha類和輕模型分出的Beta-x類夾逼出Beta類,即將未被標(biāo)記類別的樣本劃歸為Beta類,如圖3。
圖3 雙模型集成示意圖Fig.3 Schematic diagram of dual model integration
本文基于ResNet18設(shè)計(jì)了雙通道并行網(wǎng)絡(luò)paraResNet,將其作為參數(shù)較多的大模型針對訓(xùn)練圖像數(shù)量較多的Alpha類;另外基于AlexNet設(shè)計(jì)了miniAlexNet模型,作為參數(shù)較少的小模型針對訓(xùn)練圖像數(shù)量較少的Beta-x類。
1.3.1 網(wǎng)絡(luò)結(jié)構(gòu)
在確立了雙模型集成策略后,本文首先針對性設(shè)計(jì)承擔(dān)Alpha類分類任務(wù)的模型。
比賽主辦方提供的數(shù)據(jù)集中每個太陽黑子群類別均包含兩種圖像,磁場觀測圖像和白光觀測圖像,如圖4。兩圖像尺寸相同,位深相同,故我們首先嘗試將均為8位位深的單通道白光觀測圖像和磁場觀測圖像拼接成16位位深圖像輸入ResNet18網(wǎng)絡(luò)進(jìn)行訓(xùn)練和分類,但是由于紋理特征差異較大,拼接成的雙通道圖像不是一幅自然圖像,分類效果并不理想。故根據(jù)此數(shù)據(jù)集擁有白光和磁場兩種圖像的特點(diǎn),為充分提取白光圖和磁場圖的特征,本文采用與文[13]雙流模型類似的方案,設(shè)計(jì)了雙通道ResNet18并行網(wǎng)絡(luò)以側(cè)重在Alpha類上的分類性能;該網(wǎng)絡(luò)的上下兩個通道分別負(fù)責(zé)提取白光圖和磁圖的圖像特征,而后將提取的特征拼接后輸入全連接網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖5。
圖4 (a)白光觀測圖像;(b)磁場觀測圖像
圖5 paraResNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Network structure diagram of paraResNet
在此基礎(chǔ)上,本文實(shí)驗(yàn)參考文[18]在模型優(yōu)化方面的工作,對ResNet18的下采樣層進(jìn)行改進(jìn),將原本同時兼顧減小特征圖尺寸和改變特征張量深度的卷積層,替換成負(fù)責(zé)減小特征圖尺寸的平均池化層和負(fù)責(zé)改變特征張量深度的步長為1的卷積層,通過任務(wù)分工減輕原卷積核的負(fù)擔(dān),提高下采樣模塊的精度。改進(jìn)方案如圖6。本文將網(wǎng)絡(luò)結(jié)構(gòu)稱為parallel-ResNet18-D,縮寫為paraResNet。
圖6 ResNet18的下采樣改進(jìn)方案:ResNet-D
1.3.2 訓(xùn)練策略
在訓(xùn)練技巧上,本文首先使用單通道白光圖和磁場圖分別對兩個單網(wǎng)絡(luò)ResNet18模型進(jìn)行預(yù)訓(xùn)練(不采用ImageNet預(yù)訓(xùn)練),再將兩個預(yù)訓(xùn)練模型的卷積層遷移至雙網(wǎng)絡(luò)模型的并行卷積層。使用加權(quán)的交叉熵?fù)p失,樣本較少的類別享有更大的權(quán)重,用于減小各類別樣本數(shù)量不均衡帶來的影響。
在數(shù)據(jù)增強(qiáng)方面,由于Alpha類和與其相鄰的Beta類可用于訓(xùn)練的圖像數(shù)量較多,故只采用對圖像信息損失較小的水平鏡像和豎直鏡像的數(shù)據(jù)增強(qiáng)方法。若再使用其他數(shù)據(jù)增強(qiáng)方法,不僅無法提高模型分類正確率,反而影響訓(xùn)練時間。
1.4.1 網(wǎng)絡(luò)結(jié)構(gòu)
針對訓(xùn)練樣本較少的Beta-x類,為減少參數(shù)量,本文未使用雙通道并行網(wǎng)絡(luò)結(jié)構(gòu),而是使用比ResNet18更為輕量級的AlexNet[19]的卷積層作為Beta-x模型的骨干網(wǎng)絡(luò),輸入源為白光圖和磁圖的混合圖像,即圖像的第1個通道為白光圖,第2個通道為磁圖,為使用ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練模型,需保證輸入圖像為常規(guī)三通道圖像,故設(shè)置第3通道為白光圖和磁圖各按0.5權(quán)重的加權(quán)和,以引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)白光圖和磁圖之間的紋理關(guān)聯(lián)信息并填補(bǔ)通道空缺。為進(jìn)一步減少后續(xù)全連接層的參數(shù)量,在最后一個卷積層后接一個輸入大小為3 × 3的自適應(yīng)池化層,最后將特征輸入單層全連接,輸出3個類別的置信度。同時,為了補(bǔ)償網(wǎng)絡(luò)提取圖像特征的能力,為網(wǎng)絡(luò)輸入較高分辨率的圖像,將原圖像分辨率變換為 500 × 375,網(wǎng)絡(luò)結(jié)構(gòu)如圖7。
圖7 miniAlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Network structure diagram of miniAlexNet
1.4.2 訓(xùn)練策略
首先,對數(shù)據(jù)集進(jìn)行清洗。對于 Alpha類和Beta類的數(shù)據(jù),鑒于時間軸連續(xù)性較差,全部保留。對于Beta-x類的數(shù)據(jù),首先按照時間進(jìn)行排序,根據(jù)該類數(shù)據(jù)集圖像序列在時間軸上的強(qiáng)連續(xù)性,對Beta-x類的數(shù)據(jù)以3/4的下采樣率進(jìn)行數(shù)據(jù)清洗,大大降低了數(shù)據(jù)的冗余度和網(wǎng)絡(luò)對重復(fù)信息進(jìn)行無用學(xué)習(xí)的壓力。
由于Beta-x類和Beta類之間的差異較小,故采用降溫技巧,即降低原先輸出的logit值,再通過softmax函數(shù)增加網(wǎng)絡(luò)在學(xué)習(xí)各個類別的差異性,降低網(wǎng)絡(luò)學(xué)習(xí)壓力,提高收斂速度。
在數(shù)據(jù)增強(qiáng)方面,我們采用對圖像信息影響較大但抗過擬合效果更佳的圖像隨機(jī)角度旋轉(zhuǎn)對訓(xùn)練集進(jìn)行增廣,旋轉(zhuǎn)角度控制在90°以內(nèi)。
最后,通過分析對驗(yàn)證集的logit輸出分布,我們發(fā)現(xiàn)當(dāng)Beta-x輸出頭的logit值同Beta輸出頭的logit值的差值在[0, 0.5]區(qū)間時,存在7%的Beta類樣本誤判為Beta-x類。故當(dāng)兩者代表的輸出頭的logit值的差值在[0, 0.5]區(qū)間內(nèi)時,增大Beta類輸出頭的logit值,進(jìn)行概率校正。
基于1.3節(jié)討論的Alpha類和Beta-x類的不相干性,將paraResNet模型得到的分類結(jié)果同miniAlexNet模型的分類結(jié)果融合,即采用前者的Alpha類分類結(jié)果和后者的Beta-x類分類結(jié)果,將未標(biāo)記類別的樣本劃歸為Beta類,從而夾逼出Beta類的分類結(jié)果。
在針對Alpha類的模型訓(xùn)練過程中,本文實(shí)驗(yàn)采用Adam自適應(yīng)優(yōu)化器[20],初始學(xué)習(xí)率定為2 × 10-6;作為隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)的擴(kuò)展,Adam Optimizer能夠根據(jù)每個參數(shù)的先前梯度,自適應(yīng)地調(diào)整梯度的系數(shù),適用于數(shù)據(jù)量較大的情況。即對各個類別的交叉熵?fù)p失施加權(quán)重,所加權(quán)重Alpha類為1.56,Beta類為1.0,Beta-x類為3.05。該權(quán)重基于Alpha類、Beta類和Beta-x類在訓(xùn)練集中的樣本數(shù)量比例進(jìn)行設(shè)置,在該比例的基礎(chǔ)上根據(jù)驗(yàn)證集分類效果進(jìn)行微調(diào),從而能夠在損失層降低訓(xùn)練數(shù)據(jù)類別不均衡帶來的影響。
在針對Beta-x類的模型訓(xùn)練過程中,實(shí)驗(yàn)采用帶有動量的隨機(jī)梯度下降策略,學(xué)習(xí)率為0.000 8,動量參數(shù)為0.9。另外,本實(shí)驗(yàn)做了兩個額外的數(shù)據(jù)集預(yù)處理操作,首先因Beta-x類樣本數(shù)據(jù)量本身較小,故將輸入圖像分辨率修改為500 × 375,盡可能保留數(shù)據(jù)集信息;其次對訓(xùn)練集中的冗余信息進(jìn)行濾除,即對Beta-x類中在時間軸上連續(xù)的圖像樣本序列進(jìn)行以4為步長的下采樣,最終保留891個訓(xùn)練樣本。
實(shí)驗(yàn)采用F1分?jǐn)?shù)作為太陽黑子三分類任務(wù)的衡量指標(biāo),它是精確率和召回率的調(diào)和平均數(shù),最大為1,最小為0;F1分?jǐn)?shù)接近1代表模型在該類別上的分類性能較好,接近0則代表模型在該類別上的分類性能較差。F1分?jǐn)?shù)計(jì)算公式為
(1)
其中,P為精確率;R為召回率。數(shù)據(jù)集共有Alpha,Beta和Beta-x 3個類別,每個類別對應(yīng)一個F1分?jǐn)?shù),因?yàn)锽eta類太陽黑子在現(xiàn)實(shí)中出現(xiàn)概率最高,故實(shí)驗(yàn)將Beta類的F1分?jǐn)?shù)作為首要考慮對象,其次為Alpha類和Beta-x類。
本文針對訓(xùn)練數(shù)據(jù)不平衡的特性,采用針對性的雙模型融合算法,即使用雙通道并行ResNet18進(jìn)行針對性訓(xùn)練得到較好的Alpha類分類模型,使用miniAlexNet進(jìn)行針對性訓(xùn)練得到較好的Beta-x類分類模型。最后再基于Alpha類和Beta-x類的不相干性,將前者的Alpha類分類結(jié)果同后者的Beta類分類結(jié)果進(jìn)行融合,得到最終的三分類結(jié)果。
本文對分類模型的評價指標(biāo)同比賽方要求相同,使用綜合了精確率和召回率的F1分?jǐn)?shù)以衡量模型在測試集上的分類性能。
2.3.1 Alpha類模型
本文首先對Alpha類的模型進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證各項(xiàng)策略的有效性。由表5可見,每一項(xiàng)技巧對模型的分類性能有了顯著提高。數(shù)據(jù)增強(qiáng)(水平鏡像+豎直鏡像)在對圖像信息影響較小的基礎(chǔ)上彌補(bǔ)了訓(xùn)練集較小的問題,增強(qiáng)了抗過擬合能力。雙通道網(wǎng)絡(luò)更好地提取太陽黑子的白光圖像和磁場圖像的特征,更多的參數(shù)也帶來更強(qiáng)的擬合能力。損失加權(quán)平衡了Alpha類和Beta類在訓(xùn)練數(shù)據(jù)量上的不平衡關(guān)系;下采樣模塊精度提高進(jìn)一步提升了網(wǎng)絡(luò)提取特征的有效性。最為關(guān)鍵的是,針對性訓(xùn)練后的雙通道并行模型paraResNet對Alpha類的分類效果非常好。
表5 各項(xiàng)技巧為Alpha模型帶來的F1分?jǐn)?shù)提高
2.3.2 Beta-x模型
我們對Beta-x類的模型進(jìn)行消融實(shí)驗(yàn),驗(yàn)證各項(xiàng)策略的有效性。
由表6可見,每一項(xiàng)技巧對模型的分類性能有了顯著提高。數(shù)據(jù)增強(qiáng)(隨機(jī)角度旋轉(zhuǎn))降低了Beta-x類數(shù)據(jù)量過小帶來的不利影響,降低了小數(shù)據(jù)量帶來的過擬合風(fēng)險(xiǎn);將更高分辨率的圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,彌補(bǔ)了小網(wǎng)絡(luò)特征提取能力的不足;降溫和概率性校正則通過人為調(diào)整干預(yù),提升了模型對復(fù)雜分類邊界的擬合能力;而小巧的網(wǎng)絡(luò)和較少的參數(shù)使miniAlexNet模型對訓(xùn)練數(shù)據(jù)量較少的Beta-x類的分類效果相比雙通道網(wǎng)絡(luò)更好。
表6 各項(xiàng)技巧為Beta-x模型帶來的F1分?jǐn)?shù)提高
2.3.3 雙模型集成
模型最終將paraResNet和miniAlexNet集成,即將前者的Alpha類分類結(jié)果同后者的Beta-x類分類結(jié)果進(jìn)行融合,將未標(biāo)記類別的樣本劃歸為Beta類,最終得到三分類結(jié)果。
由表7可以看出,融合后的模型完全保留了雙通道并行模型paraResNet在Alpha類上得到的F1分?jǐn)?shù)和miniAlexNet模型在Beta-x類上得到的F1分?jǐn)?shù),從而夾逼出比兩者都高的Beta類的F1分?jǐn)?shù),最終在測試集上,Alpha類、Beta類和Beta-x類的F1分?jǐn)?shù)分別為0.970,0.946和0.877。
表7 雙模型集成在測試集上帶來的F1分?jǐn)?shù)提高
本文對文[12]和文[13]設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)以及當(dāng)下主流網(wǎng)絡(luò)結(jié)構(gòu)ResNet[21]在使用翻轉(zhuǎn)增強(qiáng)和損失加權(quán)的基礎(chǔ)上,在SOLAR-STORM1數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
對比實(shí)驗(yàn)結(jié)果如表8,從表8可以看出,本文的paraResNet模型在Alpha類上取得了非常優(yōu)異的效果,F(xiàn)1分?jǐn)?shù)達(dá)0.970;同樣的,本文的miniAlexNet網(wǎng)絡(luò)在Beta-x類上取得了優(yōu)異的性能,F(xiàn)1分?jǐn)?shù)達(dá)到0.877。將paraResNet模型和miniAlexNet模型集成后,保留了前者在Alpha類的性能和后者在Beta-x類的性能,取得了最優(yōu)的Beta類分類結(jié)果,Beta類的F1分?jǐn)?shù)達(dá)到0.946,遠(yuǎn)超所有單網(wǎng)絡(luò)模型。
表8 多種模型實(shí)驗(yàn)結(jié)果Table 8 Experimental results of various models
本文對太陽黑子數(shù)據(jù)集進(jìn)行分析,在論證雙模型集成有效性和可行性的基礎(chǔ)上,通過分別訓(xùn)練針對Alpha類的雙通道并行模型paraResNet和針對Beta-x類的miniAlexNet模型,并將兩者結(jié)果融合夾逼Beta類的方法,巧妙地避免了重模型在少樣本類別的過擬合問題和輕模型在多樣本類別擬合能力不足的問題,且保留了兩者在各自優(yōu)勢類別上的優(yōu)異性能,從全新的角度降低了類別不均衡問題帶來的影響,最終在SOLAR-STORM1數(shù)據(jù)集的3個類別取得的平均F1分?jǐn)?shù)超越了所有單網(wǎng)絡(luò)模型。
雙模型集成算法不僅對太陽黑子分類任務(wù)有效,其余任何三分類任務(wù)均可參考此集成方法,此算法對所有基于機(jī)器學(xué)習(xí)的、各類別樣本數(shù)量不均衡的分類任務(wù)具有啟發(fā)意義。
為了進(jìn)一步減小模型的復(fù)雜度、減少參數(shù)量和前向推理耗時,并降低模型的部署難度,未來我們可以考慮通過知識蒸餾和小樣本學(xué)習(xí)的方式,使單網(wǎng)絡(luò)模型能夠同時兼顧在多樣本類別和少樣本類別的分類性能,從而替代雙模型結(jié)構(gòu)。