張士川 鄭小盈
1(中國(guó)科學(xué)院大學(xué)微電子學(xué)院 北京 100049)2(中國(guó)科學(xué)院上海高等研究院 上海 201210)
在天文科學(xué)領(lǐng)域,隨著數(shù)字圖像技術(shù)代替攝影圖像技術(shù),以及大型巡天項(xiàng)目的開(kāi)展,越來(lái)越多的天文數(shù)據(jù)被收集起來(lái)。對(duì)天文數(shù)據(jù)不斷地收集和分析使得天文科學(xué)發(fā)展到一個(gè)新的階段。海量的數(shù)據(jù)給天文科學(xué)的發(fā)展提供了基礎(chǔ),而有效的數(shù)據(jù)處理和分析手段變得極其重要。在天文學(xué)中,合理地將點(diǎn)狀源(恒星)和擴(kuò)展源(星系)分開(kāi)是從光度圖像中提取其他天文數(shù)據(jù)的前提[1],所以恒星/星系識(shí)別一直是天文領(lǐng)域的一個(gè)基礎(chǔ)研究項(xiàng)目。在對(duì)源進(jìn)行分析時(shí),低分辨率高信噪比樣本給恒星/星系識(shí)別任務(wù)帶來(lái)了困難。到目前為止,已經(jīng)出現(xiàn)了很多針對(duì)恒星/星系精確識(shí)別的研究,其中包括了基于形態(tài)和啟發(fā)式分割的方法[2-3],這兩類(lèi)方法在識(shí)別暗星體(低分辨率高信噪比)時(shí)表現(xiàn)出明顯的不足。由于目前已經(jīng)獲得了大量恒星和星系的觀測(cè)數(shù)據(jù),所以最近很多研究將機(jī)器學(xué)習(xí)方法引入到恒星/星系識(shí)別任務(wù)中。
隨著計(jì)算機(jī)存儲(chǔ)和計(jì)算能力的發(fā)展,將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法的研究推向一個(gè)新的高潮。機(jī)器學(xué)習(xí)方法在諸多交叉領(lǐng)域的優(yōu)勢(shì)日益突出,比如醫(yī)療、生物、金融以及安防等。隨著大型巡天項(xiàng)目的實(shí)施和開(kāi)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法逐漸應(yīng)用到天文領(lǐng)域。Zhu等[4]應(yīng)用深度學(xué)習(xí)方法進(jìn)行脈沖星識(shí)別,有效提高脈沖星識(shí)別的召回率;Daniel等[5]將深度學(xué)習(xí)應(yīng)用到實(shí)時(shí)的引力波檢測(cè)和參數(shù)估計(jì)中;Xu等[6]應(yīng)用機(jī)器學(xué)習(xí)方法進(jìn)行天文大數(shù)據(jù)歸檔,使得越來(lái)越多的天文任務(wù)可以用機(jī)器學(xué)習(xí)方法得到很好的解決。
斯隆數(shù)字巡天計(jì)劃(Sloan Digital Sky Survey,SDSS)[7]收集了大量的恒星和星系觀測(cè)數(shù)據(jù)以及光譜認(rèn)證數(shù)據(jù),為利用機(jī)器學(xué)習(xí)方法進(jìn)行恒星/星系識(shí)別提供了條件。Vasconcellos等[8]用決策樹(shù)方法進(jìn)行恒星/星系識(shí)別,并比較了13種決策樹(shù)的識(shí)別效果;李超等[9]總結(jié)了3種增強(qiáng)學(xué)習(xí)方法在恒星/星系上的識(shí)別效果,最終得出XGboost方法在暗星上的識(shí)別效果明顯優(yōu)于其他方法;秦浩然等[11]運(yùn)用堆疊降噪自編器提高了對(duì)SDSS數(shù)據(jù)集中暗星體的識(shí)別精確。除了對(duì)SDSS數(shù)據(jù)庫(kù)中星體觀測(cè)屬性值的研究,也有應(yīng)用深度學(xué)習(xí)方法直接識(shí)別恒星和星系圖像的研究,比如Noble等[11]考慮環(huán)境因素的影響設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò)模型提取全局特征,有效提高了暗星體的識(shí)別精準(zhǔn)度,Edward等[12]充分利用深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),直接對(duì)恒星和星系圖片進(jìn)行識(shí)別。在這些研究之前,也有應(yīng)用自動(dòng)聚類(lèi)算法進(jìn)行恒星/星系分類(lèi)任務(wù)的研究工作[13]。
在之前的研究工作中對(duì)亮星體的識(shí)別準(zhǔn)確率達(dá)到了較高水平,但對(duì)暗星體的識(shí)別效果相對(duì)較差,主要是因?yàn)榘敌羌泻阈呛托窍档奶卣鞅憩F(xiàn)差距較小,而且暗星集樣本數(shù)量較少,不利于模型的訓(xùn)練。面臨這些挑戰(zhàn),本文提出了用于恒星/星系分類(lèi)的硬調(diào)整孿生網(wǎng)絡(luò)模型,極大地提高了暗星數(shù)據(jù)集的識(shí)別精度,而且還提出了用于亮星數(shù)據(jù)集的代價(jià)敏感模型,使亮星的識(shí)別精度也有所提高。
斯隆數(shù)字巡天(SDSS)是迄今為止最大規(guī)模的星系圖像和光譜巡天項(xiàng)目,獲得了上百萬(wàn)天體的測(cè)光數(shù)據(jù)和光譜認(rèn)證數(shù)據(jù),SDSS各個(gè)階段的數(shù)據(jù)都以數(shù)據(jù)庫(kù)的形式加以公開(kāi),使得科研工作者可以使用(SQL)直接查詢(xún)獲得。SDSS的測(cè)光系統(tǒng)利用6組CCD(Charged-coupled Device)同時(shí)對(duì)天體進(jìn)行五個(gè)波段的測(cè)量(u,g,r,i,z),所有的測(cè)量數(shù)據(jù)都存儲(chǔ)在數(shù)據(jù)庫(kù)相應(yīng)的表中。在SDSS第三階段最新公開(kāi)的數(shù)據(jù)集DR-12(Data Released 12)中包含了近5億條測(cè)光記錄。大量的SDSS測(cè)光數(shù)據(jù)對(duì)眾多天文工作提供了基本支持,比如恒星/星系分類(lèi)、星體演化、恒星種群、銀河系的構(gòu)成等,所以SDSS數(shù)據(jù)的公開(kāi)極大地促進(jìn)了天文領(lǐng)域的發(fā)展。SDSS共分為SDSS-1、SDSS-2和SDSS-3三個(gè)階段,本文研究中所用到的數(shù)據(jù)集為第二階段最后公開(kāi)的數(shù)據(jù)集DR-7(Data Release 7)。
DR-7數(shù)據(jù)集包含了大量的測(cè)光記錄,本文利用其中帶有光譜認(rèn)證的部分?jǐn)?shù)據(jù),結(jié)合SDSS數(shù)據(jù)庫(kù)中PhotoObj和SpecObj兩個(gè)表,綜合得到所需數(shù)據(jù)。在所有的波段測(cè)量中使用了r波段數(shù)據(jù),參照文獻(xiàn)[8]選擇了13條屬性作為每一條測(cè)光記錄的初始特征,從SpecObj中選擇一個(gè)光譜認(rèn)證參數(shù)作為標(biāo)簽,有助于最后對(duì)模型效果的測(cè)試。標(biāo)簽信息是從SpecObj表中的SpecClass屬性中獲得的,SpecClass屬性的屬性值是0~7,8種數(shù)字分別代表了7種不同星體和一種未知類(lèi)型的星體,其中數(shù)字“1”和“2”分別代表了恒星(Star)和星系(Galaxy)。
在選取實(shí)驗(yàn)數(shù)據(jù)的過(guò)程中,刪除了含有屬性缺失值的記錄,在SDSS數(shù)據(jù)庫(kù)中缺失值以“-9999”形式呈現(xiàn),最終得到了80多萬(wàn)條實(shí)驗(yàn)數(shù)據(jù)。根據(jù)屬性modelMag_r的取值范圍,將得到的80多萬(wàn)條實(shí)驗(yàn)數(shù)據(jù)分成亮星集、暗星集和極暗星集。把modelMag_r屬性值大于等于14并且小于19的記錄記為亮星集(Bright Set,BS)樣本,modelMag_r屬性值大于等于19并且小于20.5的記錄記為暗星集(Faint Set,F(xiàn)S)樣本,modelMag_r屬性值大于等于20.5并且小于等于21的記錄記為極暗星集(Extreme Faint Set,EFS)樣本[9]。
針對(duì)BS、FS和EFS數(shù)據(jù)集,本文分別采用不同的算法模型。由于在亮星集BS中恒星和星系的類(lèi)間距離較大,恒星和星系的差異比較明顯,用傳統(tǒng)的機(jī)器學(xué)習(xí)模型可以達(dá)到較好的效果。但在暗星集FS和極暗星集EFS中,由于受到環(huán)境影響使得恒星和星系之間的測(cè)光數(shù)據(jù)差異不明顯,很難將星系從眾多的星體中識(shí)別出來(lái),所以在恒星/星系識(shí)別任務(wù)中,主要面臨困難樣本挖掘[14]問(wèn)題。本文所提出的基于深度學(xué)習(xí)的代價(jià)敏感模型和帶硬調(diào)整手段的孿生神經(jīng)網(wǎng)絡(luò)(Siamese Neural Networks,SNN)模型不僅能夠很好地解決暗星集中的恒星/星系分類(lèi)問(wèn)題,而且也適用于很多其他的困難樣本挖掘任務(wù)中。
在介紹深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)之前,需要了解DNN的基本組成單元——感知機(jī)。感知機(jī)是沒(méi)有激活函數(shù)的神經(jīng)元,一般用來(lái)處理線(xiàn)性可分問(wèn)題。為了解決線(xiàn)性不可分問(wèn)題,需要給感知機(jī)引入非線(xiàn)性因素—非線(xiàn)性激活函數(shù)??梢园迅兄獧C(jī)的作用過(guò)程看作是輸入的加權(quán)求和,而激活函數(shù)就是對(duì)求和后的結(jié)果進(jìn)行非線(xiàn)性變換。目前已有很多對(duì)激活函數(shù)進(jìn)行研究的工作[15]。在不同的任務(wù)和模型中,選擇合適的激活函數(shù)極其重要,考慮到常用激活函數(shù)的缺陷和不足,本文選擇了PReLU激活函數(shù)[16],可以解決梯度消失等問(wèn)題,其表達(dá)式為:
(1)
式中:參數(shù)a是在模型訓(xùn)練的過(guò)程中確定的,是可訓(xùn)練參數(shù)。該激活函數(shù)增加了模型的參數(shù)量,增強(qiáng)模型的擬合能力。神經(jīng)元包含了非線(xiàn)性因素,為了模擬和逼近任意的非線(xiàn)性函數(shù),將多個(gè)神經(jīng)元進(jìn)行堆疊組成一層,然后再堆疊多層得到了包含多個(gè)隱含層的DNN,如圖1所示。
圖1 深度神經(jīng)網(wǎng)絡(luò)(DNN)模型結(jié)構(gòu)
若將該模型應(yīng)用到恒星/星系分類(lèi)任務(wù)上,輸入是長(zhǎng)度為13的向量,即為網(wǎng)絡(luò)的輸入層,對(duì)于二分類(lèi)任務(wù)輸出層長(zhǎng)度為2,可以分別表示屬于兩個(gè)類(lèi)別的概率或者得分。
在恒星/星系識(shí)別任務(wù)中,最重要的挑戰(zhàn)是提高模型在極暗星集EFS中的識(shí)別效果。在EFS數(shù)據(jù)集中,受環(huán)境影響因素較大,恒星和星系并沒(méi)有表現(xiàn)出明顯的差異。如果從數(shù)據(jù)多維空間分布上考慮,恒星和星系存在較多重疊交叉。為了更好地可視化數(shù)據(jù),利用主成分分析(PCA)將星體的13維測(cè)光數(shù)據(jù)進(jìn)行降維,圖2(a)是兩類(lèi)數(shù)據(jù)在二維平面上投影后的效果??梢钥吹?,恒星和星系并沒(méi)有明顯的分界面,所以PCA這種降維的特征提取算法并不能使后續(xù)的分類(lèi)模型達(dá)到很好的效果。
(a) PCA降維 (b) SNN圖2 PCA降維和SNN特征提取特征空間分布對(duì)比
在EFS數(shù)據(jù)集中還面臨著標(biāo)注樣本數(shù)量少的問(wèn)題,只有3 000多個(gè)。利用深度學(xué)習(xí)方法解決實(shí)際問(wèn)題時(shí),一個(gè)基本的條件是需要大量的有標(biāo)注的訓(xùn)練樣本,否則深度網(wǎng)絡(luò)模型會(huì)發(fā)生過(guò)擬合,表現(xiàn)為在訓(xùn)練集的偏差過(guò)小,而在測(cè)試集的偏差過(guò)大。所以本文應(yīng)用孿生網(wǎng)絡(luò)(Siamese Neural Networks,SNN)[18]模型對(duì)樣本數(shù)據(jù)進(jìn)行特征提取,SNN的網(wǎng)絡(luò)結(jié)構(gòu)是基于DNN的變形,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 孿生網(wǎng)絡(luò)(SNN)模型結(jié)構(gòu)
孿生網(wǎng)絡(luò)是一種同構(gòu)雙網(wǎng)絡(luò)結(jié)構(gòu),即并置的兩個(gè)部分網(wǎng)絡(luò)A和網(wǎng)絡(luò)B,其中A和B是具有相同結(jié)構(gòu)的DNN模型,共享網(wǎng)絡(luò)參數(shù)ω。孿生網(wǎng)絡(luò)的輸入與傳統(tǒng)的網(wǎng)絡(luò)模型不同,不再是單個(gè)樣本數(shù)據(jù),而是成對(duì)的樣本數(shù)據(jù)。如圖3所示,樣本數(shù)據(jù)x1和x2分別輸入到網(wǎng)絡(luò)A和網(wǎng)絡(luò)B中,在訓(xùn)練前給這對(duì)樣本賦予新的標(biāo)簽信息。成對(duì)的樣本輸入可以大大增加訓(xùn)練樣本數(shù)量,在一定程度上解決了小樣本學(xué)習(xí)[17]問(wèn)題,所以利用孿生網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提高在EFS數(shù)據(jù)集中的識(shí)別效果。在測(cè)試階段,應(yīng)用訓(xùn)練好的SNN的任意一個(gè)分支進(jìn)行特征提取,提取出更具表達(dá)能力的樣本特征。
SNN的輸出和傳統(tǒng)的DNN不同,不再是樣本屬于各個(gè)類(lèi)別的概率或得分,而是對(duì)樣本數(shù)據(jù)進(jìn)行特征提取后新的特征向量。設(shè)置相同結(jié)構(gòu)的兩部分網(wǎng)絡(luò)A和B,是為了在一次前向過(guò)程中處理成對(duì)樣本,即分別輸出兩個(gè)樣本的特征向量,通過(guò)比較兩個(gè)向量的相似性來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)。成對(duì)樣本只有同類(lèi)和不同類(lèi)兩種情況,所以可以通過(guò)用兩個(gè)相同的網(wǎng)絡(luò)A和B處理一對(duì)樣本來(lái)學(xué)得樣本間同類(lèi)和異類(lèi)的信息。在訓(xùn)練階段,網(wǎng)絡(luò)A和網(wǎng)絡(luò)B各有一個(gè)輸出a1和a2分別對(duì)應(yīng)輸入x1和x2。在損失函數(shù)中通過(guò)比較a1和a2的距離來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)ω。應(yīng)用對(duì)比損失(Contrastive Loss,CL)[18]來(lái)調(diào)整網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化:
CL=yd2+(1-y)max(margin-d,0)2
(2)
式中:y為成對(duì)樣本的標(biāo)簽,y由成對(duì)樣本x1和x2的原始標(biāo)簽確定,如果x1和x2的原始標(biāo)簽相同,則成對(duì)樣本標(biāo)簽y為1,否則為0。d是網(wǎng)絡(luò)A和網(wǎng)絡(luò)B輸出a1和a2的距離度量。在對(duì)比損失中距離度量可以有很多形式,在實(shí)驗(yàn)中應(yīng)用歐氏距離。margin是設(shè)定的閾值,當(dāng)成對(duì)樣本原始標(biāo)簽不同即y為0時(shí),只剩下一項(xiàng)max(margin-d,0)2,此時(shí)希望d越大越好,當(dāng)d超過(guò)閾值margin時(shí)損失為0。當(dāng)成對(duì)樣本原始標(biāo)簽相同即y為1時(shí),只剩下一項(xiàng)yd2,此時(shí)希望d越小越好,d越小損失越小。所以可以通過(guò)最小化如式(2)所示的代價(jià)函數(shù)來(lái)增大不同類(lèi)樣本之間的距離,減小同類(lèi)樣本之間的距離。用訓(xùn)練完成的SNN對(duì)星體的觀測(cè)數(shù)據(jù)做特征提取,每一條觀測(cè)數(shù)據(jù)用提取后的特征向量表示,最后用K-近鄰算法(KNN)進(jìn)行分類(lèi)。
應(yīng)用SNN可以有效提高EFS數(shù)據(jù)集中的恒星/星系識(shí)別效果,有效解決了訓(xùn)練樣本少和困難樣本挖掘兩個(gè)問(wèn)題。而在BS和FS數(shù)據(jù)集中,樣本數(shù)量充足,但仍然面臨著困難樣本挖掘問(wèn)題和類(lèi)間不均衡問(wèn)題。如果簡(jiǎn)單應(yīng)用SNN結(jié)構(gòu),大量的數(shù)據(jù)使得成對(duì)樣本組合方式爆炸式增長(zhǎng),利用SNN沒(méi)有辦法在短時(shí)間內(nèi)充分學(xué)習(xí)所有樣本信息,所以本文選擇了簡(jiǎn)單的DNN結(jié)構(gòu)。這里借鑒集成學(xué)習(xí)中Boosting[19]的思想,增強(qiáng)對(duì)易分錯(cuò)樣本的訓(xùn)練,通過(guò)改變訓(xùn)練過(guò)程中用到的代價(jià)函數(shù),讓模型對(duì)易分錯(cuò)樣本進(jìn)行更充分學(xué)習(xí),我們稱(chēng)使用該代價(jià)函數(shù)的模型為代價(jià)敏感(Cost Sensitive,CS)模型。和傳統(tǒng)的集成學(xué)習(xí)相比,通過(guò)改進(jìn)代價(jià)函數(shù)可以簡(jiǎn)化訓(xùn)練過(guò)程以及縮短訓(xùn)練時(shí)間,在一定程度上提高識(shí)別效果。
(3)
(4)
本節(jié)具體介紹實(shí)驗(yàn)配置和具體過(guò)程,最后與其他相關(guān)工作進(jìn)行實(shí)驗(yàn)結(jié)果比較。本文應(yīng)用深度學(xué)習(xí)工具Pytorch進(jìn)行了網(wǎng)絡(luò)模型的構(gòu)建,同時(shí)應(yīng)用GeForce GTX 1080進(jìn)行訓(xùn)練加速。
每一個(gè)星體樣本數(shù)據(jù)都是長(zhǎng)度為13的向量,該向量的每一個(gè)分量都代表一個(gè)屬性,擁有不同的物理意義,所以每一個(gè)分量的量綱差距較大。表1所示是實(shí)驗(yàn)數(shù)據(jù)的3條樣例,展示了每條樣例的3個(gè)屬性,每一個(gè)屬性的取值大小相差較大,取值范圍不同。如果使用原始的特征向量來(lái)訓(xùn)練網(wǎng)絡(luò)模型,會(huì)嚴(yán)重影響模型的泛化性。本文按照屬性進(jìn)行標(biāo)準(zhǔn)化,把每一種屬性的取值都控制在相同的取值區(qū)間內(nèi)。標(biāo)準(zhǔn)化處理的計(jì)算式為:
(5)
表1 原始數(shù)據(jù)樣例展示
應(yīng)用SQL查詢(xún)語(yǔ)言,從原始的SDSS數(shù)據(jù)庫(kù)中得到了約88萬(wàn)條實(shí)驗(yàn)數(shù)據(jù),然后根據(jù)屬性modelMag_r取值范圍的不同將所有數(shù)據(jù)劃分為BS、FS和EFS三個(gè)數(shù)據(jù)集。表2統(tǒng)計(jì)了各個(gè)數(shù)據(jù)集恒星和星系的數(shù)量。
表2 數(shù)據(jù)集數(shù)據(jù)量信息
BS數(shù)據(jù)集約有762 788條星系數(shù)據(jù),將近58 610條恒星數(shù)據(jù);FS數(shù)據(jù)集共有62 782多條數(shù)據(jù);EFS數(shù)據(jù)集共有約3 570條數(shù)據(jù)。為了和文獻(xiàn)[8]、文獻(xiàn)[9]做對(duì)比實(shí)驗(yàn),本文采用相同的數(shù)據(jù)集劃分方式,同樣做十折交叉驗(yàn)證,將各個(gè)數(shù)據(jù)集平均劃分成10份,每次混洗后選擇不同的9份做訓(xùn)練,另外1份做測(cè)試,如此重復(fù)10次,實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值。
在上述的三個(gè)數(shù)據(jù)集中都存在不同程度的類(lèi)間不均衡問(wèn)題,所以選擇了與文獻(xiàn)[8]、文獻(xiàn)[9]相同的實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)完備函數(shù)CP,其計(jì)算式表示為:
(6)
對(duì)于BS和FS數(shù)據(jù)集,本文直接選擇含有2個(gè)隱藏層的全連接網(wǎng)絡(luò),每個(gè)隱藏層的單元個(gè)數(shù)為100,輸出層為2,即類(lèi)別個(gè)數(shù)。用式(4)作為代價(jià)函數(shù)進(jìn)行訓(xùn)練,優(yōu)化網(wǎng)絡(luò)參數(shù),通過(guò)實(shí)驗(yàn)調(diào)整超參數(shù)α和γ。對(duì)于BS數(shù)據(jù)集,設(shè)置α和γ分別為0.7和2.0;對(duì)于FS數(shù)據(jù)集,設(shè)置α和γ分別為0和2.0。對(duì)于EFS數(shù)據(jù)集,采用圖2所示的孿生網(wǎng)絡(luò)(SNN)結(jié)構(gòu),網(wǎng)絡(luò)A和B的結(jié)構(gòu)同樣是含有2個(gè)隱藏層的全連接網(wǎng)絡(luò),用式(2)作為代價(jià)函數(shù)進(jìn)行訓(xùn)練,優(yōu)化網(wǎng)絡(luò)參數(shù),其中超參數(shù)margin設(shè)置為1.5。
對(duì)于BS數(shù)據(jù)集,恒星和星系之間有較明顯的差別,主要面臨的問(wèn)題是類(lèi)間不均衡問(wèn)題。所以式(4)中不同的α所訓(xùn)練出的模型,最終的識(shí)別效果不同,圖4給出了完備函數(shù)CP、準(zhǔn)確率accuracy以及F1-score隨α的變化情況??梢钥闯鐾ㄟ^(guò)調(diào)整參數(shù)α可以使得CP最高可達(dá)99.95%,當(dāng)α取0.7時(shí)分類(lèi)模型為最優(yōu)狀態(tài),在CP較高的情況下,保證accuracy和F1-score最高。
圖4 調(diào)整α對(duì)BS數(shù)據(jù)集識(shí)別效果的影響
對(duì)于FS數(shù)據(jù)集,由于類(lèi)間的不均衡程度較小,直接設(shè)置α為0,根據(jù)實(shí)驗(yàn)調(diào)節(jié)參數(shù)γ,圖5給出了完備函數(shù)CP和準(zhǔn)確率accuracy隨γ的變化情況。從圖中可知當(dāng)參數(shù)γ取2.0時(shí)完備函數(shù)CP和準(zhǔn)確率accuracy都達(dá)到最高,分別是96.62%和96.56%。
圖5 調(diào)整γ對(duì)FS數(shù)據(jù)集識(shí)別效果的影響
EFS數(shù)據(jù)集由于識(shí)別難度較大,同時(shí)面臨著類(lèi)間差距小、類(lèi)間不均衡和小樣本數(shù)據(jù)三個(gè)問(wèn)題。本文應(yīng)用孿生網(wǎng)絡(luò)結(jié)構(gòu)以及困難樣本挖掘的訓(xùn)練技巧可以有效提高在EFS數(shù)據(jù)集中的識(shí)別效果。將數(shù)據(jù)成對(duì)輸入網(wǎng)絡(luò)參與訓(xùn)練,可以有效增加訓(xùn)練數(shù)據(jù)的多樣性。假設(shè)原始訓(xùn)練集有q個(gè)樣本,從q個(gè)樣本中隨機(jī)選擇一對(duì)樣本輸入,則有q(q-1)/2種不同的輸入,即對(duì)于孿生網(wǎng)絡(luò)訓(xùn)練集樣本量增加了q(q-3)/2。對(duì)于EFS數(shù)據(jù)集中的數(shù)據(jù),分別通過(guò)PCA降維和孿生網(wǎng)絡(luò)提取2維特征,然后以坐標(biāo)的形式在二維平面上展示出來(lái),如圖2所示。通過(guò)圖2(a)、(b)的對(duì)比,可以明顯看出應(yīng)用孿生網(wǎng)絡(luò)提取的特征使得類(lèi)內(nèi)距離減小類(lèi)間距離增大,空間位置重疊樣本個(gè)數(shù)減少,兩類(lèi)樣本呈現(xiàn)出明顯的分界線(xiàn)。
在EFS數(shù)據(jù)集中仍然存在類(lèi)間不均衡問(wèn)題,所以在孿生網(wǎng)絡(luò)訓(xùn)練過(guò)程中,隨機(jī)抽取一對(duì)樣本作為網(wǎng)絡(luò)輸入,樣本對(duì)(恒星,星系)、(恒星,恒星)、(星系,星系)和(星系,恒星)出現(xiàn)的概率是不同的,為了使SNN在類(lèi)間和類(lèi)內(nèi)充分學(xué)得樣本信息,手動(dòng)控制這4類(lèi)樣本對(duì)出現(xiàn)的概率相同。本文稱(chēng)之為硬調(diào)整手段,此訓(xùn)練方式加模型結(jié)構(gòu)稱(chēng)為H-SNN。
采用相同的評(píng)價(jià)指標(biāo)完備函數(shù)CP,對(duì)比了之前的相關(guān)工作在相同數(shù)據(jù)集上的識(shí)別效果。如表3所示,在BS和FS數(shù)據(jù)集上本文的代價(jià)敏感(CS)模型對(duì)星系的識(shí)別效果有微小提升,本文H-SNN模型大幅提高了在EFS數(shù)據(jù)集上的星系識(shí)別效果,使得評(píng)價(jià)指標(biāo)達(dá)到87.5%。
表3 各模型CP結(jié)果對(duì)比(%)
很多簡(jiǎn)單傳統(tǒng)的機(jī)器學(xué)習(xí)方法在數(shù)據(jù)干凈、數(shù)據(jù)量大的亮星集中都可以達(dá)到很好的分類(lèi)效果,所以目前針對(duì)恒星/星系識(shí)別的研究主要是為了提升模型對(duì)暗星的識(shí)別效果。本文針對(duì)極暗星集(EFS)數(shù)據(jù)量小、類(lèi)間差距小的特點(diǎn),提出利用硬調(diào)整孿生網(wǎng)絡(luò)(H-SNN)提取特征然后用KNN分類(lèi)的方法,使得在EFS數(shù)據(jù)集中CP較之前最好結(jié)果提升了8%左右;針對(duì)暗星集(FS)數(shù)據(jù)量充足、部分?jǐn)?shù)據(jù)難分的特點(diǎn)提出利用代價(jià)敏感(CS)模型進(jìn)行識(shí)別分類(lèi),使得在FS數(shù)據(jù)集中CP較之前最好結(jié)果提升了1%左右;仍然將CS模型應(yīng)用到亮星集(BS)中進(jìn)行訓(xùn)練和測(cè)試,使得在BS數(shù)據(jù)集中CP較之前最好結(jié)果仍有微小提升。雖然本文從識(shí)別算法著手大幅提升了對(duì)暗星體的識(shí)別效果,但其仍有較大的上升空間,今后還可以從另一個(gè)研究方向努力,即收集更多干凈有效的暗星體觀測(cè)數(shù)據(jù)[10]。