王麗麗 張龍威 楊光軍 張俊亮 劉 聰
(1 德州學(xué)院計(jì)算機(jī)與信息學(xué)院德州253023)
(2 德州學(xué)院能源與機(jī)械學(xué)院德州253023)
星系是一個(gè)由恒星、氣體和塵埃等物質(zhì)共同構(gòu)成的巨大系統(tǒng). 一條星系的光譜是由千億顆恒星的累積光而形成的, 記錄了星系成員星的年齡和金屬豐度等相關(guān)信息, 對(duì)星系的各種物理參數(shù)進(jìn)行分析, 可以推導(dǎo)星系的恒星形成歷史和物理化學(xué)演化歷史. 推導(dǎo)星系中的星族成分主要有3大類方法: 基于線指數(shù)的方法、星族合成方法和機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法.
基于線指數(shù)的星族成分分析方法使用了特定譜線的強(qiáng)度或等值寬度,例如Lick指數(shù)[1].根據(jù)線指數(shù)對(duì)年齡或金屬豐度的敏感性[2], 我們可以使用線指數(shù)示蹤某元素的豐度, 也可以度量平均年齡和金屬豐度. 這種方法的優(yōu)勢(shì)是對(duì)消光或流量定標(biāo)不敏感, 而且可以打破星族成分的簡(jiǎn)并. 然而, 線指數(shù)只使用了整個(gè)觀測(cè)光譜范圍之內(nèi)的幾個(gè)特征譜線, 而且由于星系光譜運(yùn)動(dòng)學(xué)致寬且光譜分辨率不夠高,很多譜線會(huì)混雜在一起不易分辨, 給測(cè)量增加了難度. 使用光譜數(shù)據(jù)測(cè)量星族年齡和金屬豐度最常用的方法是星族合成方法, 其基本思想是將光譜模板與待測(cè)光譜進(jìn)行擬合來(lái)推導(dǎo)星系的星族成分, 這種方法使用了光譜上盡可能多的信息. 使用全譜進(jìn)行模板匹配的算法層出不窮, 例如STARLIGHT[3]、PPXF[4](penalized pixel-fitting)和FIREFLY[5](Fitting IteRativEly For Likelihood analYsis)等.這些算法的研究對(duì)象是光譜的積分特征, 所以依賴于待測(cè)光譜和模板光譜的連續(xù)譜形狀. 如果光譜的流量定標(biāo)不準(zhǔn)確, 使用模板匹配方法得到的星族參數(shù)值可能存在較大的不確定性.
隨著大規(guī)模巡天工程的開(kāi)展, 天文數(shù)據(jù)呈現(xiàn)一種爆炸性的增長(zhǎng). 面對(duì)如此海量、高維的天文數(shù)據(jù), 基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方法為數(shù)據(jù)的處理和分析提供了有效思路和途徑. 機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于星系或恒星參數(shù)的測(cè)量[6–9]. 基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的參數(shù)測(cè)量方法的基本原理是使用具有已知物理參數(shù)的訓(xùn)練樣本, 生成統(tǒng)計(jì)模型來(lái)預(yù)測(cè)這些參數(shù)在目標(biāo)數(shù)據(jù)集中的分布. 例如文獻(xiàn)[6]使用星系的紅移、光度和顏色數(shù)據(jù)利用隨機(jī)森林算法估計(jì)星系的恒星質(zhì)量和恒星形成率, 文獻(xiàn)[7–8]構(gòu)建了一個(gè)棧式自編碼深度神經(jīng)網(wǎng)絡(luò), 測(cè)量Sloan Digital Sky Survey (SDSS)的恒星大氣物理參數(shù), 并與神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等算法比較, 結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度更高, 文獻(xiàn)[9]使用深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)測(cè)量星系和暗物質(zhì)暈的物理參數(shù). 但是基于深度學(xué)習(xí)技術(shù)使用光譜數(shù)據(jù)測(cè)量星系年齡和金屬豐度的文獻(xiàn)比較少.
LAMOST (Large Sky Area Multi-Object Fiber Spectroscopic Telescope)[10–11]是我國(guó)研制的一種大型光學(xué)望遠(yuǎn)鏡. 截至2020年6月, 包含先導(dǎo)巡天及正式巡天7 yr的LAMOST Data Release 7(DR7)數(shù)據(jù)集向國(guó)內(nèi)研究人員及國(guó)際合作者發(fā)布, 共發(fā)布光譜10640255條, 其中包括恒星光譜9881260條、星系光譜198393條、類星體66406條、未知天體光譜494196條. 使用LAMOST星系數(shù)據(jù),研究人員進(jìn)行了星系對(duì)[12]、雙峰發(fā)射線星系[13]等方面的研究. 另外, 有文獻(xiàn)測(cè)量了LAMOST星系的星云發(fā)射線[14]和速度彌散[15], 并發(fā)布相應(yīng)的增值星表. LAMOST星系的星族成分測(cè)量方面的相關(guān)研究較少, 主要困難在于LAMOST光譜的流量沒(méi)有得到很好的校準(zhǔn). LAMOST巡天中光譜數(shù)據(jù)處理采用相對(duì)流量定標(biāo)方法, 因選用標(biāo)準(zhǔn)星的紅化具有一定的不確定性, 進(jìn)而在流量定標(biāo)時(shí)影響了光譜連續(xù)譜形狀[14]. 傳統(tǒng)的星族合成方法測(cè)量星族參數(shù)時(shí)依賴于待測(cè)光譜和模板光譜的連續(xù)譜形狀. 所以如果使用星族合成方法推導(dǎo)LAMOST星系光譜的星族成分, 得到的結(jié)果可能會(huì)存在較大的誤差. 在我們前期工作中[16], 提出了一種基于小尺度特征的模板匹配方法對(duì)LAMOST星系估計(jì)平均年齡和金屬豐度, 誤差在0.2 dex左右. 該方法將LAMOST光譜的連續(xù)譜從全譜中扣除后, 使用小尺度特征(主要是吸收線特征)與模板譜進(jìn)行非線性擬合來(lái)推導(dǎo)星族參數(shù). 這種方法使LAMOST星系星族參數(shù)測(cè)量不受連續(xù)譜的影響, 但模板匹配過(guò)程中采用非線性擬合方法, 計(jì)算量較大, 時(shí)間復(fù)雜度比較高.
本文結(jié)合LAMOST星系光譜特點(diǎn)和深度學(xué)習(xí)方法的優(yōu)勢(shì), 提出的參數(shù)估計(jì)方法使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建回歸模型, 推導(dǎo)LAMOST星系的年齡和金屬豐度, 實(shí)現(xiàn)參數(shù)的自動(dòng)估計(jì). 該方法直接使用LAMOST星系光譜的全譜信息進(jìn)行有監(jiān)督的深度學(xué)習(xí), 不需要對(duì)光譜連續(xù)譜進(jìn)行處理來(lái)避免流量定標(biāo)導(dǎo)致的連續(xù)譜不準(zhǔn)確問(wèn)題, 具有很好的應(yīng)用價(jià)值.
我們提出的LAMOST星系星族參數(shù)自動(dòng)估計(jì)的工作流程如圖1所示.
圖1 LAMOST星系星族參數(shù)估計(jì)的工作流程Fig.1 Framework of estimating stellar population parameters for LAMOST galaxies
(1) LAMOST數(shù)據(jù)篩選與數(shù)據(jù)預(yù)處理. 首先,我們從LAMOST DR7中選擇星系光譜作為研究對(duì)象, 挑選滿足一定信噪比和紅移條件的光譜. 將篩選得到的LAMOST星系光譜與SDSS Data Release 16 (DR16)發(fā)布的光譜數(shù)據(jù)(大家公認(rèn)其連續(xù)譜比較準(zhǔn)確)進(jìn)行交叉, 用SDSS同源光譜的年齡和金屬豐度來(lái)標(biāo)記深度學(xué)習(xí)中LAMOST光譜真實(shí)參數(shù)值.對(duì)于LAMOST星系樣本光譜進(jìn)行退紅移和重采樣,作為輸入送入卷積神經(jīng)網(wǎng)絡(luò)中, 對(duì)于使用SDSS同源光譜得到的年齡和金屬豐度作為標(biāo)簽送入網(wǎng)絡(luò)中;
(2)卷積神經(jīng)網(wǎng)絡(luò)回歸模型的構(gòu)建與訓(xùn)練. 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)對(duì)步驟(1)中得到的LAMOST星系樣本及其標(biāo)簽進(jìn)行訓(xùn)練;
(3)卷積神經(jīng)網(wǎng)絡(luò)回歸模型的評(píng)估與對(duì)比. 使用均方根誤差、平均絕對(duì)誤差和標(biāo)準(zhǔn)差等評(píng)價(jià)指標(biāo)來(lái)衡量卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果. 另外, 將該網(wǎng)絡(luò)模型與隨機(jī)森林回歸模型和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比評(píng)價(jià).
LAMOST DR7中包括星系光譜約19萬(wàn)條, 首先按照條件: r波段信噪比S/Nr≥5并且紅移z <0.3篩選光譜數(shù)據(jù), 這樣可以提高分析樣本的質(zhì)量,并且保證主要譜線特征([OIII]λ5007、Hβ、Hα、[NII]λ6585)在LAMOST的觀測(cè)波長(zhǎng)范圍內(nèi). 為了標(biāo)記LAMOST星系光譜的年齡和金屬豐度, 我們將LAMOST 星系光譜與SDSS DR16發(fā)布的光譜數(shù)據(jù)進(jìn)行交叉. 為了減小同一天體的LAMOST觀測(cè)光譜和SDSS觀測(cè)光譜的信噪比差別, 按照兩者信噪比之差小于等于3的條件篩選交叉得到同源光譜.最終得到約2萬(wàn)條LAMOST光譜及其同源SDSS光譜. 對(duì)于這些LAMOST光譜進(jìn)行退紅移, 然后對(duì)光譜進(jìn)行重采樣, 波長(zhǎng)范圍3800–7000 ?A, 采樣間隔為1.5 ?A. 這些處理后的LAMOST光譜作為實(shí)驗(yàn)樣本建立深度學(xué)習(xí)回歸預(yù)測(cè)模型.
本文的目標(biāo)是對(duì)篩選得到的約2萬(wàn)條LAMOST光譜建立回歸預(yù)測(cè)模型,估計(jì)星系的年齡和金屬豐度, 那么首先需要標(biāo)記這些樣本的兩個(gè)物理參數(shù)的真實(shí)值. 我們使用經(jīng)典的全譜匹配方法PPXF[4]對(duì)這些LAMOST光譜的同源SDSS光譜計(jì)算其年齡和金屬豐度, 作為L(zhǎng)AMOST星系物理參數(shù)的真實(shí)值. PPXF的原理是利用模型譜擬合觀測(cè)譜, 這個(gè)模型譜是由多個(gè)不同年齡、不同金屬豐度的簡(jiǎn)單星族(Simple Stellar Population,SSP)組合而成.在本文工作中, SSP取自Vazdekis等人在2010年[17]提出的基于經(jīng)驗(yàn)恒星光譜庫(kù)MILES (Medium resolution INT Library of Empirical Spectra)的模型譜, 我們選用36條SSP, 其中包含了9個(gè)年齡(Age= 0.06、0.12、0.25、0.5、1.0、2.0、4.0、8.0、15 Gyr), 4個(gè)金屬豐度(Z=-1.71、-0.71、0、0.22 dex, 標(biāo)準(zhǔn)化到太陽(yáng)金屬豐度尺度: lg (Z/Z⊙),其中Z⊙表示太陽(yáng)金屬豐度,Z⊙= 0.019 dex). 使用這些模型譜對(duì)SDSS星系光譜進(jìn)行擬合, 最終得到了最佳擬合所對(duì)應(yīng)的加權(quán)平均的年齡和金屬豐度,將這些年齡和金屬豐度作為L(zhǎng)AMOST光譜年齡和金屬豐度的真實(shí)值.
深度學(xué)習(xí)是一種具有很強(qiáng)特征學(xué)習(xí)能力的技術(shù), 尤其是在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別等應(yīng)用領(lǐng)域中都表現(xiàn)得非常突出. 它采用了權(quán)值共享的方式, 減少了權(quán)值的數(shù)量使得網(wǎng)絡(luò)容易優(yōu)化, 自動(dòng)從數(shù)據(jù)中學(xué)習(xí)特征, 并可以將結(jié)果向同類型數(shù)據(jù)進(jìn)行泛化.深度學(xué)習(xí)被廣泛地應(yīng)用于天文領(lǐng)域, 提供了大數(shù)據(jù)時(shí)代解決問(wèn)題的新思路[18–19]. 本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于星系星族參數(shù)的回歸預(yù)測(cè)研究.
回歸預(yù)測(cè)模型屬于有監(jiān)督學(xué)習(xí), 通過(guò)訓(xùn)練大量的有標(biāo)簽星系光譜, 從而獲得識(shí)別無(wú)標(biāo)簽光譜物理參數(shù)(年齡和金屬豐度)的能力, 因此它可以比較準(zhǔn)確地給出星系光譜的物理參數(shù). 該模型由8個(gè)卷積層、4個(gè)池化層、1個(gè)全連接層組成, 其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示.
在圖2中卷積層(Convolution)和池化層(Max-Pool)上方顯示了形如a@b*c的數(shù)字, 其中a表示卷積核的個(gè)數(shù),b*c表示數(shù)據(jù)為b×c維, 全連接層(Dense)和輸出層(Output)上方顯示了形如b*c, 表示數(shù)據(jù)為b×c維.網(wǎng)絡(luò)的輸入是LAMOST星系光譜,每條光譜是2134×1向量,輸出是光譜的年齡和金屬豐度預(yù)測(cè)值. 卷積層中的卷積核的數(shù)量增加后又減少, 前2個(gè)卷積層中有16個(gè)長(zhǎng)度為3的卷積核, 經(jīng)過(guò)池化層后輸入到2個(gè)卷積層(具有64個(gè)長(zhǎng)度為3的卷積核), 再經(jīng)過(guò)池化層輸入到2個(gè)卷積層(具有128個(gè)長(zhǎng)度為3的卷積核), 最后再經(jīng)過(guò)一層池化層輸入到2個(gè)卷積層(具有64個(gè)長(zhǎng)度為3的卷積核). 經(jīng)過(guò)前面若干次卷積和池化后, 數(shù)據(jù)進(jìn)入全連接層和輸出層, 最終得到年齡和金屬豐度的預(yù)測(cè)值.
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Architecture of CNN
卷積層的激活函數(shù)是線性整流函數(shù)(Rectified Linear Unit,ReLU),其表達(dá)式為f(x)=max(x,0),其中max是取最大值的函數(shù),x為上一層網(wǎng)絡(luò)的輸出. ReLU給神經(jīng)元引入了非線性因素, 這樣可以逼近任何非線性函數(shù), 使神經(jīng)網(wǎng)絡(luò)更好地應(yīng)用于非線性的光譜參數(shù)測(cè)量中. 該模型采用Adam優(yōu)化器, Adam是一種自適應(yīng)并且穩(wěn)定的算法, 綜合了動(dòng)量梯度下降學(xué)習(xí)的穩(wěn)定及其學(xué)習(xí)率隨著訓(xùn)練次數(shù)和維度的變化而變化的特點(diǎn). 損失函數(shù)采用均方誤差損失函數(shù)(Mean Squared Error, MSE), 損失函數(shù)MSE用來(lái)衡量的是真實(shí)值與預(yù)測(cè)值的差異. 訓(xùn)練模型時(shí)評(píng)價(jià)函數(shù)采用決定系數(shù)R2(coefficient of determination),度量訓(xùn)練過(guò)程的回歸效果,當(dāng)R2接近1表示預(yù)測(cè)值和真實(shí)值非常接近.
實(shí)驗(yàn)在一臺(tái)處理器Intel?CoreTMi7-10700F CPU@2.90 GHz×16, 內(nèi)存32 GB的電腦上進(jìn)行.
實(shí)驗(yàn)樣本包括約2萬(wàn)條LAMOST光譜, 按照2:8劃分測(cè)試集和訓(xùn)練集,Strain={(x(i),yi),i=1,··· ,N}表示訓(xùn)練集, (x(i),yi)是一個(gè)訓(xùn)練樣本, 其中x(i)= (,··· ,)是n維向量, 表示第i條光譜的流量,yi表示與x(i)對(duì)應(yīng)的物理參數(shù)(年齡和金屬豐度)的真實(shí)值,N表示訓(xùn)練集中所包含的光譜數(shù)量.Stest={(x(i),yi),i=1,··· ,M}表示測(cè)試集,M表示測(cè)試集中所包含的光譜數(shù)量.
我們使用測(cè)試集評(píng)價(jià)深度學(xué)習(xí)模型的預(yù)測(cè)效果, 本文采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和標(biāo)準(zhǔn)差(SD)這3種評(píng)價(jià)指標(biāo), 定義如下:
3.2.1 卷積神經(jīng)網(wǎng)絡(luò)回歸預(yù)測(cè)結(jié)果分析
采用上述設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)驗(yàn)樣本進(jìn)行訓(xùn)練, 訓(xùn)練后的模型對(duì)測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果如圖3所示. 圖3左邊子圖是真實(shí)年齡和預(yù)測(cè)年齡的對(duì)比圖, 右邊子圖是真實(shí)金屬豐度和預(yù)測(cè)金屬豐度的對(duì)比圖. 兩圖中黑色虛線均表示真實(shí)值和預(yù)測(cè)值相等. 真實(shí)值和預(yù)測(cè)值的3種評(píng)價(jià)指標(biāo)RMSE、MAE和SD位于圖的左上角. 從圖3中可以看出, 預(yù)測(cè)結(jié)果比較好, 基本上沒(méi)有系統(tǒng)偏差, 均方根誤差、平均絕對(duì)誤差和標(biāo)準(zhǔn)差都在0.16 dex以內(nèi). 由此可見(jiàn), 使用我們?cè)O(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)回歸模型對(duì)LAMOST光譜測(cè)量星族年齡和金屬豐度與傳統(tǒng)的星族合成方法得到的值基本一致. 這表明對(duì)于流量定標(biāo)不準(zhǔn)確的星系光譜數(shù)據(jù), 有監(jiān)督的深度學(xué)習(xí)方法可以比較準(zhǔn)確地測(cè)量出其物理參數(shù).
圖3 卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果. 左邊子圖是年齡的預(yù)測(cè)值與真實(shí)值的對(duì)比, 右邊子圖是金屬豐度的預(yù)測(cè)值與真實(shí)值的對(duì)比. 注意, 圖中去掉了3σ以外的點(diǎn).Fig.3 Results of CNN. The left panel is the comparison of age between predicted values and true ones, and the right panel is the comparison of metallicity between predicted values and true ones. Note that points out of 3σ are clipped in each panel.
本文方法的預(yù)測(cè)精度(0.16 dex)優(yōu)于文獻(xiàn)[16]提出的基于小尺度特征的模板匹配方法(0.2 dex),并且信噪比低至5時(shí)本文方法對(duì)年齡和金屬豐度的誤差在0.18 dex (此結(jié)果來(lái)自下一節(jié)實(shí)驗(yàn)), 而文獻(xiàn)[16]在信噪比低至5時(shí)的年齡誤差為0.25 dex, 金屬豐度誤差為0.3 dex, 由此可見(jiàn)本文方法在低信噪比時(shí)明顯優(yōu)于文獻(xiàn)[16]. 另外, 我們?cè)谙嗤瑢?shí)驗(yàn)設(shè)備配置下測(cè)量?jī)煞N方法的用時(shí), 結(jié)果表明本文方法的時(shí)間復(fù)雜度明顯低于文獻(xiàn)[16]: 本文方法對(duì)上述2萬(wàn)條LAMOST光譜訓(xùn)練模型并且預(yù)測(cè)參數(shù)共耗時(shí)約3 h, 而使用文獻(xiàn)[16]方法得到1條光譜的星族參數(shù)就需要約1 min. 本文方法的用時(shí)大部分在模型訓(xùn)練上, 一旦模型訓(xùn)練好了, 后續(xù)的參數(shù)估計(jì)用時(shí)非常少. 由此可見(jiàn), 本文方法在計(jì)算上具有很大優(yōu)勢(shì).
3.2.2 卷積神經(jīng)網(wǎng)絡(luò)回歸模型的適用性分析
我們對(duì)上述卷積神經(jīng)網(wǎng)絡(luò)回歸模型的適用性分別從信噪比和星系類型兩個(gè)方面展開(kāi). 首先, 分析模型對(duì)不同信噪比光譜的預(yù)測(cè)效果. 按照r波段信噪比區(qū)間[5, 10)、[10, 15)、[15, 20)、[20, 25)、[25,30)、[30,-)將測(cè)試集分為6部分,對(duì)該模型進(jìn)行測(cè)試. 預(yù)測(cè)值與真實(shí)值的差別隨著信噪比的變化如圖4中實(shí)線所示. 可以看出, 隨著信噪比的增大, 誤差呈下降趨勢(shì), 年齡和金屬豐度誤差在信噪比為5時(shí)最大, 在0.18 dex以下. 這一測(cè)試結(jié)果表明該模型在不同信噪比下均有比較好的預(yù)測(cè)效果.
圖4中虛線表示測(cè)試集樣本的年齡和金屬豐度的內(nèi)稟彌散隨信噪比的變化. 如前所述, 年齡和金屬豐度的標(biāo)簽值是由PPXF擬合LAMOST同源的SDSS光譜得到的, 為了求兩個(gè)參數(shù)的內(nèi)稟彌散, 我們對(duì)每一條SDSS光譜按照其誤差分布重新采樣100次, 然后用PPXF重復(fù)測(cè)量, 取標(biāo)準(zhǔn)差作為年齡和金屬豐度的內(nèi)稟彌散值. 從圖4可以看出, 隨著信噪比的增大, 年齡和金屬豐度的內(nèi)稟彌散呈下降趨勢(shì), 除了信噪比為5時(shí)兩個(gè)參數(shù)的內(nèi)稟彌散略大(低于0.07 dex), 其他情況下內(nèi)稟彌散均低于0.05 dex. 而且隨著信噪比的增大, CNN的預(yù)測(cè)誤差(實(shí)線)越來(lái)越接近內(nèi)稟彌散(虛線), 說(shuō)明對(duì)于高信噪比光譜, CNN的預(yù)測(cè)值越來(lái)越接近給定的標(biāo)簽值.
圖4 卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)誤差隨著信噪比的變化. σ(ΔAge)表示年齡(lg (Age))的預(yù)測(cè)值和真實(shí)值差別的標(biāo)準(zhǔn)差, σ(ΔZ)表示金屬豐度(Z)的預(yù)測(cè)值和真實(shí)值差別的標(biāo)準(zhǔn)差.Fig.4 Dispersion of the differences of the stellar population parameters predicted by CNN as a function of S/Nr. σ(ΔAge)represents the standard deviation of the differences between predicted age (lg (Age)) and true ones, and σ(ΔZ) represents the standard deviation of the differences between predicted metallicity (Z) and true ones.
接下來(lái)我們分析該模型對(duì)于不同類型星系的預(yù)測(cè)效果. 首先按照文獻(xiàn)[14]提出的分類策略, 根據(jù)Hα是否是發(fā)射線將星系數(shù)據(jù)分成吸收線星系(absorption-line galaxies)和發(fā)射線星系(emission-line galaxies), 然后基于BPT圖采用Kauff-mann等[20]和Kewley等[21]提出的經(jīng)驗(yàn)分割線, 將發(fā)射線星系分為star-forming (SF)、composite和AGN 3類. 表1給出了模型對(duì)這4類星系光譜進(jìn)行預(yù)測(cè)得到的年齡和金屬豐度值和真實(shí)值的差別. 可以看出, 模型對(duì)于不同類型星系的參數(shù)預(yù)測(cè)值與真實(shí)值基本一致, 誤差在0.18 dex左右, 其中對(duì)吸收線星系的預(yù)測(cè)誤差最小, 對(duì)AGN預(yù)測(cè)誤差略大. AGN預(yù)測(cè)誤差相對(duì)較大可能是因?yàn)锳GN訓(xùn)練樣本數(shù)量較少(占總樣本數(shù)的3%), 因而構(gòu)建CNN模型時(shí)AGN的特征學(xué)習(xí)不全面導(dǎo)致的.
表1 卷積神經(jīng)網(wǎng)絡(luò)回歸模型對(duì)不同類型星系的參數(shù)預(yù)測(cè)結(jié)果Table 1 Prediction results based on CNN for different types of galaxies
3.2.3 卷積神經(jīng)網(wǎng)絡(luò)與其他機(jī)器學(xué)習(xí)算法的比較
為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)在星族參數(shù)學(xué)習(xí)中的優(yōu)勢(shì), 我們使用另外兩種機(jī)器學(xué)習(xí)算法: 隨機(jī)森林回歸模型和深度神經(jīng)網(wǎng)絡(luò), 對(duì)比3種算法對(duì)星族參數(shù)的預(yù)測(cè)效果.
DNN也可以稱為多層感知機(jī)(Multi-Layer Perceptron, MLP), 是一種全連接的神經(jīng)元結(jié)構(gòu),第j(j= 1,··· ,K -1,K表示網(wǎng)絡(luò)總層數(shù))層的任意一個(gè)神經(jīng)元一定與第j+1層的任意一個(gè)神經(jīng)元相連. 這里使用的DNN的網(wǎng)絡(luò)結(jié)構(gòu)有輸入層、輸出層和3個(gè)隱藏層, 其中每個(gè)隱藏層的神經(jīng)元均為1024個(gè), 輸入層和輸出層與卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一致: 輸入LAMOST光譜即2134×1向量, 輸出為年齡和金屬豐度.
隨機(jī)森林回歸模型(RFR)屬于Bagging類算法, 集成了多個(gè)決策樹(shù). 在訓(xùn)練階段, 算法使用bootstrap采樣從輸入數(shù)據(jù)中選擇多個(gè)不同的子數(shù)據(jù)集對(duì)多個(gè)不同決策樹(shù)進(jìn)行依次訓(xùn)練; 在預(yù)測(cè)階段, 算法將內(nèi)部多個(gè)決策樹(shù)的預(yù)測(cè)結(jié)果取平均值作為最終隨機(jī)森林回歸模型的預(yù)測(cè)結(jié)果. 本文隨機(jī)森林回歸算法中設(shè)置ntree=100,即決策樹(shù)個(gè)數(shù)為100.
將隨機(jī)森林回歸模型和深度神經(jīng)網(wǎng)絡(luò)用于本實(shí)驗(yàn)樣本中, 數(shù)據(jù)集劃分與卷積神經(jīng)網(wǎng)絡(luò)一致, 3種算法的評(píng)價(jià)指標(biāo)值如表2所示. 可以看到年齡和金屬豐度兩個(gè)參數(shù)的3個(gè)評(píng)價(jià)指標(biāo)中卷積神經(jīng)網(wǎng)絡(luò)算法最小, 說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的離散程度比其他兩個(gè)算法小, 它在星系星族參數(shù)的評(píng)估精度上有著較大的優(yōu)勢(shì).
表2 卷積神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸模型和深度神經(jīng)網(wǎng)絡(luò)的結(jié)果對(duì)比Table 2 Comparison of experiment results based on CNN, RFR and DNN
本文使用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)2萬(wàn)條LAMOST星系光譜進(jìn)行回歸分析, 實(shí)驗(yàn)顯示卷積神經(jīng)網(wǎng)絡(luò)對(duì)年齡預(yù)測(cè)的RMSE、MAE和SD分別為0.1595、0.1300、0.1584, 對(duì)金屬豐度預(yù)測(cè)的RMSE、MAE和SD分別為0.1546、0.1252、0.1537, 并且隨著光譜信噪比的增大, 預(yù)測(cè)誤差越來(lái)越小. 另外, 將本文建立的卷積神經(jīng)網(wǎng)絡(luò)回歸模型與隨機(jī)森林回歸模型和深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行比較, 從總體來(lái)看優(yōu)于其他兩種模型, 說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)星系的星族物理參數(shù)(年齡和金屬豐度)的預(yù)測(cè)效果更好. 我們將此深度學(xué)習(xí)模型用于LAMOST新的巡天星系光譜上, 實(shí)現(xiàn)星系年齡和金屬豐度的自動(dòng)測(cè)量. 在下一步的工作中, 我們將繼續(xù)完善深度學(xué)習(xí)模型. 例如在深度學(xué)習(xí)的模型構(gòu)建時(shí)我們使用PPXF 全譜匹配方法計(jì)算SDSS光譜的年齡和金屬豐度作為L(zhǎng)AMOST同源光譜的真實(shí)值, 而這種方法得到的真實(shí)值是存在一定誤差的, 可以嘗試使用星族模板直接合成模擬光譜及其內(nèi)稟參數(shù)值作為訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建星系參數(shù)回歸模型. 另外, 使用深度學(xué)習(xí)方法除了估計(jì)星系的年齡和金屬豐度外, 我們還計(jì)劃對(duì)星系其他參數(shù)如速度彌散、恒星形成率等進(jìn)行回歸預(yù)測(cè).