李航飛,屠良平,胡煜寒,劉 昊,趙 健
遼寧科技大學(xué)理學(xué)院, 遼寧 鞍山 114051
在天文學(xué)研究中,各類天體對應(yīng)的物理參數(shù)對于研究天體的形成、結(jié)構(gòu)以及演化具有極其重要的作用。 要想精確的測量天體的某一個物理參數(shù)如質(zhì)量、大小及年齡,科學(xué)家往往要基于幾十個精細(xì)物理系統(tǒng)來觀測分析得到。 但在面對大型巡天計劃如我國大科學(xué)工程LAMOST項目[1]時,這種方式就不適用了,在大樣本統(tǒng)計天文學(xué)中,科學(xué)家也可以容忍精度稍低但計算效率更高的方法。 LAMOST這類項目可以獲取數(shù)百萬甚至上千萬的天體光譜,這些數(shù)據(jù)為我國天文學(xué)家研究銀河系和星系的形成與演化,提供了有力的基礎(chǔ)性數(shù)據(jù),也為許多天文學(xué)研究取得重大突破奠定了基礎(chǔ)[2]。 而利用光譜數(shù)據(jù)研究快速高效的算法來測量天體目標(biāo)的物理參數(shù)顯然具有重要意義和價值。
基于LAMOST光譜數(shù)據(jù),本文主要研究其中一類天體——恒星大氣物理參數(shù)的自動測量。 恒星大氣物理參數(shù)主要包含有效溫度(Teff),金屬豐度([Fe/H]),表面重力(Logg)。 這一課題吸引了一些學(xué)者進(jìn)行了相關(guān)算法方面的研究,如王杰[3]等提出了線指數(shù)方法,即通過選擇最佳的線指數(shù)來建立回歸模型,進(jìn)而進(jìn)行回歸預(yù)測。 潘儒揚[4]等提出的深度學(xué)習(xí)方法,也被應(yīng)用在恒星大氣物理參數(shù)測量方面,他指出深度學(xué)習(xí)在處理非線性數(shù)據(jù)的時候表現(xiàn)出比較好的特性。 Yang[5]等采用反饋型神經(jīng)網(wǎng)絡(luò)算法進(jìn)行參數(shù)測量,通過采用自編碼進(jìn)行特征提取,之后建立模型進(jìn)行參數(shù)測量。 Lu[6]等采用LASSO方法進(jìn)行天體光譜參數(shù)測量,即通過小波變化進(jìn)行降噪,采用支持向量回歸(support vector regression, SVR)方法進(jìn)行特征提取,測量結(jié)果在接受范圍內(nèi)。 Liu[7]等采用SVR模型進(jìn)行天體表面重力的參數(shù)測量,實驗結(jié)果表明該方法在巨行星的表面重力的參數(shù)測量準(zhǔn)確度方面有提升,Li[8]等提出一種通過線性模式提取光譜的線性支持特征,能夠定量的評估提取的特征貢獻(xiàn)度,通過合理的選擇特征,利用線性回歸方法進(jìn)行參數(shù)測量,預(yù)測結(jié)果的平均絕對誤差在接受范圍內(nèi)。 而利用核思想的則有Xiang等[9]提出的基于核主成分思想的恒星參數(shù)測量方法,該方法在LAMOST信噪比大于50以上的恒星光譜數(shù)據(jù)中測量效果非常好。 本文采用的是核嶺回歸(kernel ridge regression,KRR)[10]算法,首次將該算法應(yīng)用在天體光譜參數(shù)測量上面,實驗結(jié)果表明該方法在天體光譜參數(shù)測量方面是可行的。
大多數(shù)變量之間都存在著這樣或者那樣的關(guān)系,而這些不確定的關(guān)系導(dǎo)致模型訓(xùn)練的時候參數(shù)趨向無窮大,影響模型的質(zhì)量,其中影響比較大的就是多重共線性。 多重共線性是變量之間存在高度相關(guān)性,導(dǎo)致參數(shù)無法求出確定解。 在大數(shù)據(jù)時代,數(shù)據(jù)一般都是高維,所以共線性[11]問題不容忽視,而KRR方法在解決這一問題時具有優(yōu)勢。
本文要處理的光譜每條采樣點有幾千個,即相對應(yīng)的數(shù)據(jù)高達(dá)數(shù)千維,所以在處理時通常要進(jìn)行降維。 降維后的低維特征在常規(guī)方法上顯示區(qū)分度不高,所以本文引入了具有核方法思想的KRR方法,該方法是先利用核函數(shù)將數(shù)據(jù)映射到高維空間,數(shù)據(jù)在高維空間數(shù)據(jù)間的特征會更容易區(qū)分,然后應(yīng)用嶺回歸方法,對映射后的數(shù)據(jù)進(jìn)行回歸處理。 嶺回歸方法實際是最小二乘法(LSM)的變形,它是在LSM的基礎(chǔ)上添加了一個正則化項,而KRR方法則是核函數(shù)和嶺回歸方法的結(jié)合體。 KRR方法在小樣本數(shù)據(jù)上有較高的準(zhǔn)確性,所以該方法從原理上來說適合在天體光譜參數(shù)測量方面的應(yīng)用。
對于線性回歸模型
(1)
誤差方程為
(2)
式(2)中y是真實值。
對誤差方程中w求積分得
w=(XTX)-1XTy
(3)
式(3)中如果XTX逆矩陣不存在,這對參數(shù)的估計十分不利,無法求出一個準(zhǔn)確的w值,最終的預(yù)測模型將無法建立。 因此為了解決這個問題,添加一個正常數(shù)的矩陣,只要保證λ的數(shù)值不為零,此時(XTX+λI)就不為零,從而有效解決了共線性的問題。 當(dāng)嶺回歸參數(shù)λ=0,就是LSM,當(dāng)嶺回歸參數(shù)λ趨向無窮大的時候,嶺回歸系數(shù)趨向于0。
嶺回歸是有偏回歸,它的結(jié)果雖然使得殘差平方和變大,但是會使系數(shù)檢驗變好,這樣可以算出合理的系數(shù)。 嶺回歸雖然放棄了LSM的無偏性,損失了精度,但得到的回歸系數(shù)卻能夠更加符合實際情況[12]。 在數(shù)據(jù)分析和建模中,當(dāng)預(yù)測變量高度相關(guān)時,嶺回歸產(chǎn)生的系數(shù)比LSM預(yù)測的系數(shù)具有更好的穩(wěn)定性[13]。
嶺回歸本質(zhì)上是在LSM的基礎(chǔ)上添加了一個二范數(shù)的正則化,嶺回歸的目標(biāo)函數(shù)如式(4)
(4)
由于數(shù)據(jù)的多樣性,單純的線性回歸可能不能更好的解決問題,因此,可以把數(shù)據(jù)通過核函數(shù)映射到一個高維空間,使得這些數(shù)據(jù)在這個高維空間更容易劃分,具體的操作就是選取一個核函數(shù),令x→F(x),原理和嶺回歸基本是一樣的,目標(biāo)函數(shù)如式(5)
(5)
函數(shù)需要滿足的條件
s.t.ε=y-wΦ(xi)
(6)
引入Lagrange系數(shù)可得
L(w,Φ(x),α)=λ‖w‖2+∑ε2+α(y-wΦ(xi)-ε)
(7)
對式(7)進(jìn)行微分可得
α=2ε
(8)
整理后得
y=(K+λI)α
(9)
最后的預(yù)測公式為
(10)
本文采用均方誤差(mean squared error, MSE)和平均絕對誤差(mean absolute error, MAE)來作為光譜參數(shù)測量結(jié)果的評價標(biāo)準(zhǔn),計算方式見式(11)和式(12)
(11)
(12)
模型訓(xùn)練好之后,對輸入的數(shù)據(jù)會有對應(yīng)的輸出,該輸出值就為預(yù)測值,一般預(yù)測值越接近真實值越好,誤差是指預(yù)測值和真實值的差,模型的好壞在于預(yù)測新樣本的時候有較小的誤差,誤差越小模型的泛化能力越強。 當(dāng)數(shù)據(jù)量不足的時候,模型會出現(xiàn)欠擬合,反之則會出現(xiàn)過擬合現(xiàn)象。
常用的模型實驗方法中,留出法比較常見,留出法隨機保留一部分?jǐn)?shù)據(jù)留作測試,其他用于模型訓(xùn)練,一般來說采用2/3或者4/5的樣本數(shù)據(jù)用于訓(xùn)練,剩余的樣本用于測試,若訓(xùn)練集數(shù)據(jù)太多,測試集數(shù)據(jù)太少評估結(jié)果往往不具備足夠的可信度,若測試集過多,模型可能會欠擬合,數(shù)據(jù)集的特征擬合不完整,因此數(shù)據(jù)集的選擇尤為重要,實驗隨機選擇保留原始數(shù)據(jù)的30%作測試數(shù)據(jù),其他數(shù)據(jù)作訓(xùn)練數(shù)據(jù)。
采用LAMOST DR5光譜數(shù)據(jù),從中隨機選擇了2萬條恒星光譜,其中三個恒星大氣物理參數(shù)值的范圍為: 有效溫度(Teff): 3 763.85~8 362.43 K,表面重力(Logg): 0.319~4.897 dex,金屬豐度([Fe/H]): -2.477~0.62 dex,所有光譜g,r,i波段平均信噪比覆蓋范圍為6.7~793。
實驗設(shè)計步驟如下:
(1)利用小波變換對光譜進(jìn)行去噪,并進(jìn)行流量歸一化;
(2)采用主成分分析方法(principal component analysis, PCA)對光譜數(shù)據(jù)進(jìn)行降維,通過實驗分析本文選擇降維至300維;
(3)利用留出法隨機抽取樣本中70%為訓(xùn)練數(shù)據(jù),剩余30%為測試數(shù)據(jù),共進(jìn)行50次組合實驗;
(4)應(yīng)用KRR方法分別對三個參數(shù)進(jìn)行模型訓(xùn)練及測試,進(jìn)行誤差分析。
(5)采用經(jīng)典SVR方法在相同數(shù)據(jù)上進(jìn)行訓(xùn)練測試,并與KRR方法的結(jié)果進(jìn)行對比。
(1)有效溫度預(yù)測結(jié)果對比圖
圖1和圖2中左側(cè)圖橫軸為天體有效溫度的真實值,縱軸為天體光譜有效溫度的預(yù)測值,顯然,數(shù)據(jù)點越靠近中心線y=x,預(yù)測結(jié)果越接近真實值,右側(cè)圖相應(yīng)為誤差統(tǒng)計直方圖。 直觀上可以看出,KRR方法有效溫度的預(yù)測值比SVR方法有更多的點接近真實值,從直方圖也可看出,圖中誤差值接近0的頻數(shù)要遠(yuǎn)遠(yuǎn)大于SVR中誤差接近0的頻數(shù)。 KRR方法在有效溫度方面的預(yù)測結(jié)果要優(yōu)于SVR方法。
圖1 KRR方法有效溫度估計值和真實值一一對應(yīng)圖及誤差對比圖
圖2 SVR方法有效溫度估計值和真實值一一對應(yīng)圖及誤差對比圖
(2)表面重力預(yù)測結(jié)果對比圖
從圖3和圖4左側(cè)圖可以看出,兩種方法預(yù)測值和真實值形成的數(shù)據(jù)點分布類似,KRR方法中出現(xiàn)的異常點略多,SVR方法預(yù)測結(jié)果相對比較穩(wěn)定。 從右側(cè)圖可以看出,KRR方法要比SVR方法略好,有更多的點接近真實值。 總體來說兩種方法在表面重力方面的測量結(jié)果KRR方法在準(zhǔn)確度上要好于SVR方法,但是在穩(wěn)定性上稍差。
(3)金屬豐度預(yù)測結(jié)果對比圖
從圖5和圖6左側(cè)圖可以看出KRR方法個別預(yù)測值偏差比較大,部分?jǐn)?shù)據(jù)點分布比較零散,SVR方法相對來說比較穩(wěn)定。 右側(cè)可以看出KRR方法優(yōu)勢更明顯,符合理想要求的數(shù)據(jù)點比較多,誤差值接近0的頻數(shù)比較大。 整體來說,SVR方法比較穩(wěn)定,KRR方法在精確度方面較好,但是預(yù)測不穩(wěn)定,預(yù)測結(jié)果較容易出現(xiàn)大誤差。
圖3 KRR方法表面重力估計值和真實值一一對應(yīng)圖及誤差對比圖
圖4 SVR方法表面重力估計值和真實值一一對應(yīng)圖及誤差對比圖
圖5 KRR方法金屬豐度估計值和真實值一一對應(yīng)圖及誤差對比圖
圖6 SVR方法金屬豐度估計值和真實值一一對應(yīng)圖及誤差對比圖
圖7 有效溫度殘差對比圖
圖8 表面重力殘差對比圖
(4)殘差對比圖
正常情況下殘差圖上的點隨機分布在以0為橫軸的直線上下,表明預(yù)測值的隨機性和不確定性,隨機性和不可預(yù)測性是任何回歸模型的關(guān)鍵組成部分。 越多的殘差數(shù)據(jù)點越接近0軸表示相對誤差越小,回歸方法預(yù)測結(jié)果越準(zhǔn)確。 從三個參數(shù)對應(yīng)KRR和SVR兩種方法的殘差對比圖(2.7,2.8,2.9)可以看出,在有效溫度測量上,KRR方法數(shù)據(jù)點分布帶要比SVR數(shù)據(jù)點分布帶窄,說明KRR在有效溫度測量上有較明顯優(yōu)勢,而另外兩個參數(shù)并沒有明顯區(qū)別。 不過從殘差圖中可以看到,KRR方法預(yù)測結(jié)果中殘差較大的異常點相比SVR稍多,且在三個參數(shù)殘差圖中異常點有效溫度的誤差范圍大多聚集在500K左右,表面重力的在3 dex左右,金屬豐度的在1.5 dex左右,結(jié)合表1和表2的誤差統(tǒng)計,這反過來說明KRR方法在非異常點處更加精確。
圖9 金屬豐度殘差對比圖
表1 KRR預(yù)測結(jié)果誤差統(tǒng)計表
表2 SVR預(yù)測結(jié)果誤差統(tǒng)計表
(5)誤差結(jié)果統(tǒng)計分析表
表1是本文KRR方法50次組合實驗總的誤差統(tǒng)計表,從表中可以看到KRR方法有效溫度的預(yù)測誤差的平均絕對誤差值為82.989 7,其結(jié)果要比SVR方法的144.230 8好很多,表面重力和金屬豐度兩個結(jié)果KRR稍微優(yōu)于SVR方法。 本文實驗數(shù)據(jù)中有效溫度的數(shù)值覆蓋范圍是3 763.85~8 362.43 K數(shù)值比較大,而另外兩個參數(shù)數(shù)值較小,說明KRR方法在大數(shù)值方面有較好的預(yù)測結(jié)果,在小數(shù)值上面預(yù)測結(jié)果和SVR相差無幾。 但是在均方誤差方面,由于KRR方法預(yù)測結(jié)果中存在較大的偏差,導(dǎo)致均方誤差要大于SVR方法。 總體來說KRR方法更適合有效溫度的預(yù)測。
將KRR方法應(yīng)用于恒星大氣物理參數(shù)測量,該方法能在天體光譜參數(shù)測量方面取得比較理想的預(yù)測結(jié)果,對高緯度小樣本有較好的魯棒性。 為了避免偶然數(shù)據(jù)的影響,本文將SVR方法和該方法作對比,實驗結(jié)果發(fā)現(xiàn)KRR方法在有效溫度的測量方面具有較高的預(yù)測精度,表面重力和金屬豐度優(yōu)勢較小,但總體的預(yù)測結(jié)果是可以接受,因此該方法在天體光譜參數(shù)測量方面是可行的。 由于KRR方法添加了正則項,權(quán)值系數(shù)矩陣是不稀疏的,隨著數(shù)據(jù)量的增加,模型訓(xùn)練時間越來越長,下一步將針對訓(xùn)練時間進(jìn)行優(yōu)化。