摘 要:為了了解銀河系以及追溯其形成歷史,需要對分布在銀河系中的大量恒星樣本進行準確的年齡預測。通過LAMOST DR5和Kepler的星震學數(shù)據(jù)交叉匹配獲得的訓練樣本,給出了一個具有163 105顆恒星年齡參數(shù)的紅團簇星星表。使用核主成分分析與隨機森林相結(jié)合的方法對多個恒星參數(shù)與恒星年齡之間的關系進行訓練,將樣本分為訓練集與測試集進行模型的訓練與對照驗證,測試集顯示所訓練的模型對恒星年齡預測的絕對誤差平均值為0.46 Gyr,相對誤差平均值為13%。同時,還探究了核主成分分析所使用的主成分個數(shù)與模型預測性能的關系,結(jié)果發(fā)現(xiàn),當主成分達到4個時,模型的預測性能開始趨于穩(wěn)定。
關鍵詞:恒星參數(shù);恒星年齡;紅團簇星;星震學;機器學習
中圖分類號:P145.9"" 文獻標志碼:A""" 文章編號:1673-5072(2023)02-0195-06
星系是構(gòu)成宇宙的基本單元,銀河系是目前唯一能進行詳細解剖的星系,對銀河系結(jié)構(gòu)和形成歷史的研究是理解星系的基礎。年齡是研究銀河系目前結(jié)構(gòu)和形成歷史最重要的基本參數(shù)之一。對銀河系目前結(jié)構(gòu)和形成歷史的描述,需要對分布在整個銀河系的大量恒星樣本進行準確的質(zhì)量和年齡估計[1]。
通過恒星的光譜,可以得到恒星的視向速度[2]和一些恒星參數(shù)[3]。但是恒星的年齡一般難以通過直接測量的方法得到,通常采用觀測數(shù)據(jù)與恒星演化模型進行匹配的方式得到[4-5],例如等年齡線方法,該方法對于星團可以獲得較高精度的年齡,但是對于場星通常還需要距離、紅化等參數(shù),其獲得的年齡精度較低。也有人發(fā)現(xiàn)碳和氮的豐度與巨星的年齡之間存在一定的聯(lián)系,并嘗試用其來預測巨星的年齡,但是結(jié)果不確定性依然較高[6-8]。星震學目前是預測恒星質(zhì)量和年齡的有效方法,對單顆恒星進行預測的精度很高[9-10],但需要高精度長時間的測光觀測,因此目前樣本較少,導致該方法難以廣泛適用。還有人發(fā)現(xiàn)類太陽恒星的年齡與其表面自轉(zhuǎn)具有相關性,并用星震學數(shù)據(jù)對其進行了詳細研究[11-14]。目前雖然對恒星年齡進行預測的方法有很多,但其精度和效率仍有待提高,因此還需要利用大數(shù)據(jù)獲取更多的樣本,嘗試使用更多的方法來提高恒星年齡預測的精度和效率,從而更有效地探索銀河系的動力學演化[15-19]。
機器學習是人工智能的一個分支,基于機器學習測定恒星年齡,是利用算法并使用大量的高質(zhì)量數(shù)據(jù)進行訓練,在訓練完成之后會產(chǎn)生一個模型,當有新數(shù)據(jù)輸入時,可以使用此模型對新數(shù)據(jù)進行預測。通過將機器學習與高質(zhì)量數(shù)據(jù)相結(jié)合,可以揭示出恒星年齡與恒星參數(shù)之間的某種聯(lián)系,并利用這種聯(lián)系對恒星年齡進行預測。
本文將機器學習方法與LAMOST大樣本數(shù)據(jù)相結(jié)合來對紅團簇星的恒星年齡進行預測,在實驗過程中對模型進行多次的反復訓練,以期找到一個高精度和高效率兼顧的模型。將樣本劃分為訓練集和測試集,通過對測試集的精度進行分析和繪制出大樣本紅團簇星在銀河系中的分布,可以對構(gòu)建模型的正確性進行驗證。
1 數(shù) 據(jù)
1.1 交叉匹配
Xiang等[20]提供了LAMOST巡天數(shù)據(jù)中8 162 566顆帶有化學豐度的恒星,其化學豐度由DD-Payne模型導出。在本實驗中通過這個星表來獲取恒星的化學豐度。
Ting等[21]篩選出了LAMOST巡天數(shù)據(jù)中的175 202顆紅團簇星,并且還通過恒星光譜獲得了△P和△ν這2個星震學參數(shù)[22]。本文通過這個星表來獲取紅團簇星樣本,然后通過新方法測定年齡。
Pinsonneault等[23]提供了6 676顆恒星的年齡,其年齡使用質(zhì)量、半徑、[Fe/H]和[α/Fe]這4個參數(shù)從模型中導出,本文用這個星表中的年齡作為參考年齡來訓練自己的模型。
通過上述的3個星表來進行交叉匹配,在刪除掉具有空缺值的樣本之后,一共獲得了1 806顆具有化學豐度、星震學參數(shù)以及年齡信息的紅團簇星。
1.2 樣本篩選
接下來對這批通過交叉匹配出來的樣本進一步篩選,因為如果直接將這批樣本用于模型的訓練,可能會產(chǎn)生一些不可預見的問題,例如可能會存在一些由于測量誤差等原因而導致的劣質(zhì)樣本,由于自變量與因變量的關聯(lián)趨勢與正常的規(guī)律有所偏差而導致樣本污染,從而進一步導致機器學習預測的精準度降低。為了剔除可能存在的劣質(zhì)樣本,進行以下處理:將交叉匹配得到的這批樣本按照順序進行輪流放回抽樣,每次抽出一顆恒星,然后使用隨機森林(Random Forest)將化學豐度和星震學參數(shù)作為輸入?yún)?shù)對未被抽到的所有恒星進行模型訓練,接著對被抽中的恒星進行一次年齡預測,如果其預測的絕對誤差小于3 Gyr并且相對誤差小于40%,則將其挑選出來。在經(jīng)過上述過程之后一共篩選出了1 384顆紅團簇星作為高質(zhì)量訓練樣本,如圖1所示。
2 方 法
本文所使用的機器學習方法源于Scikit-learn,簡稱sklearn,是機器學習領域當中知名的Python模塊之一。它所包含的機器學習方法可分為六大類:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預處理。
2.1 訓練集和測試集
在正式開始對恒星年齡進行預測之前,首先將篩選出來的1 384顆紅團簇星分為訓練集和測試集,訓練集用于訓練模型,測試集用于對照驗證,由此來對模型的預測性能進行評估。對于劃分的方案進行過多種考慮,雖然隨機取樣不失為一種便捷的方法,但是鑒于其不確定性,為了保證訓練集和測試集各個參數(shù)的均勻分布,最終決定采用以下的方法來對訓練集與測試集進行劃分:篩選出來的樣本中包含恒星年齡和其他19個恒星參數(shù)(△P、△ν、Teff、logg、[Ba/Fe]、[C/Fe]、[Ca/Fe]、[Co/Fe]、[Cr/Fe]、[Fe/H]、[Mg/Fe]、[Mn/Fe]、[N/Fe]、[Na/Fe]、[Ni/Fe]、[O/Fe]、[Si/Fe]、[Ti/Fe]、[α/Fe]),首先對第一個參數(shù)進行從小到大的排序,然后將其按照恒星的數(shù)目盡量等分為34個網(wǎng)格,取出每個網(wǎng)格中當前排序參數(shù)所對應數(shù)值最小的紅團簇星,將其加入測試集。接著再對下一個參數(shù)進行同樣的操作,直到對20個參數(shù)都完成抽樣。所有被抽到的紅團簇星作為測試集,沒有被抽到的作為訓練集。
這種取樣方法可以保證訓練集與測試集樣本數(shù)量盡量均分,更重要的是它保證了訓練集和測試集所有參數(shù)在數(shù)值上分布均勻,這種分配數(shù)據(jù)的方法有利于提高機器學習的精確性。
2.2 訓練模型
在劃分完訓練集和測試集后,使用核主成分分析(KPCA)結(jié)合隨機森林的方法來訓練模型,然后使用訓練的模型對測試集的恒星年齡進行預測,通過比較預測值與參考值的擬合程度,從眾多模型中挑選出一個較好的作為最終預測模型。
圖2所示為機器學習方法框圖,首先將19個恒星參數(shù)作為輸入?yún)?shù),為了消除不同恒星參數(shù)之間的量綱差異對其進行標準化,然后再將核主成分分析所導出的主成分作為隨機森林的輸入?yún)?shù)來對恒星年齡進行擬合。
核主成分分析所導出的主成分數(shù)與模型的預測精度之間的關系如圖3所示:當主成分數(shù)較少時,訓練集和測試集的平均相對誤差都隨著主成分數(shù)的增加而降低;在當主成分數(shù)達到4之后,其平均相對誤差的值基本上均趨于穩(wěn)定。
圖3中所顯示的測試集平均相對誤差最低的點主成分數(shù)并不是4,但是考慮到隨機森林其方法本身具有一定的隨機性,以及訓練模型的時間成本,最終選擇了測試集剛開始趨于平緩的點(主成分數(shù)為4)對最終預測模型進行訓練。
3 結(jié) 果
首先,針對于測試集的預測值與原有的星震學樣本的數(shù)值,對最終模型的預測結(jié)果進行分析。圖4展示了對恒星年齡的預測值與原來的數(shù)值之間的差異,彌散為0.72,其較好的擬合程度對本文構(gòu)建模型的正確性提供了支撐;圖5顯示了恒星年齡預測的絕對誤差,平均值為0.46 Gyr,中位值為0.25 Gyr,絕對誤差隨著年齡的增大而逐漸增大,但絕大部分都處于1 Gyr以下;圖6描繪的是相對誤差的分布,測試集相對誤差的平均值為13%,中位值為8%,相對誤差隨著年齡的增大而減小,而且從右側(cè)的直方圖中可以看出相對誤差絕大部分都處于20%以下。
其次,將Xiang等[20]的星表與Ting等[21]的星表進行交叉匹配,獲得了163 105顆具有化學豐度和星震學參數(shù)但是沒有年齡標簽的紅團簇星,把經(jīng)過篩選的1 384顆紅團簇星用來訓練最終預測模型,然后對這163 105顆紅團簇星進行了年齡預測,并描繪出了它們在銀河系上的分布,如圖7所示:可以明顯地看出年輕的恒星主要都分布在低銀緯地區(qū),這也比較符合預期,因為銀河系盤附近是主要的恒星形成區(qū)。
最后,利用隨機森林對19個恒星參數(shù)與恒星年齡之間的相關性進行了探究,結(jié)果如圖8所示:△ν、[Ti/Fe]、[C/Fe]與恒星年齡之間具有較高的相關性,而關于相關性排序的結(jié)果會在未來的工作中作進一步的探討。
4 結(jié) 論
年齡是研究銀河系結(jié)構(gòu)與演化歷史的基本參數(shù)。本文使用核主成分分析結(jié)合隨機森林的機器學習方法對163 105顆紅團簇星進行了恒星年齡預測。在訓練模型的過程中,探究了核主成分分析所導出的主成分數(shù)與模型預測精度的關系,發(fā)現(xiàn)當主成分數(shù)到達4之后,模型的預測性能開始趨于穩(wěn)定;測試集顯示年齡預測的彌散為0.72;絕對誤差的平均值為0.46 Gyr,中位值為0.25 Gyr;相對誤差的平均值為13%,中位值為8%。之后,繪制了163 105顆紅團簇星在銀河系上的分布,發(fā)現(xiàn)年輕的恒星主要分布在低銀緯地區(qū),這與當前銀河系結(jié)構(gòu)圖像一致。最后,用隨機森林探究了19個恒星參數(shù)與恒星年齡的相關性,發(fā)現(xiàn)△ν、[Ti/Fe]、[C/Fe]具有較高的相關性。
這篇文章是針對大樣本恒星年齡測定,在技術(shù)與方法論上的一次探索。將來會進一步改進方法如:嘗試對與恒星質(zhì)量和年齡具有高度相關性的恒星參數(shù)進行提取,探究多種機器學習方法的預測性能,以及凸包算法的參與,但不會使用核主成分分析,因為經(jīng)過核主成分分析之后的數(shù)據(jù)無法進行物理解釋。在之后的工作中還將嘗試更多的機器學習方法來對各種類型的恒星進行測試,包括恒星類型的分類,恒星參數(shù)的測定以及恒星質(zhì)量和恒星年齡的預測等,期待未來會有更多的工作展示。
參考文獻:
[1] WANG H F,LIU C,XU Y,et al.Mapping the Milky Way with LAMOST-III.Complicated spatial structure in the outer disc[J].Monthly Notices of the Royal Astronomical Society,2018,478(3):3367-3379.
[2] ZHANG B,LI J,YANG F,et al.Self-consistent stellar radial velocities from LAMOST Medium-resolution Survey DR7[J].The Astrophysical Journal Supplement Series,2021,256(1):14-37.
[3] ZHANG B,LIU C,DENG L C.Deriving the stellar labels of LAMOST spectra with Stellar LAbel Machine (SLAM)[J].The Astrophysical Journal Supplement Series,2020,246(1):9-27.
[4] SODERBLOM D R.The ages of stars[J].Annual Reviews of Astronomy amp; Astrophysics,2010,48(1):581-629.
[5] XIANG M S,LIU X W,SHI J R,et al.Ages and masses of million Galactic disk main sequence turn-off and sub-giant stars from the LAMOST Galactic spectroscopic surveys[J].The Astrophysical Journal Supplement Series,2017,232(1):2-24.
[6] MARTIG M,F(xiàn)OUESNEAU M.,RIX H W,et al.Red giant masses and ages derived from carbon and nitrogen abundances[J].Monthly Notices of the Royal Astronomical Society,2016,456(4):3655-3670.
[7] NESS M,HOGG D W,RIX H W,et al.Spectroscopic determination of masses (and implied ages) for red giants[J].The Astrophysical Journal,2016,823(2):114-136.
[8] ANNA Y Q H,RIX H W,NESS M K,et al.Masses and ages for 230,000 LAMOST giants,via their carbon and nitrogen abundances[J].The Astrophysical Journal,2017,841(1):40-52.
[9] GAI N,BASU S,CHAPLIN W J,et al.An in-depth study of grid-based asteroseismic analysis[J].The Astrophysical Journal,2011,730(2):63-79.
[10]CHAPLIN W J,BASU S,HUBER D,et al.Asteroseismic fundamental properties of solar-type stars observed by the NASA Kepler Mission[J].The Astrophysical Journal Supplement Series,2014,210(1):1-91.
[11]GARCIA R A,CEILLIER T,SALABERT D,et al.Rotation and magnetism of Kepler pulsating solar-like stars.Towards asteroseismically calibrated age-rotation relations[J].Astronomy amp; Astrophysics,2014,572(1):A34-A49.
[12]MCQUILLAN A,MAZEH T,AIGRAIN S.Rotation periods of 34,030 Kepler main-sequence stars:the full autocorrelation sample[J].The Astrophysical Journal Supplement Series,2014,211(2):24-39.
[13]CEILLIER T,VAN SADERS J,GARCIA R A,et al.Rotation periods and seismic ages of KOIs-comparison with stars without detected planets from Kepler observations[J].Monthly Notices of the Royal Astronomical Society,2016,456(1):119-125.
[14]VAN SADERS J L,CEILLIER T,METCALFE T S,et al.Weakened magnetic braking as the origin of anomalously rapid rotation in old field stars[J].Nature,2016,529(7585):181-184.
[15]WANG H F,CARLIN J L,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.III.A new velocity substructure and time stamps of the Galactic disk asymmetry in the disk between 12 and 15 kpc[J].The Astrophysical Journal,2019,884(2):135-143.
[16]WANG H F,LPEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.VI.Evidence for the long-lived nonsteady warp of nongravitational scenarios[J].The Astrophysical Journal,2020,897(2):119-132.
[17]WANG H F,HUANG Y,ZHANG H W,et al.Diagonal ridge pattern of different age populations found in Gaia-DR2 with LAMOST main-sequence turnoff and OB-type stars[J].The Astrophysical Journal,2020,902(1):70-79.
[18]WANG H F,LPEZ-CORREDOIRA M,CARLIN J L,et al.3D asymmetrical motions of the Galactic outer disc with LAMOST K giant stars[J].Monthly Notices of the Royal Astronomical Society,2018,477(3):2858-2866.
[19]WANG H F,LPEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disc with the LAMOST and Gaia red clump sample:II.3D asymmetrical kinematics of mono-age populations in the disc between 6-14 kpc[J].Monthly Notices of the Royal Astronomical Society,2020,491(2):2104-2118.
[20]XIANG M,TING Y S,RIX H W,et al.Abundance estimates for 16 elements in 6 million stars from LAMOST DR5 low-resolution spectra[J].The Astrophysical Journal Supplement Series,2019,245(2):34-78.
[21]TING Y S,CONROY C,RIX H W,et al.The Payne:self-consistent ab initio fitting of stellar spectra[J].The Astrophysical Journal,2019,879(2):69-91.
[22]TING Y S,HAWKINS K,RIX H W.A large and pristine sample of standard candles across the Milky Way:~100,000 red clump stars with 3% contamination[J].The Astrophysical Journal Letters,2018,858(1):L7-L14.
[23]PINSONNEAULT M H,ELSWORTH Y P,TAYAR J,et al.The second APOKASC catalog:the empirical approach[J].The Astrophysical Journal Supplement Series,2018,239(2):32-61.
Large Sample of Stellar Age DeterminationBased on LAMOST Data and Machine Learning
LI Qi-da,LI Qing,LUO Yang-ping
(College of Physics and Astronomy,China West Normal University,Nanchong Sichuan 637009,China)
Abstract:It is of significant importance to accurately predict the ages of large stellar samples for understanding the Galaxy and tracing its formation history.A catalog of 163 105 red clump giants with stellar age label is provided for the train set obtained by cross-matching the LAMOST DR5 data and asteroseismology data of Kepler.The method,a combination of Kernel Principal Component Analysis (KPCA) and random forest,is adopted to train the relationship between multiple stellar parameters and stellar age.The samples are divided into train set and test set for model training and comparison verification.The test set shows that the mean absolute error of trained model for stellar age prediction is 0.46 Gyr,and the mean relative error is 13%.Meanwhile,the exploration of relationship between the principal components used in KPCA and the prediction performance of the model shows that the prediction performance of the model tends to be stable when the number of principal components has reached 4.
Keywords:stellar parameter;stellar age;red clump giants;asteroseismology;machine learning