于 苗 蔡江輝 楊海峰
(太原科技大學計算機科學與技術(shù)學院 太原 030024)
郭守敬望遠鏡(LAMOST)[1~4]是一種特殊的反射施密特望遠鏡,有效孔徑為3.6m~4.9m,焦距為20m,視場為5°,其焦面上可防止4000根光纖,因此在一次曝光中LAMOST可以同時觀測到4000條光譜。在恒星和星系的科學研究方面,LAMOST有著巨大的研究前景和價值。LAMOST巡天得到的光譜復雜多樣,有各種類型的光譜。對天體光譜的分析首先需要進行光譜的自動識別,因此研究恒星自動識別與分類方法具有重要意義[5~6]。
恒星自動識別與分類系統(tǒng)的正確率和可信度取決于恒星光譜模板庫的質(zhì)量。目前常用的恒星光譜模板庫主要有MAFAGS[7]、MARCS[8~11]、Kurucz理論模板庫[12]。MAFAGS模板庫是一套步長較細的網(wǎng)格光譜數(shù)據(jù),MARCS模板庫只包含F(xiàn)、G、K型星模型并且對冷星更適用,Kurucz模板庫是恒星大氣模型網(wǎng)格數(shù)據(jù)。共包含約9561個模型,大部分為正常恒星模型。該恒星理論光譜庫的構(gòu)建分成兩部分包括大氣模型的計算和理論光譜的合成,即從大氣模型的輸入量:表面有效溫度Teff、表面重力加速度g、元素豐度([M/H])到光譜的輸出量:流量(x),波長(λ),這是一個非常復雜的非線性映射過程。
上述三種恒星模板庫的構(gòu)造方法適用于所有來源的恒星光譜來構(gòu)造相應(yīng)模板庫。然而將其運用于LAMOST巡天得到的恒星光譜數(shù)據(jù)時并不能很好地對恒星光譜數(shù)據(jù)進行自動識別和分類?;谝陨先毕?,韋鵬[13]等在構(gòu)造了包含183條模板光譜,61個不同的子類型的適用于LAMOST的恒星光譜模板庫,該模板庫是韋鵬從約100萬條LA?MOST DR1恒星光譜數(shù)據(jù)中經(jīng)過一系列操作篩選出來的,被廣泛應(yīng)用于LAMOST光譜分類工作中,該模板庫的構(gòu)造方法復雜。
上述現(xiàn)存的恒星理論光譜模板庫構(gòu)造方法較為復雜,給恒星光譜自動識別和分類帶來了一定的困難。因此本文提出了一種基于切比雪夫雙曲線逼近的恒星光譜模板構(gòu)造方法。該方法首先將光譜數(shù)據(jù)分段,分為多個小光譜段,得到具有多個波段并提取波長流量信息,然后依據(jù)波長流量信息基于切比雪夫雙曲線逼近提取每類光譜數(shù)據(jù)特征譜線的形狀特征,最后將提取出的光譜數(shù)據(jù)特征譜線的形狀特征與標準光譜特征譜線比較。
函數(shù)逼近[14]就是用簡單函數(shù)逼近已知的復雜函數(shù)。通常步驟為首先通過復雜函數(shù)在有限點集上給定函數(shù)值,再在包含該點集的區(qū)間上用公式給出函數(shù)的簡單表達式。即對于函數(shù)類A中給定的函數(shù)(fx),要求在另一類較簡單的便于計算的函數(shù)類B中找到一個函數(shù)p(x),使p(x)與(fx)的誤差在某種度量意義下達到最小。函數(shù)類A通常是區(qū)間[a,b]上的連續(xù)函數(shù),記作C[a,b],而函數(shù)類B通常為n次多項式等。
將函數(shù)逼近問題中的逼近函數(shù)與給定函數(shù)之間的逼近方式給出一種定義,換言之,一致逼近[15]是度量連續(xù)函數(shù)(fx)和逼近多項式p(x)之差的一種標準,即對于區(qū)間[a,b]上的連續(xù)函數(shù)(fx),對于給定的任意小正數(shù)ε>0,存在多項式p(x),使不等式
成立,則稱多項式p(x)在區(qū)間[a,b]上一致逼近于函數(shù)(fx)。顯然,如果精確度越高,即ε越趨近于0,則用來逼近的多項式p(x)的次數(shù)一般也越高。
切比雪夫逼近[16~17]是切比雪夫基于一致逼近提出的確定逼近的最快的多項式的方法。切比雪夫逼近的思想是:不讓逼近多項式的次數(shù)n趨向于無窮大,而是先把n固定。
定義(偏差):次數(shù)不超過n次的實系數(shù)多項式的集合為pn,p(x)∈pn,f(x)∈C[a,b],f(x)與p(x)的偏差定義如下:
定義(切比雪夫逼近):對于函數(shù)f(x),在pn中尋找一個多項式p*n(x),使其滿足:
此時p*n(x)對f(x)的偏差和其他任一p(x)對(fx)的偏差比較時是最小的,我們稱p*n(x)為f(x)在[a,b]上的切比雪夫逼近。
在切比雪夫逼近中,逼近多項式p*n(x)的選擇很多種,包括代數(shù)多項式、三角多項式以及有理分式函數(shù)等。
顯然,切比雪夫逼近定義是用一個多項式逼近一個連續(xù)函數(shù)。將切比雪夫逼近的思想擴展到用一個多項式逼近一組連續(xù)函數(shù),得到該組連續(xù)函數(shù)的切比雪夫逼近多項式,可描述為對于區(qū)間[a,b]上的l個連續(xù)函數(shù)f1(x),…,fl(x),p*n(x)為該組連續(xù)函數(shù)的切比雪夫逼近,則p*n(x)滿足:
此時,pn*(x)對每一個連續(xù)函數(shù)fi(x)的偏差和不超過n次的實系數(shù)多項式的集合pn上其他任意多項式p(x)與fi(x)的偏差相比時都是最小的。
因為任意曲線都可通過擬合近似表示得到函數(shù)表達式,因此將每個連續(xù)函數(shù)fi(x)看作區(qū)間[a,b]上的曲線Si(t),那么對于l個連續(xù)函數(shù)求切比雪夫逼近就轉(zhuǎn)化為對l條曲線求最佳逼近。在此基礎(chǔ)上,切比雪夫雙曲線逼近最初來源于上述對多條曲線的切比雪夫逼近。其中心思想是將對多條曲線的切比雪夫逼近等價到對兩條曲線的切比雪夫逼近上,這兩條曲線分別是最大值曲線和最小值曲線。此時式(4)可轉(zhuǎn)化為
每一條曲線與最佳逼近之間的偏差最小簡化為最大值函數(shù)或最小值函數(shù)與最佳逼近之間的偏差最小。其中,Smax(t)為該組曲線在區(qū)間[a,b]上的最大值曲線,其定義為
Smin(t)為該組曲線在區(qū)間[a,b]上的最小值曲線,其定義為
S*(A,t)為該組曲線的切比雪夫雙曲線逼近。得到S*(A,t)的方法是先用函數(shù)來假設(shè)該最佳逼近,然后求出系數(shù)的值,具體的函數(shù)表達式就可知了。用函數(shù)形式表示最佳逼近,假設(shè)最佳逼近的形式表示為
此外,為求解式(5)引入一個變量z,該變量z表示任意一條曲線與最佳逼近間的最小差值,其表示為
此時,解決上述最佳逼近函數(shù)的問題轉(zhuǎn)化為解決線性規(guī)劃的問題。該線性規(guī)劃可表示如下:
目標函數(shù)為
約束條件為
通過求解該線性規(guī)劃問題可得最小偏差z和最佳逼近函S(A,ti)。
基于切比雪夫雙曲線逼近的分段式恒星光譜模板構(gòu)造方法,將所有光譜按類分組,相同類型的恒星光譜視作一組并提取各組光譜的波長和流量信息,對每一組光譜數(shù)據(jù)進行分段,使每一組光譜分為具有若干段的同類型光譜組,對于各段的波長流量信息,將波長作為自變量,流量作為因變量,得到相關(guān)曲線。對每一條曲線進行歸一化,再分別通過式(6)、(7)計算該組曲線的最大值曲線和最小值曲線。引入變量z,用多個未知參數(shù)和多項式基的代數(shù)和的形式表示該組光譜的切比雪夫雙曲線逼近,用最大值曲線、最小值曲線和式(9)定義變量z,運用式(10)、(11)線性規(guī)劃的方法在每段光譜上做切比雪夫雙曲線逼近,得到各組的整體態(tài)勢。具體步驟如下。
算法:基于切比雪夫雙曲線的恒星光譜模板構(gòu)造方法
輸入:LAMOST數(shù)據(jù)集D,光譜類數(shù)X,分段長度T,光譜維度W
輸出:各類恒星光譜模板
1)對每條光譜歸一化
2)將每條光譜按T分段,總段數(shù)為S
S=「W/T?
3)for x=1 to X do
4) 根據(jù)式(6)、(7),計算得到Smax(t)and Smin(t)
5)for s=1 to S do
6) 根據(jù)式(10)、(11),計算min z,S(A,ti)
7) end for
8)end for
9)該組光譜的切比雪夫雙曲線計算完成
本文的算法內(nèi)容主要包括兩個部分,第一部分是光譜數(shù)據(jù)分段,第二部分是在每類已分段的光譜數(shù)據(jù)實現(xiàn)切比雪夫雙曲線逼近。光譜數(shù)據(jù)分段的時間復雜度為O(n),實現(xiàn)切比雪夫雙曲線逼近的時間復雜度為O(n2),算法的整體時間復雜度為O(n2)。
在1臺Inter(R)core(TM)i7-6500U@2.50GHz筆記本電腦,Windows 7操作系統(tǒng)中使用Python語言在PyCharm平臺實現(xiàn)了基于切比雪夫雙曲線逼近的分段式恒星光譜模板構(gòu)造方法。
本實驗主要在LAMOST DR5恒星光譜數(shù)據(jù)上進行實驗得到適用于lAMOST恒星光譜數(shù)據(jù)的恒星光譜模板。每條LAMOST光譜數(shù)據(jù)都有相應(yīng)的波長和流量信息,波長范圍在3700~9000。本實驗選取原本由pipeline分類得到的A、F、G、K、M五類恒星光譜數(shù)據(jù),信噪比不低于20。具體數(shù)量如表1所示。
表1 恒星數(shù)據(jù)情況
4.2.1 各類恒星模板光譜
本實驗在上述數(shù)據(jù)集上進行操作,得到的各類恒星模板光譜如圖1~5所示。
圖1 A型光譜模板
圖2 F型光譜模板
圖3 G型光譜模板
圖4 K型光譜模板
圖5 M型光譜模板
4.2.2 整體態(tài)勢分析
從上述模板光譜中看出不同類型的恒星光譜模板譜整體走勢是不相同的,具有明顯的差異性。具體分析圖1~5,從A型光譜到F型光譜再到G型光譜,大致來看藍端高紅端低并且峰值逐漸向紅端移動。K型光譜,已經(jīng)變成紅端高藍端低,再到M型光譜完全變成紅端與藍端的差距加大,并且藍端變得非常高。上述計算所得的各類恒星光譜模板譜的整體態(tài)勢與互相過渡變化滿足各類光譜整體走勢理論。因此,本文所提方法構(gòu)造的恒星模板譜具有可信度。
4.2.3 與其他光譜模板的比較(數(shù)量)
該實驗在A、F、G、K、M五種恒星光譜數(shù)據(jù)情況下實驗具體選取了A1IV、F0、G0、K0、M0共5個子類的數(shù)據(jù)。在現(xiàn)行的韋鵬等構(gòu)造的183恒星光譜模版中,子類A1IV的模板譜數(shù)量為4,子類F0的模板譜數(shù)量為4,G0的模板譜數(shù)量為2,子類K0的模板譜數(shù)量為3,子類M0的模板譜數(shù)量為10。每一個子類的模板譜的數(shù)量皆大于1條。然而運用上述方法對每一個子類恒星光譜都可以得到唯一一條模板譜。模板譜數(shù)量減少,大大提高了恒星自動識別和分類的效率。
本文提出了一種切比雪夫雙曲線逼近的分段式恒星光譜模板構(gòu)造方法,該算法采用將整條的光譜劃分為多段子光譜,提取其相應(yīng)的波長和流量信息,并得到光譜的最大值曲線和最小值曲線。通過切比雪夫雙曲線逼近利用偏差的最小值z和最佳逼近的代數(shù)表達式,最大值和最小值曲線通過線性規(guī)劃的方法得到一組曲線的切比雪夫雙曲線逼近,將其作為該類恒星光譜的模板譜,最終通過該方法得到恒星光譜的模板譜。采用恒星光譜數(shù)據(jù)集驗證了方法的有效性。本文下一步的研究方向為考慮如何能提高算法的運行速度,加快實現(xiàn)各子類恒星光譜模板譜的構(gòu)造。