秦浩然林基明王俊義
(1桂林電子科技大學廣西信息科學實驗中心桂林541004)
(2桂林電子科技大學廣西密碼學與信息安全重點實驗室桂林541004)
基于堆疊降噪自編碼的恒星/星系分類研究?
秦浩然1?林基明1?王俊義2
(1桂林電子科技大學廣西信息科學實驗中心桂林541004)
(2桂林電子科技大學廣西密碼學與信息安全重點實驗室桂林541004)
近年來,深度學習算法以其適應性強、準確率高、結構復雜等特性在數(shù)據(jù)挖掘算法中異軍突起,但是在天文信息學中深度學習算法還鮮有問津.針對斯隆數(shù)字巡天(Sloan Digital Sky Survey,SDSS)恒星/星系分類中普遍存在的亮源集分類正確率高但暗源集分類正確率低等問題,引入了深度學習中較新的研究成果—堆疊降噪自編碼(stacked denoising autoencoders,SDA)神經(jīng)網(wǎng)絡和dropout微調(diào)技術.從SDSS釋放出的帶有光譜證認(spectroscopic measurements)的測光數(shù)據(jù)中分別隨機抽取DR7(Data Release 7)和DR12(Data Release 12)的亮源集和暗源集并對其進行預處理,再分別對它們的亮源集和暗源集做不放回隨機抽樣,得到它們亮源和暗源的訓練集和測試集.最后用這些訓練集分別訓練得到了DR7和DR12亮源和暗源的SDA模型,并將SDA在DR12測試集上的測試結果與支持向量機軟件包(Library for Support Vector Machines,LibSVM)、J48決策樹(J48)、邏輯模型樹(Logistic Model Trees,LMT)、支持向量機(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression)、單層決策樹算法(Decision Stump)上的測試結果進行比較,同時將SDA在DR7測試集上的測試結果與6種決策樹的測試結果進行比較.仿真表明SDA在SDSS-DR7和最新SDSS-DR12的暗源集上的分類性能明顯優(yōu)于其他算法,尤其是在使用完備函數(shù)(completeness function,CP)作為衡量指標時,SDA相比決策樹算法在SDSS-DR7暗源集正確率提高了15%左右.
方法:數(shù)據(jù)分析,技術:測光,星系:基本參數(shù),恒星:基本參數(shù),宇宙學:觀測
在過去30多年中,隨著先進數(shù)字CCD(Charge-coupled Device)探測器的使用,并結合快速發(fā)展的計算力和數(shù)據(jù)存儲技術,天文數(shù)據(jù)的獲取經(jīng)歷了一場革命性的變化,預計每年產(chǎn)生的數(shù)據(jù)量將可能達到TB級,而面對如此龐大的數(shù)據(jù)量如何進行有效的數(shù)據(jù)分析將變得尤為重要.恒星/星系分類是天文數(shù)據(jù)分析的基本內(nèi)容之一,人們對它的研究可以追溯到18世紀[1].到目前為止很多方法已經(jīng)被廣泛應用于恒星/星系分類中,它們主要包括了基于形態(tài)、啟發(fā)式分割和機器學習等方法.從形態(tài)上區(qū)分恒星/星系是一種最普遍的方法[2-5],它們主要是利用恒星與星系所表現(xiàn)出的不同形態(tài)(恒星的形態(tài)通常為點源,而星系的形態(tài)為展源)來進行分類.這些方法對于亮的恒星/星系分類非常有效,原因是從亮源中獲得的形態(tài)信息的信噪比很高,但是從暗源得到的形態(tài)信息包含很大噪聲,致使這種方法的效果大大降低.另外一種比較普遍的恒星/星系分類方法是基于可觀測圖像的屬性和相關統(tǒng)計特征進行啟發(fā)式分割[6-8],這種分類方法的優(yōu)點是非常容易被定義和仿真,但它也有很多的不足,如分割的選擇本質(zhì)上是帶有任意性的.機器學習方法是一類現(xiàn)在非常熱門的自動分類方法,主要包括決策樹、支持向量機、神經(jīng)網(wǎng)絡和聚類等方法,它們可以有效杜絕啟發(fā)式分割隨意性的問題,如嚴太生等人將自動聚類算法(Auto Class)應用于恒星/星系分類[9];Vasconcellos等人用13種不同的決策樹算法對SDSS數(shù)據(jù)進行了恒星/星系分類研究,使亮源分類的完備性都達到了99%左右,而暗源分類的完備性為78%左右[10];Malek等人提出一種改進的支持向量機(SVM)的方法并取得了良好的效果[11].但是這些自動算法都存在一些共同問題,比如它們都很難處理樣本空間范圍之外的恒星/星系數(shù)據(jù),即模型的泛化能力不夠強,它們對于亮源分類都有著很高的正確率,但對于暗源分類正確率偏低.盡管各種各樣的算法被用來解決這個問題,但是由于不同的實驗目的(算法速度、自動化程度、單類概率和整體概率等)和信息(形態(tài)、顏色、是否使用類標簽),直到現(xiàn)在都沒有一種公認的有效方法.
本文研究了基于SDA的恒星/星系分類算法,使用SQL(Structured Query Language)從SDSS釋放數(shù)據(jù)集中下載帶光譜證認參數(shù)(spectroscopic measurements)的測光數(shù)據(jù)(本文所使用的數(shù)據(jù)為SDSS-DR7和SDSS-DR12),將得到的數(shù)據(jù)根據(jù)星等值范圍不同分別進行不放回隨機抽樣得到亮源和暗源集,并對抽樣得到的數(shù)據(jù)集進行預處理使其適合于SDA輸入.又對暗源集和亮源集做不放回隨機抽樣分別得到它們的訓練集和測試集.最后使用得到的訓練集訓練SDA模型的眾多參數(shù)以選擇最優(yōu),在模型微調(diào)階段加入dropout微調(diào)技術來微調(diào)整個模型以增加模型的魯棒性.在對比分析試驗中,使用SDSS-DR12亮源和暗源的訓練集和測試集分別在支持向量機軟件包(Library for Support Vector Machines,LibSVM)、J48決策樹(J48)、邏輯模型樹(Logistic Model Trees,LMT)、單層決策樹算法(Decision Stump)、支持向量機(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression)算法上做訓練和測試,在使用整體分類正確率作為性能指標的情況下,SDA在暗源集的正確率明顯優(yōu)于其他算法.最后使用SDSS-DR7數(shù)據(jù)跟Vasconcellos等人使用的決策樹算法[10]做比較.使用DR7亮星和暗源的訓練集和測試集分別在各種決策樹算法上做訓練和測試并使用完備函數(shù)作為性能指標,結果表明SDA在亮源和暗源集的正確率都優(yōu)于決策樹,特別是暗星正確率提高了15%左右.
SDSS是斯隆數(shù)字巡天計劃(Sloan Digital Sky Survey)的簡稱[12].該巡天計劃覆蓋北天球的一半天區(qū)和少部分南天球天區(qū),是迄今為止最大規(guī)模的星系圖像和光譜巡天項目.SDSS的CCD測光系統(tǒng)利用6組CCD同時對天體進行5個波段(u,g,r,i,z)的測量,5個波段相應的中心波長分別為3551?A,4686?A,6165?A,7481?A和8931?A.目前SDSS最新公布的SDSS-DR12,其數(shù)據(jù)容量超過了100 TB,包含了對近5億個恒星和星系的精確測光數(shù)據(jù),而對其中300多萬個恒星/星系數(shù)據(jù)進行了光譜證認,使得這300多萬個恒星/星系數(shù)據(jù)的天體類別得到了確認.因此,SDSS中包含的精確海量測光數(shù)據(jù)和光譜數(shù)據(jù)集,為研究各種恒星/星系分類算法提供了很好的數(shù)據(jù)支持.
SDSS的天體基本測光參數(shù)包括星等、顏色、輪廓、大小等;而光譜基本參數(shù)包括紅移、光譜型等.其中,光譜數(shù)據(jù)集分為兩種類型:一種是同時帶光譜證認參數(shù)(spectroscopic measures)和測光參數(shù)(photometric measures)數(shù)據(jù)集,另外一種是只帶有測光參數(shù)的數(shù)據(jù)集.SDSS中提供的第1種帶光譜證認的測光數(shù)據(jù)集僅有300多萬條,僅占SDSS-DR12測光數(shù)據(jù)中5億多個天體數(shù)據(jù)記錄中的極小一部分.如何對沒有光譜證認的SDSS測光天體進行分類?本文提出的SDA恒星/星系分類模型可能會是一種有效的方法來解決未知天體類型的分類問題.
深度學習成為研究熱點起始于2006年,當時Hinton和他的學生提出了用深度置信網(wǎng)絡(Deep Belief Network,DBN)構建深層結構,并通過逐層地對受限玻爾茲曼機(Restricted Boltzmann Machines,RBM)訓練來初始化網(wǎng)絡參數(shù),最終在手寫數(shù)字識別訓練集上達到了很好的效果[13].緊接著Bengio等人提出了一種基于自編碼構造的深度結構(堆疊自編碼,SA)[14].這些方法都是在利用隨機梯度下降進行監(jiān)督學習之前,先對網(wǎng)絡參數(shù)進行初始化,使其處于最優(yōu)值附近,這樣有效改善了直接計算網(wǎng)絡參數(shù)帶來的遭遇局部較差點的問題.這些方法在對網(wǎng)絡每層初始化的時候都用到了非監(jiān)督的學習方法,尤其是在帶標簽的數(shù)據(jù)比較稀少的時候,非監(jiān)督學習更能發(fā)揮較大的作用,堆疊降噪自編碼正是在堆疊自編碼的基礎上發(fā)展而來的.
3.1 傳統(tǒng)自編碼
自編碼網(wǎng)絡是構成堆疊自編碼網(wǎng)絡的基礎,它可以看作是一個3層的神經(jīng)網(wǎng)絡,由輸入層、隱藏層和輸出層組成,并分為編碼和解碼兩個階段.編碼階段:從輸入層x到隱藏層y的映射被認為是編碼,它一般由非線性函數(shù)來實現(xiàn):
s是一個非線性激活函數(shù),一般為sigm函數(shù)、tanh函數(shù)和max(0,x)函數(shù).θ={W,b},其中W代表權重矩陣,b代表偏差向量.解碼階段:解碼階段是輸出層z通過隱藏層y來重構輸入層x的階段,從隱藏層到輸出層的映射稱為解碼.這個映射為:這里θ′={W′,b′},θ′中的W′和b′可以看作是編碼階段θ中W和b的轉置,也可以當做完全不同的參數(shù).值得說明的是,當它們被看作是轉置的時候,這里的編碼和解碼就非常類似于DBN網(wǎng)絡的訓練過程.
通常z并不被當做是x精確的恢復,而是作為概率項p(X|Z=z)的參數(shù).由此可以得出重組誤差L(x,z).根據(jù)數(shù)據(jù)特征,重組誤差常采用以下兩種形式:
3.2 降噪自編碼
從信息論的角度看,最小化重組誤差是為了在自編碼過程中最大限度地保留輸入量x的信息,但是僅僅只保留信息是不夠的.如果只為了保留x的信息,設編碼映射為y=x將達到最好效果,但顯然這是無用的.我們需要的是通過得到有用的特征y來保留輸入信息,降噪自編碼是一種有效的方法[15],降噪的目的是為了提取更加有用的特征.首先,對原始輸入x進行加噪表示為?x,加噪是通過隨機映射產(chǎn)生的,即:?x~qD(?x|x).然后,加噪輸入向量?x通過輸入編碼被映射到隱藏層,再通過z=gθ(y)得到輸出向量.整個過程如圖1所示,這里需要特別說明的是這里的輸出向量z是盡可能地恢復原始輸入向量x而并非?x.
圖1 加噪(掩蔽噪聲)自編碼Fig.1 The corruption(masking noise)autoencoders
3.3 堆疊降噪自編碼
用堆疊降噪自編碼初始化深度網(wǎng)絡類似于在深度置信網(wǎng)絡中堆疊受限玻爾茲曼機和傳統(tǒng)的堆疊自編碼.堆疊降噪自編碼的具體過程為:首先,把深層網(wǎng)絡的輸入層和第1個隱藏層作為降噪自編碼的輸入和隱藏層進行降噪自編碼(如上節(jié)所述),用訓練后的參數(shù)來初始化深層結構中輸入層到第1隱藏層的參數(shù),然后再用原始輸入向量(不加噪)作為輸入前向傳播,從而得到了第1層特征向量.接著再把深層網(wǎng)絡中第1隱藏層和第2隱藏層作為降噪自編碼網(wǎng)絡的輸入層和隱藏層進行降噪自編碼,以此堆疊進行并最終達到對整個深層網(wǎng)絡的初始化.需要注意的是輸入到下一個降噪自編碼輸入層的向量是利用輸入無噪聲向量和之前降噪自編碼得到的參數(shù)前向傳導得到的,圖2給出了加噪自編碼網(wǎng)絡的第1次堆疊過程.
圖2 加噪自編碼網(wǎng)絡第1次堆疊過程Fig.2 The first stacked process of corruption autoencoder network
3.4 微調(diào)堆疊降噪自編碼網(wǎng)絡
當堆疊降噪自編碼被建立之后,它的最高層輸出可以被用來作為監(jiān)督學習算法的輸入層,例如支持向量機、邏輯回歸、softmax分類器等.此時,深度學習算法就可以利用監(jiān)督學習(一般為隨機梯度下降算法)對網(wǎng)絡進行參數(shù)微調(diào).當對參數(shù)微調(diào)時,我們不得不面對一個新的問題—模型過擬合.dropout是一個有效解決模型過擬合問題的技術[16],它的關鍵思想是隨機地從一個深層網(wǎng)絡中去掉節(jié)點(連同與他們連接),這些節(jié)點包括了輸入層和隱藏層的所有節(jié)點.對于每個訓練樣本以及它們被傳到深層網(wǎng)絡中的每個節(jié)點,dropout都是獨立進行的.所以對于有n個節(jié)點的深層網(wǎng)絡相當于生成了2n個子網(wǎng)絡,但全部子網(wǎng)參數(shù)是共享的,也就是總的參數(shù)并沒有改變,注意在測試階段不需要加入dropout.
實驗使用SQL查詢語言從SDSS巡天獲取了所需要的SDSS-DR7和SDSS-DR12測光數(shù)據(jù)集(見附錄1),我們選擇了13個SDSS測光參數(shù)和1個光譜參數(shù).本文中我們并不討論在SDSS眾多的測量屬性中到底哪些屬性集可以產(chǎn)生最精確的恒星/星系分類,而是重點選擇了那些已知的或者認為與天體分類有密切關聯(lián)的屬性集作為我們算法所需的輸入?yún)⒘考?這些屬性主要包括psfMag、 fiberMag、petroMag、petroRad、modelMag、petroR50、petroR90、lnLStar、lnLExp、lnLDeV、mRrCc、mE1和mE2,實驗中所用的是r波段數(shù)據(jù),詳細的描述見參考文獻[10].仿真工具我們使用的是matlab工具箱中的深度學習工具箱(Deep Learn Toolbox-master)和WEKA(Waikato Environment for Knowledge Analysis)數(shù)據(jù)挖掘軟件.實驗1研究了最新的SDSS-DR12數(shù)據(jù),首先去除掉所提取的SDSS-DR12數(shù)據(jù)中帶缺值的數(shù)據(jù),再根據(jù)屬性modelMag等值的不同將其分為兩類數(shù)據(jù)集.具體過程是使用不放回隨機抽樣的方法抽取modelMag值為14.0–19.0和22.0–22.5之間的數(shù)據(jù),把他們分別記為亮源集和暗源集.抽樣結果:亮星集包含了4萬個恒星和4萬個星系數(shù)據(jù),暗源集包含5200個恒星和5200個星系數(shù)據(jù)(SDSSDR12中暗源波段恒星和星系總的數(shù)據(jù)只有14000條),再對亮源和暗源數(shù)據(jù)集各屬性做歸一化預處理.我們再從亮源集中隨機抽取10000個恒星和10000個星系作為訓練集,余下的作為測試集,從暗源集中隨機抽取4000個恒星和4000個星系作為訓練集,余下作為測試集.然后比較SDA與其他機器學習算法在測試集上的分類正確率,這些算法包括LibSVM、J48、LMT、Decision Stump、SVM、Logistic Regression.實驗1用到的測試指標為測試集中恒星/星系整體分類正確率:
其中Nga?ga表示測試中將測試集中星系分為星系的數(shù)量,Nst?st是測試集中恒星分為恒星的數(shù)量,Ngalaxy和Nstar分別表示測試集中星系和恒星的總數(shù),測試集實驗結果如表1所示.最后在實驗1中SDA使用的具體參數(shù)范圍為:網(wǎng)絡結構是13-100-100-2,預訓練學習率是0.1、0.01、0.005、0.001,預訓練迭代次數(shù)是10、20、50、100,加噪噪聲為掩蔽噪聲,噪聲系數(shù)為0.1、0.25、0.5,輸出函數(shù)為Softmax函數(shù),微調(diào)dropout系數(shù)為0、0.1、0.25、0.5,微調(diào)學習率為0.5、0.1、0.05、0.01,微調(diào)迭代次數(shù)為50、100、500、2000、5000.
表1SDSS-DR12恒星/星系分類正確率Table 1 The accuracy rate of SDSS-DR12 star/galaxy classi fication
實驗1結果說明在兩個測試集中SDA的正確率都優(yōu)于其余的機器學習算法,在亮源集部分由于整體的正確率都比較高,所以只是略優(yōu)于其他算法,在暗源集部分SDA明顯優(yōu)于其他機器學習算法.Vasconcellos等人用決策樹對SDSS-DR7數(shù)據(jù)進行了恒星/星系分類實驗,實驗結果顯示在亮源集都取得了很高的正確率,但是在暗源集(modelMag值取20.5–21.0)正確率普遍偏低.作為比較實驗2,我們將SDA在SDSSDR7亮源集(modleMag取值范圍14.0–19.0)與暗源集(modleMag取值范圍20.5–21.0,等值范圍不同于SDSS-DR12)分類效果與決策樹的分類效果進行比較.首先去除掉所提取的SDSS-DR7數(shù)據(jù)中帶缺值的數(shù)據(jù),再從亮源中隨機抽取10000條恒星和10000條星系作為亮源訓練集,抽取10000條星系數(shù)據(jù)和10000條恒星數(shù)據(jù)作為亮源測試集.接下來從暗源中隨機抽取1000條恒星和1000條星系數(shù)據(jù)作為暗源測試集,剩余的315條暗源星系和920條恒星數(shù)據(jù)作為暗源測試集(暗源部分總的數(shù)據(jù)只有3000多條)并做歸一化預處理,此外SDA網(wǎng)絡的具體參數(shù)范圍與實驗1保持一致.為了保持與Vasconcellos等人所使用的測試指標保持一致,實驗2我們使用完備函數(shù)(completeness function,CP)作為測試指標:
測試集分類正確率如表2所示.
表2SDSS-DR7星系分類正確率Table 2 The accuracy rate of SDSS-DR7 galaxy classi fication
實驗2結果說明在SDSS-DR7中SDA的恒星/星系分類性能優(yōu)于決策樹算法,其中亮源集部分正確率略優(yōu)于決策樹算法,而暗源集部分分類正確率遠高于決策樹算法,平均提高了15%左右.說明了SDA克服了決策樹算法的不足,抓住了數(shù)據(jù)中隱藏的規(guī)律,不僅可以用于已出現(xiàn)過的數(shù)據(jù),還可以用到未出現(xiàn)的數(shù)據(jù)中,具有很強的泛化能力.SDA性能優(yōu)于傳統(tǒng)算法的原因可能有以下幾點:多層結構有更好的非線性函數(shù)逼近能力;利用非監(jiān)督學習獲得了更多的數(shù)據(jù)信息;逐層非監(jiān)督初始化預處理為全局優(yōu)化提供了較好的初始化參數(shù);使用SDA消除了測量誤差造成的數(shù)據(jù)噪聲,并提取了更有效的特征.
本文通過使用SDA算法來研究SDSS恒星/星系分類問題,實驗結果表明不管在新版的SDSS-DR12或者在SDSS-DR7上,相比于其他算法SDA都取得了很好的效果.盡管SDA表現(xiàn)優(yōu)于其他算法,但是在暗源集的正確率還有待于進一步的提高.解決這個問題的方法我們認為有兩個:第一,提高觀測技術獲取更多準確有效的暗源數(shù)據(jù),大部分算法在暗源集表現(xiàn)不好的原因之一是受限于暗源數(shù)據(jù)集小和信號信噪比低;第二,算法改進,改進SDA的激活函數(shù)可能會是一個有效的方法.最后,雖然用SDA提高了分類正確率,但當實際應用的時候還會遇到數(shù)據(jù)量過大且處理速度太慢,難以滿足實時性的問題.解決這個問題的途徑可以依靠分布式平臺對算法進行并行化改造,現(xiàn)在已經(jīng)出現(xiàn)了基于深度學習的分布式工具,例如基于spark分布式平臺的深度學習訓練庫OpenDL.接下來需要做的研究是將基于天文數(shù)據(jù)的深度學習算法和分布式處理工具相結合,做到準確性和效率的雙提高,相信它將會極大地推動天文信息學的發(fā)展.
[1]Messier C.Connoissance des Temps for 1784,1781:227-267
[2]Sebok W L.AJ,1979,84:1526
[3]Kron R G.ApJS,1980,43:305
[4]Yee H K C.PASP,1991,103:396
[5]Henrion M,Mortlock D J,Hand D J,et al.MNRAS,2011,412:2286
[6]Leauthaud A.ApJS,2007,172:219
[7]MacGillivray H T,Martin R,Pratt N,et al.MNRAS,1976,176:265
[8]Heydon-Dumbleton N H,Collins C A,MacGillivray H T.MNRAS,1989,238:379
[9]嚴太生,張彥霞,趙永恒,等.中國科學G輯,2009,39:1794
[10]Vasconcellos E C,De Carvalho R R,Gal R R.AJ,2010,141:189
[11]Malek K,Solarz A,Pollo A,et al.A&A,2013,557:906
[12]York D G.AJ,2000,120:1579
[13]Hinton G E,Osindero S,Yw T.Neural Computation,2006,18:1527
[14]Bengio Y,Lamblin P,Larochelle H,et al.NIPS,2006:153
[15]Vincent P,Larochelle H,Bengio Y,et al.ACM,2008:1096
[16]Dahl G E,Sainath T N,Hinton G E.ICASSP,2013:8609
附錄
SELECT
p.objID,p.ra,p.dec,s.specObjID,
p.psfMag-r,p.modelMag-r,p.petroMag-r,
p. fiberMag-r,p.petroRad-r,p.petroR50-r,
p.petroR90-r,p.lnLStar-r,p.lnLExp-r,
p.lnLDeV-r,p.mE1-r,p.mE2-r,p.mRrCc-r,
p.type-r,p.type,s.Class
INTO MyDB.SDSS-DR12-TRAIN-R13-23
FROM PhotoObj AS p
JOIN SpecObj AS s ON s.bestobjid=p.objid
WHERE
p.modelMag-r BETWEEN 13.0 AND 23.0 AND
s.Class in(’GALAXY’,’STAR’)AND
p.psfMag-r!=-9999 AND
p.modelMag r!=-9999 AND
p.petroMag r!=-9999 AND
p. fiberMag r!=-9999 AND
p.petroRad r!=-9999 AND
p.petroR50r!=-9999 AND
p.petroR90r!=-9999 AND
p.lnLStar r!=-9999 AND
p.lnLExp r!=-9999 AND
p.lnLDeV r!=-9999 AND
p.mE1r!=-9999 AND
p.mE2-r!=-9999 AND
p.mRrCc-r!=-9999
Stacked Denoising Autoencoders Applied to Star/Galaxy Classi fication
QIN Hao-ran1LIN Ji-ming1WANG Jun-yi2
(1 Guangxi Experiment Center of Information Science,Guilin University of Electronic Technology, Guilin 541004)
(2 Guangxi Key Laboratory of Cryptography and Information Security,Guilin University of Electronic Technology,Guilin 541004)
In recent years,the deep learning has been becoming more and more popular because it is well-adapted,and has a high accuracy and complex structure,but it has not been used in astronomy.In order to resolve the question that the classi fication accuracy of star/galaxy is high on the bright set,but low on the faint set of the Sloan Digital Sky Survey(SDSS),we introduce the new deep learning SDA(stacked denoising autoencoders)and dropout technology,which can greatly improve robustness and antinoise performance.We randomly selected the bright source set and faint source set from DR12 and DR7 with spectroscopic measurements,and preprocessed them.Afterwards, we randomly selected the training set and testing set without replacement from the bright set and faint set.At last,we used the obtained training set to train the SDA model of SDSS-DR7 and SDSS-DR12.We compared the testing result with the results of Library for Support Vector Machines(LibSVM),J48,Logistic Model Trees(LMT), Support Vector Machine(SVM),Logistic Regression,and Decision Stump algorithm on the SDSS-DR12 testing set,and the results of six kinds of decision trees on the SDSSDR7 testing set.The simulation shows that SDA has a better classi fication accuracy than other machine learning algorithms.When we use completeness function as the test parameter,the test accuracy rate is improved by about 15%on the faint set of SDSS-DR7.
methods:data analysis,techniques:photometric,galaxies:fundamental parameters,stars:fundamental parameters,cosmology:observations
P152;
:A
10.15940/j.cnki.0001-5245.2016.03.010
2015-07-15收到原稿,2015-12-22收到修改稿
?國家自然科學基金項目(61261017)、廣西自然科學基金項目(2014GXNSFAA118387)、廣西信息科學實驗中心項目(KF1408)及桂林電子科技大學研究生教育創(chuàng)新計劃項目(YJCXS201517)資助
?19888nba@163.com
?linjm@guet.edu.cn