馬志賢, 吳中耀, 游寒旭, 朱 杰
(上海交通大學 電子信息與電氣工程學院,上海 200240)
?
基于SVM的X射線天文圖像點源探測算法
馬志賢, 吳中耀, 游寒旭, 朱杰
(上海交通大學 電子信息與電氣工程學院,上海 200240)
摘要:宇宙中多數(shù)天體在天文圖像中呈現(xiàn)點狀結構,使得針對天文圖像點源探測和提取算法的研究成為熱點.提出了一種X射線天文圖像點源提取算法.首先,利用閾值分割分離部分背景噪聲;然后利用峰值檢測的方法獲得潛在點源的位置和中心亮度;而后,根據(jù)X射線圖像光譜的特點,提取點源和背景的光譜特征,利用支持向量機(SVM)進行有監(jiān)督訓練獲得分類模型;最后,利用該模型篩除潛在點源中的錯誤探測.設計實驗,應用該算法到NGC 4552 星系的X射線天文圖像的點源探測.相較于參考算法wavdetect,本算法能夠達到相同的誤差率(約5%),但具有更高的處理效率.
關鍵詞:X射線點源; 閾值分割; 峰值檢測; 支持向量機; 光譜
0引言
自20世紀70年代以來,超過一百顆搭載天文望遠鏡的衛(wèi)星發(fā)射升空,用于多波段的天文物理學的研究,包括多尺度結構的探測,基于光譜的物質(zhì)成分分析等.這其中,因為多數(shù)天體呈現(xiàn)點狀或類點狀的形態(tài),使得天文圖像點源的探測和提取成為熱點.然而,存在多種因素影響點源的探測.首先,天體與地球的距離達到數(shù)光年,觀測望遠鏡接收到的光子數(shù)量有限,它們在圖像中的亮度是有限且較暗的;其次,觀測儀器的點擴散效應(PSF)以及儀器效應的存在,產(chǎn)生了背景噪聲,影響點源的識別[1-2].
Malias等[3]對目前的天文圖像的點源提取算法進行了回顧,總結出三類方法:(1) 基于輪廓提取及匹配的算法,如霍夫變換[4];(2) 基于峰值檢測和濾波的方法,如“wavdetect”[5],該算法是目前天文領域常用的處理算法,已經(jīng)作為Chandra觀測平臺工具箱CIAO中的函數(shù)[6].(3) 基于質(zhì)心提取的算法,如“Centroid extraction”[7].雖然這幾種點源提取算法都有成功的應用,但也存在一些不足.基于輪廓提取的算法復雜度高,算法效率低;后兩種算法中,“wavdetect”采用的全局背景估計的策略降低了準確性,而質(zhì)心提取算法對背景噪聲的處理效果不好.
針對X射線天文圖像的特點,本文作者提出了一種新的點源探測算法.采用峰值檢測的方法對潛在的點源進行探測,而后根據(jù)X射線圖像點源光譜特點設計偽點篩除機制,去除錯誤探測的點源.在X射線波段,觀測設備的CCD通過長時間接收不同能量光子的累積,統(tǒng)計具有不同能量光子的數(shù)量可以獲得相應的光譜信息[8].而點源和背景的光譜特征存在區(qū)別,可以幫助篩除潛在點源中的錯誤探測,提升點源識別的準確性.支持向量機(SVM)作為優(yōu)秀的分類器,被廣泛用于數(shù)據(jù)分析的各個領域[9].采用SVM作為不同成分光譜特征的分類器,建立分類模型,用于偽點的篩除.
文章將按如下內(nèi)容展開:第1節(jié)中,說明基于閾值分割和峰值檢測的潛在點源探測算法;在第2節(jié)中,簡要介紹基于光譜特征特征提取的SVM分類訓練方法;針對提出的點源提取算法的實驗以及分析會在第3節(jié)給出;最后一節(jié)進行總結.
1潛在點源探測算法
X射線天文圖像中,每個像素對應的數(shù)值反映了光子的個數(shù),光子的數(shù)量越多,該像素在圖像中的亮度越高.文獻[1]指出圖像中的點源是原始圖像與點擴散函數(shù)卷積后的結果,且PSF類似于二維高斯函數(shù),使得卷積后的點源能量集中在點源區(qū)域的中心.通過峰值檢測可以幫助定位點源的中心,確定點源的位置.Freeman等[5]的工作表明,X 射線天文圖像的背景服從泊松分布,且相對于點源光子數(shù)是較少的,可以采用設定亮度閾值的方法對圖像進行預處理,去除部分背景干擾.
1.1背景噪聲削弱
設I表示圖像矩陣,亮度閾值為TBright,則背景削弱后的圖像矩陣IS為:
(1)
其中(x,y)表示像素點的坐標.對IS進行歸一化,得到:
(2)
通過閾值分割削弱背景噪聲,能夠有效地突出點源,便于后續(xù)的峰值檢測,如圖1所示.
圖1 X射線天文圖像背景去除樣例圖
1.2潛在點源探測
對于預處理后的圖像矩陣,設計算法獲取潛在點源的中心位置信息,設計了一種基于峰值檢測的算法.傳統(tǒng)的峰值檢測算法需要遍歷所有點,且對于二維矩陣,獲得所有峰值的位置算法的時間復雜度很高,為O(n3).作者不采用遍歷的算法,而是通過尋找最大值的方法獲取點源的中心位置.如圖2所示,每次尋找矩陣中的最大值,記錄其坐標(x,y);而后設定相鄰峰值半徑r,該點半徑為r的區(qū)域內(nèi)的所有像素的數(shù)值設為0;繼續(xù)尋找下一個最大值,直到最大值低于設定門限TPeak,該算法的時間復雜度為O(n2).
圖2 潛在點源探測算法流程圖
2光譜特征提取及分類
由于背景噪聲中存在數(shù)值較大的點,探測的潛在點源中存在錯誤提取,需要進行篩除.本節(jié)中,提出基于光譜特征分析的分類方法,首先對點源和背景的光譜進行分析,提取相應的特征;而后介紹采用SVM獲取分類模型并幫助偽點去除的算法.
2.1光譜特征提取
文獻[8,10]給出了光子數(shù)(PI)的描述,對于一片觀測CCD,有C個通道,每個通道對應具有某一能量的光子,其映射關系由式(3)所示:
(3)
其中Ei表示第i個通道的總能量,運算符?·」表示向下取整.由此,設通道C為自變量,光子數(shù)PI為因變量,得到對應區(qū)域的光譜圖.
如圖3(a)為單個源的光譜圖,其中虛線對應點源,實線表示背景噪聲,選取的區(qū)域大小為10×10的方形區(qū)域.圖3(b)所示為多個區(qū)域光譜疊加的結果,可以看出在[1,150]通道內(nèi),點源的PI遠多于背景噪聲,并且出現(xiàn)PI峰值的通道不同.表明根據(jù)光譜可以區(qū)分點源和背景.
圖3 光譜特征對比圖
(4)
(5)
其中x表示特征向量,xi表示第i個特征,i=1,2,…,N.K表示類的個數(shù).
定義光譜特征向量x,
x=[PI1,…,PI150,Peak,Avg,Var],
(6)
其中Peak表示光譜中峰的個數(shù),Avg表示所有通道PI的均值,Var表示方差.
2.2SVM分類器
支持向量機基于統(tǒng)計學習理論,采用結構風險最小化準則,在最小化樣本點誤差的同時,最小化結構風險,具有較高的泛化能力[13].除此之外,核函數(shù)的使用使得SVM對于高維特征的處理具有較高的效率[9].SVM作為有監(jiān)督的機器學習方法,需要給訓練集的樣本添加標簽,本研究的問題屬于二分類,設定點源的標簽為1,背景噪聲的標簽為-1.
首先給出樣本的定義,編號為i的樣本Si,設xi為特征向量,yi為樣本標簽.則有:
(7)
其中N表示樣本的個數(shù).SVM的目標就是尋找超平面w·x+b=0,使得位于該平面兩邊的點分別屬于不同的類別,滿足:
(8)
式(8)也可以寫為緊湊形式:
(9)
SVM要求其決策邊界的邊緣是最大化的[9],等價于最小化下面的目標函數(shù):
(10)
考慮到存在不可分樣本的情況,引入懲罰因子c和松弛變量ξi,加上約束條件后,SVM分類的目標函數(shù)轉化為:
(11)
該目標函數(shù)的求解可以歸結為凸優(yōu)化問題,通過拉格朗日乘子法求解,新的目標函數(shù)轉變?yōu)樵搩?yōu)化問題的拉格朗日函數(shù),如下所示:
(12)
其中前兩項是需要最小化的目標函數(shù),第三項表示與松弛變量相關的不等式約束,最后一項是要求ξi的值非負的結果.
求解式(12),令L關于w,b,ξi的一階導數(shù)為0并帶入(12)中,得到該拉格朗日函數(shù)的對偶函數(shù)LD:
(13)
(14)
其中xr,xs為兩類中任意一對支持向量.
具有決策邊緣最大化的分類函數(shù)為:
(15)
其中x為待分類樣本的特征向量,NSV表示支持向量的個數(shù),NSV越小,特征的可分性越好.
若該分類問題是非線性的,引入核函數(shù)Φ(·)代替式(12),(14)中的內(nèi)積xi·xj,要求該函數(shù)滿足Mercer定理,即計算一對特征向量的核函數(shù)等價于在變換后的空間中計算這對向量的點積[9].非線性分類的最優(yōu)分類函數(shù)由下式給出:
(16)
3實驗及結果分析
結合前文的分析,設計實驗,討論算法的性能,并且以“wavdetect”算法的結果作為參考,進行對比.本節(jié)首先對實驗對象NGC4552進行介紹;然后對潛在點源探測算法參數(shù)的選擇進行說明;最后通過對多區(qū)域點源探測,分析提出的算法的性能.
3.1實驗對象說明
本次實驗選取的對象為NGC 4552,這是一個典型的橢圓星系,位于Virgo星系團中(紅移z=0.001134).實驗數(shù)據(jù)來自于“Chandra Observatory”觀測平臺,觀測時間為2001年4月22至23日,曝光時間56.8 ks[15],X射線圖像利用CIAO v4.8獲得.由于原始圖片較大,選取3個100×100的區(qū)域進行說明,如圖4 (a)~4(c).其中區(qū)域1的點源亮度與背景接近,區(qū)域2的點源亮度遠高于背景噪聲,區(qū)域3包含暗、亮兩種點源.
3.2參數(shù)選擇
在提出的點源探測算法中有3個參數(shù)需要進行說明,分別是亮度閾值TBright,峰值門限TPeak以及相鄰峰值半徑r.其中相鄰半徑r的設定參考“wavdetect”參數(shù)設定,本次實驗中r=4.對于TPeak,假設背景已去除,偽點篩除的性能足夠好,本次實驗中TPeak=0.對于TBright,不同的區(qū)域其數(shù)值的選擇不同,針對3個區(qū)域,設定的亮度閾值分別為0.6627,0.0667以及0.0549,可以看出對于點源亮度與背景噪聲接近時的亮度閾值門限遠大于點源亮度較高時的情形.
3.3分類模型獲取
選取Chandra平臺多次觀測的數(shù)據(jù),對已經(jīng)確定位置的點源,設定區(qū)域大小為10×10的方形區(qū)域,提取光譜特征向量.同理,對于背景區(qū)域也提取相同大小區(qū)域的光譜特征.本次實驗的訓練集共有300個測試樣本,點源和背景樣本的數(shù)量均為150.
利用libsvm工具箱[14]對訓練集進行有監(jiān)督訓練.考慮到樣本的特征維度較高,采用RBF核,并利用交叉檢驗獲取分類準確率最高的懲罰因子c以RBF參數(shù)γ的數(shù)值.通過多次訓練,取分類效果最好的模型作為偽點去除的分類器.
對于建立的SVM模型,其中的支持向量的個數(shù)為116,相對于訓練樣本個數(shù)是比較少的,說明了選取的特征的可分性很高.
3.4NGC 4552點源探測
利用確定的參數(shù)和分類器模型,對3個區(qū)域的點源進行探測并篩選錯誤點源,實驗結果如表1所示.可以看出點源探測算法的準確率是較高的,探測到的點源個數(shù)與“wavdetect”相當.在處理時間上,算法處理時間與“wavdetect”持平.但考慮到所使用的MATLAB的算法執(zhí)行效率遠低于C語言,可以認為本方法的運算效率更高.
圖4給出了探測的結果,在圖4 (a)~4(c)中以點源中心位置坐標為中心,半徑為5 pixels圈出了探測到的點源結構;圖4(d)~4(f)是提出的點源探測算法與“wavdetect”算法探測到的點源中心坐標的對比圖.可以看出,在區(qū)域1和區(qū)域3,兩者探測到的點源基本相同;在區(qū)域2,兩者探測的結果差異較大,有3個不同的點.結合圖4(b),這3個點是點源的可能性更大.
表1 NGC 4552點源提取結果
圖4 NGC 4552多區(qū)域點源探測結果圖
4結論
根據(jù)X射線天文圖像及不同成分光譜的特點,提出了基于SVM的點源探測算法.以天文學中廣泛應用的“wavdetect”算法作為參考和對比,本算法被應用到NGC 4552星系X射線圖像點源探測中,獲得了接近于前者的準確率以及更高的處理效率.表明采用圖像分割和峰值檢測進行潛在點源探測,以及利用X射線圖像光譜特征進行分類進行偽點篩除的方法具有較好的效果和可行性.
然而,該算法還存在不足.“wavdetect”能夠給出識別點源的輪廓信息,而本算法目前只能給出位置信息;除此之外,對于星系中心所在的高亮區(qū)域,本算法的魯棒性還有一定欠缺.這也是后續(xù)努力的目標.
參考文獻:
[1]Selig M,En?lin T A.Denoising,deconvolving,and decomposing photon observations-derivation of the D3PO algorithm [J].Astronomy & Astrophysics,2015,574:399.
[2]王婧穎.星系團和星系群中 IGM 標定關系的 X 射線研究及在低頻射電觀測中的應用 [D].上海:上海交通大學,2013.
[3]Masias M,Freixenet J,Lladó X,et al.A review of source detection approaches in astronomical images [J].Monthly Notices of the Royal Astronomical Society,2012,422(2):1674-1689.
[4]Hough H P.Method and means for recognizing complex patterns:U.S.Patent 3,069,654 [P].(1962-12-18).
[5]Freeman P E,Kashyap V,Rosner R,et al.A wavelet-based algorithm for the spatial analysis of Poisson data [J].The Astrophysical Journal Supplement Series,2002,138(1):185.
[6]Fruscione A,Mcdowell J C,Elvis M,et al.CIAO:Chandra′s data analysis [C]//Silta D R,Doxsey R E.Observatory Operations:Strategies Processes and Systems.SPIE:Orlando,2006.
[7]Luo L,Xu L,Zhang H.Improved centroid extraction algorithm for autonomous star sensor [J].Image Processing,IET,2015,9(10):901-907.
[8]Hong J,Schlegel E M,Grindlay J E.New spectral classification technique for X-ray sources:quantile analysis [J].The Astrophysical Journal,2004,614(1):508-517.
[9]Tan P,Steinbach M,and Kumar V,et al.數(shù)據(jù)挖掘?qū)д?完整版) [M].北京:人民郵電出版社,2012.
[10]Pulse Spectrum.PI:Pulse Invariant [EB/OL].[2015-12-28].http://cxc.harvard.edu/ciao/dictionary/pi.html.
[11]Yang L,Li D X.Image threshold segmentation method based on genetic algorithm [J].Information Technology,2015,11:116-120.
[12]Otsu N.A threshold selection method from gray-level histograms [J].Automatica,1975,11(285-296):23-27.
[13]史峰,王輝,郁磊,等.MATLAB智能算法30個案例分析 [M].北京:北京航空航天大學出版社,2011.
[14]Chang C C,Lin C J.LIBSVM:A library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):389-396.
[15]Xu Y,Xu H,Zhang Z,et al.Chandra study of X-ray point sources in the early-type galaxy NGC 4552 (M89) [J].The Astrophysical Journal,2005,631(2):809-819.
(責任編輯:包震宇)
An approach of point sources detection in X-ray astronomicalimage using support vector machine
MA Zhixian, WU Zhongyao, YOU hanxu, ZHU Jie
(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Abstract:Since most of energy sources in our Universe appear point-like structures,the study of point sources detection method on astronomical images has become significant.In this paper,a point sources detection approach on X-ray astronomical image was proposed.Firstly,a thresholding method was used to separate the background noises.Then,the peak detection method was taken to detect the positions of potential point sources.After that,we extracted spectrum features of point sources and backgrounds,and generated the classification model using the Support Vector Machine.Finally,the correct point sources were got after discarding of spurious detections with the classification model.Our approach was applied to the X-ray image of Galaxy NGC 4552.Compared with “wavdetect”,our approach has the same performance of accuracy with a detection error rate of 5%,but a higher efficiency.
Key words:X-ray point sources; thresholding; peak detection; support vector machine; spectrum
中圖分類號:TP 919.8
文獻標志碼:A
文章編號:1000-5137(2016)02-0230-07
通信作者:朱杰,中國上海市閔行區(qū)東川路800號,上海交通大學電子信息與電氣工程學院,郵編:200240,E-mail:zhujie@sjtu.edu.cn
基金項目:國家自然科學基金(61271349,61371147,11433002);上海航天科技創(chuàng)新基金(SAST2015039)
收稿日期:2016-02-29