劉艷玲,陳卯蒸*,袁建平
(1. 中國科學(xué)院新疆天文臺,新疆 烏魯木齊 830011;2. 中國科學(xué)院大學(xué),北京 100049;3. 中國科學(xué)院射電天文重點實驗室,江蘇 南京 210033;4. 新疆微波技術(shù)重點實驗室,新疆 烏魯木齊 830011)
快速射電暴是一種持續(xù)時間僅為數(shù)毫秒的爆發(fā)性、高度色散的脈沖式射電輻射天文現(xiàn)象,瞬時輻射流量可達數(shù)十央斯基(Jy)[1-6]。2007年,文[1]在分析澳大利亞帕克斯(Parkes)天文臺脈沖星巡天歷史數(shù)據(jù)時,首次發(fā)現(xiàn)了這種天文現(xiàn)象。直到2013年,文[2]在新的帕克斯巡天數(shù)據(jù)中發(fā)現(xiàn)了4個不同色散量的射電暴后,首次將該類現(xiàn)象命名為快速射電暴。隨后,快速射電暴作為一種新發(fā)現(xiàn)的天體物理現(xiàn)象被廣泛接受[7]??焖偕潆姳┦钱?dāng)前研究最多的天體物理瞬變源之一,但它們的起源以及是否存在多種類型的前身和發(fā)射機制仍是未解決的問題[5,8-11]。國內(nèi)外已有多個團隊開展快速射電暴的觀測研究。今年2月19日,中國慧眼衛(wèi)星團隊宣布,確認(rèn)在銀河系內(nèi)發(fā)現(xiàn)的快速射電暴FRB 200428來源于磁性SGR J1935+2154[12],這是人類首次證明快速射電暴可以起源于磁性爆發(fā)。未來,我們還需要基于大量的快速射電暴觀測數(shù)據(jù)進行研究,以回答更多與其起源和發(fā)射機理有關(guān)的問題。
除了澳大利亞64 m帕克斯射電望遠(yuǎn)鏡(Parkes Radio Telescope),國際上有多個望遠(yuǎn)鏡參與快速射電暴的觀測與搜尋工作,并成功發(fā)現(xiàn)了快速射電暴。如美國305 m阿雷西博射電望遠(yuǎn)鏡(The Arecibo Radio Telescope)[13]和100 m綠岸射電望遠(yuǎn)鏡(The Green Bank Telescope, GBT)[14],澳大利亞升級后的莫朗格洛河天文臺合成望遠(yuǎn)鏡(the Upgraded Molonglo Observatory Synthesis Telescope, UTMOST)[15-16]和平方千米陣探路者射電望遠(yuǎn)鏡(Australian Square Kilometer Array Pathfinder, ASKAP)[17-18],加拿大氫強度測繪實驗望遠(yuǎn)鏡(Canadian Hydrogen Intensity Mapping Experiment, CHIME)[19-20],德國100 m埃菲爾斯伯格射電望遠(yuǎn)鏡(Effelsberg Radio Telescope)[21],意大利64 m撒丁島射電望遠(yuǎn)鏡(Sardinia Radio Telescope, SRT)[22]。作為世界上面積最大、靈敏度最高的500 m口徑球面射電望遠(yuǎn)鏡(The Five-hundred-meter Aperture Spherical radio Telescope, FAST)也觀測到了快速射電暴[23-24]。從目前的快速射電暴探測率推斷,快速射電暴的發(fā)生率非常高,每天有數(shù)千起,這意味著宇宙中產(chǎn)生這些輻射源的物體一定很多[5]。預(yù)計未來幾年,快速射電暴探測率將迅速提高,每年甚至可以探測數(shù)百至數(shù)千個,快速射電暴的研究進程隨著探測率的快速增加進入一個新紀(jì)元。因此,如何有效地從海量觀測數(shù)據(jù)中快速篩選出稀有的、真實的快速射電暴,成為開展快速射電暴科學(xué)研究首先要解決的一個重要問題。
快速射電暴看起來類似于銀河系脈沖星的單脈沖,但是大色散延遲表明,它們通常來自銀河系外(目前FRB 200428除外)。脈沖星輻射極其微弱,但具有非常穩(wěn)定的周期,大部分脈沖星需要通過周期折疊才能得到積分脈沖輪廓??焖偕潆姳r少有周期性重復(fù)但明亮的特點,使其搜尋過程與脈沖星有相同也有不同。
射電信號穿過星際介質(zhì)到達地球的過程中發(fā)生色散、散射和閃爍,導(dǎo)致脈沖輪廓展寬和變形,強度發(fā)生變化。其中色散的影響最大,表現(xiàn)為高頻信號比低頻信號先到達,如圖1(a)。因此,消色散是傳統(tǒng)脈沖星和快速射電暴搜尋過程中的關(guān)鍵技術(shù)手段。在快速射電暴搜尋過程中,通過試驗一系列的色散量(Dispersion Measure, DM)對觀測數(shù)據(jù)進行頻率通道數(shù)據(jù)移動,消除色散延遲,再對調(diào)整后的頻率通道數(shù)據(jù)疊加生成不同信噪比的時間序列(脈沖輪廓),當(dāng)信噪比最大的色散量出現(xiàn)時,經(jīng)過消色散處理的脈沖輪廓和動態(tài)譜如圖1(b)。色散延遲Δt跟色散量的關(guān)系為
圖1 Lorimer發(fā)現(xiàn)的快速射電暴(FRB 010724)[1,25]。(a)消色散前的時間序列和動態(tài)譜圖;(b)消色散后的脈沖輪廓和動態(tài)譜圖
Δt=4.15(v2-2-v1-2)DM,
(1)
其中,v1和v2為兩個頻率通道的中心頻率;DM為色散量 。由此可見,色散量越大,信號在頻率通道間的延遲越明顯。
針對流量較強的脈沖星,其單脈沖與快速射電暴一樣,通過信噪比最大的色散量消色散后即可發(fā)現(xiàn)。但是對于大部分輻射極其微弱的脈沖星信號,消色散后,還需借助傅里葉變換確定周期,然后進行信號周期疊加(提高信噪比),最后輸出候選體的脈沖輪廓、時間-相位圖等信息進行確認(rèn)。
這些罕見且鮮少重復(fù)的單脈沖事件由自動化、高性能的基于消色散理論的軟件管道進行搜尋,如HEIMDALL[26], Bonsai[7], Amber[27], CDMT[28], Presto[29]和BEAR[30]等。500 m口徑球面射電望遠(yuǎn)鏡多科學(xué)目標(biāo)同時巡天規(guī)劃采用基于HEIMDALL建立的FAST_Miner管道[24],在20多個圖形處理器(Graphics Processing Unit, GPU)服務(wù)器上進行快速射電暴搜尋,生成的候選體經(jīng)過初步過濾參數(shù)后,由人工進一步檢查。文[30]開發(fā)了Piggyback后端和BEAR搜尋軟件,安裝在昆明40 m和新疆南山26 m射電望遠(yuǎn)鏡上進行快速射電暴觀測搜尋工作[30]。這些管道對經(jīng)過大量的色散量消色散處理后得到的時間序列(脈沖輪廓)進行閾值判斷,任何峰值信噪比高于閾值的都報告為候選體。由于射頻干擾(Radio Frequency Interference, RFI)、系統(tǒng)增益變化或者其他因素,這些算法面臨噪聲和射頻干擾偽裝成快速射電暴的挑戰(zhàn),即假陽性:預(yù)測為正,實際為負(fù)。單脈沖檢測程序為了不錯過快速射電暴,制造了數(shù)以千計的假陽性候選體。最初篩查工作由人工進行,但是,隨著快速射電暴觀測數(shù)據(jù)量的增加,特別是多波束、天線陣產(chǎn)生的數(shù)據(jù)呈指數(shù)增長,假陽性候選體的數(shù)量也急劇增加。就目前全球快速射電暴事件檢測的概率而言,人工篩選快速射電暴是一項繁冗、低效率、高成本的棘手工作。
在海量的觀測數(shù)據(jù)中尋找罕見的快速射電暴,如同大海撈針。機器學(xué)習(xí)的應(yīng)用能夠提高搜尋快速射電暴事件的速度和準(zhǔn)確率。本文根據(jù)是否進行人工構(gòu)造特征,將基于機器學(xué)習(xí)的快速射電暴搜尋技術(shù)分為基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。機器學(xué)習(xí)在搜尋快速射電暴中的應(yīng)用,實際上解決了快速射電暴和射頻干擾或者背景噪聲的分類問題。我們一般使用準(zhǔn)確率(Accuracy)、召回率(Recall)和精確率(Precison)等指標(biāo)評估算法的性能。其中,準(zhǔn)確率反映算法正確分類正負(fù)樣本的能力;召回率反映算法正確識別快速射電暴的能力,值越高,代表錯過快速射電暴的概率越??;精確率反映預(yù)測為正的樣本中快速射電暴所占的比例,值越高,代表錯分類為快速射電暴的負(fù)樣本越少。
訓(xùn)練樣本是機器學(xué)習(xí)算法應(yīng)用的前提。然而,目前得到認(rèn)證的快速射電暴數(shù)量非常少,而且可能不是潛在快速射電暴群體的代表性樣本,因此,不足以為機器學(xué)習(xí)建立有意義的訓(xùn)練集。傳統(tǒng)的機器學(xué)習(xí)方法采用來自脈沖星的單脈沖作為快速射電暴樣本,如表1。近幾年,基于深度學(xué)習(xí)算法的快速射電暴搜尋應(yīng)用,通常采用模擬快速射電暴的方法生成樣本集,或再補充來自銀河系脈沖星的單脈沖充實訓(xùn)練集。因此,目前的機器學(xué)習(xí)模型并沒有對脈沖星的單脈沖和快速射電暴進行區(qū)分,而是歸為一類,后期處理時再根據(jù)周期性以及色散量等做進一步的判斷。由于快速射電暴單脈沖形態(tài)簡單,用較少的參數(shù)即可建立仿真模型。在設(shè)計快速射電暴仿真算法時,綜合考慮色散、散射和閃爍的影響來模擬快速射電暴脈沖信號,然后疊加在真實的僅含有背景噪聲和干擾的觀測數(shù)據(jù)上,生成快速射電暴樣本。以模擬方式建立快速射電暴樣本庫,可以通過控制參數(shù)獲得快速射電暴在色散、寬度、幅度及閃爍模式上合理分布的樣本庫。
表1 部分樣本數(shù)據(jù)集比較
由于射頻干擾來源復(fù)雜,種類繁多,模擬射頻干擾比較困難,而且射頻干擾時刻存在于觀測數(shù)據(jù)中,因此,在現(xiàn)有的研究中,負(fù)樣本集均由真實的觀測數(shù)據(jù)產(chǎn)生。這也給機器學(xué)習(xí)模型識別射頻干擾帶來了挑戰(zhàn)。因為無法控制訓(xùn)練樣本集中射頻干擾的種類及數(shù)量,造成某一種或多種類型射頻干擾的樣本數(shù)量偏少,模型無法獲得拒絕該類射頻干擾的能力,從而降低識別率。
需要指出的是,無論是來自脈沖星的單脈沖,還是模擬的快速射電暴樣本,都沒有現(xiàn)成可用的公共數(shù)據(jù)集,研究人員都是針對不同的望遠(yuǎn)鏡、接收機及觀測終端記錄的數(shù)據(jù)進行設(shè)計。因此,由于樣本數(shù)量、分布、比例、質(zhì)量等因素的不同,算法間不能直接定量比較。
基于傳統(tǒng)機器學(xué)習(xí)的快速射電暴搜尋方法的實現(xiàn)框架如圖2。這種搜尋方法需要有經(jīng)驗的專家花大量時間進行特征構(gòu)建、提取和選擇。特征選擇在機器學(xué)習(xí)中占有相當(dāng)重要的地位。選取較少的、具有明顯物理或統(tǒng)計意義的特征,有助于降低計算成本,提高模型開發(fā)和訓(xùn)練速度?;谌斯ぬ崛√卣鞯臋C器學(xué)習(xí)方法的優(yōu)點是計算簡單,模型復(fù)雜度低,收斂速度快,對硬件要求低。
圖2 基于傳統(tǒng)機器學(xué)習(xí)的快速射電暴搜尋方法實現(xiàn)框架
最早在2011年,文[37]提出了一種簡單的二次判別函數(shù)的方法自動區(qū)分噪聲、干擾和快速射電暴。該方法在實踐中表現(xiàn)并不好,因為訓(xùn)練樣本是一維時間序列,且信噪比沒有設(shè)下限。訓(xùn)練好的分類器在面對新的脈沖強度隨時間漂移的單脈沖或者強射頻干擾時,沒有識別能力。
隨機森林具有較好的抗過擬合能力和處理不平衡數(shù)據(jù)的能力,在處理大數(shù)據(jù)集的效率以及對噪聲的魯棒性方面表現(xiàn)突出,非常適用于天文搜尋。因此,隨機森林算法在為數(shù)不多的快速射電暴搜尋應(yīng)用中受到青睞。文[16, 31-32, 38]均采用了隨機森林算法。文[38]基于經(jīng)驗,針對候選體的動態(tài)譜進行特征設(shè)計與提取,二維動態(tài)譜與一維的時間序列相比,特征信息豐富且更穩(wěn)定。選取最小觀測頻率、色散量、信噪比以及候選體事件發(fā)生期間和前后區(qū)域的圖像統(tǒng)計信息等10個特征作為模型輸入,在7 649個候選體測試集上實現(xiàn)了95.8%的準(zhǔn)確率、95.7%的召回率和97.3%的精確率。文[16, 32]在特征使用方面做了一些改進,將候選體輸出結(jié)果中的信噪比、寬度以及色散量作為預(yù)分類過濾器的參數(shù)對候選體進行第1級篩選,對于留下的候選體,再從頻率-時間數(shù)據(jù)提取能夠表征候選體噪聲和信號的7類統(tǒng)計特征(如候選體事件窗口以及前后寬度相同窗口的均值和標(biāo)準(zhǔn)差等),輸入機器學(xué)習(xí)分類器中識別,實現(xiàn)了98.8%的準(zhǔn)確率。這樣的兩級分類策略降低了后一級機器學(xué)習(xí)模型的復(fù)雜度,但是對于人類經(jīng)驗依賴程度很高,受限于研究人員的認(rèn)知水平和經(jīng)驗?zāi)J健榱蓑炞C系統(tǒng),他們還對含有2 000個模擬快速射電暴樣本的數(shù)據(jù)集進行測試,實現(xiàn)了90%的召回率。值得一提的是,文[16, 32]開發(fā)的是一個低延遲(<24 s)的候選體分類管道,實現(xiàn)了準(zhǔn)實時分類和電壓數(shù)據(jù)捕獲。研究人員利用該分類器發(fā)現(xiàn)了FRB 170827,并成功捕捉到了其電壓數(shù)據(jù),揭示了FRB 170827的時間結(jié)構(gòu)。
文[31]與其他文獻中的快速射電暴和射頻干擾簡單的二分類應(yīng)用不同,通過人工標(biāo)記,對射頻干擾進一步詳細(xì)劃分為8類,二分類系統(tǒng)在區(qū)分單脈沖和這8類干擾時表現(xiàn)很糟糕。因此,針對射頻干擾種類多樣的特點,文[31]建立了多類別概率分類系統(tǒng),對每個候選體提取409個特征,經(jīng)模型預(yù)處理后減少到398個。經(jīng)測試,該分類模型對單脈沖實現(xiàn)了96.3%的召回率和92.35%的精確率。概率多標(biāo)簽分類器的優(yōu)勢是可以根據(jù)預(yù)測結(jié)果,優(yōu)化人工篩查的順序和時間分配:屬于單類別高概率的快速檢查,對屬于多個類別的進行詳細(xì)檢查與進一步分析,這在一定程度上避免了錯失罕見的快速射電暴。但是,該分類器輸入的特征數(shù)量比較大,增加了模型的復(fù)雜度,降低了處理速度。
文[33]圍繞特征選擇開展了細(xì)致深入的信息增益價值評估實驗,最終選取脈沖寬度、脈沖色散量的加權(quán)平均值、色散量-寬度曲線的超額峰度、色散量-信噪比曲線的超額峰度以及信噪比這5個具有較好區(qū)分度的特征,考慮到實際觀測數(shù)據(jù)流中單脈沖罕見的特點,基于高斯赫爾辛基(Gaussian Hellinger)快速決策樹算法開發(fā)了單脈沖分類器,該算法專門用于處理不平衡數(shù)據(jù)流。與以上應(yīng)用相比,文[33]以最少的輸入特征獲得了更高的分類器性能,實現(xiàn)了98.8%的準(zhǔn)確率、98.6%的召回率和98%的精確率。該分類器的過程版本已經(jīng)在低頻陣列射電望遠(yuǎn)鏡全天空觀測(LOFAR Tied-Array All-Sky Survey, LOTAAS)數(shù)據(jù)中發(fā)現(xiàn)了7個新的脈沖星。
卷積神經(jīng)網(wǎng)絡(luò)使深度學(xué)習(xí)在圖像識別領(lǐng)域取得巨大進展。深度學(xué)習(xí)在快速射電暴搜尋中的應(yīng)用,近幾年才開始發(fā)展。文[32]采用模擬方式建立快速射電暴樣本的方法,解決了深度學(xué)習(xí)面臨的大數(shù)據(jù)量樣本的需求。
文[34]開發(fā)了一個子網(wǎng)絡(luò)層數(shù)較少的多輸入深度神經(jīng)網(wǎng)絡(luò)架構(gòu),將候選體的消色散動態(tài)譜、色散量-時間陣列、時間序列以及多波束探測信噪比作為二維卷積神經(jīng)網(wǎng)絡(luò)、一維卷積神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN)的輸入,分別單獨提取特征,然后在全連接層整合,最后輸出預(yù)測結(jié)果。該文首次選用模擬的快速射電暴充實訓(xùn)練樣本,經(jīng)過對Apertif的數(shù)據(jù)測試,該分類器對脈沖星的單脈沖實現(xiàn)了99.7%的召回率。模擬快速射電暴為模型提供了在數(shù)量和樣本隨機多樣性的分布上(如跨越更大的脈沖寬度范圍)更具優(yōu)勢的訓(xùn)練集,這是以往選用脈沖星的單脈沖作為訓(xùn)練樣本無法實現(xiàn)的。另外,該網(wǎng)絡(luò)的前3個輸入之間高度冗余,雖然憑經(jīng)驗三者組合會比單獨使用效果更好,但也增加了整個網(wǎng)絡(luò)架構(gòu)的復(fù)雜性。
文[36]基于8種深度更深的網(wǎng)絡(luò)模型(如VGG16,VGG19,Densenet121/169/201和Xception等),通過多種組合構(gòu)建了11個二輸入的二分類網(wǎng)絡(luò)架構(gòu)。這種網(wǎng)絡(luò)模型簡化了模型的輸入,僅將候選體的消色散動態(tài)譜和色散量-時間陣列作為輸入。經(jīng)測試,這11個分類模型的準(zhǔn)確率和召回率都達到了99.5%以上。該文在文[34]的基礎(chǔ)上做了許多改進:如引入遷移技術(shù)訓(xùn)練網(wǎng)絡(luò)模型,減少訓(xùn)練參數(shù);采用乘性融合方法組合二輸入模型,提高網(wǎng)絡(luò)性能;利用翻轉(zhuǎn)技術(shù)增加射頻干擾的樣本數(shù)量;采取微調(diào)技術(shù)提高模型在特定應(yīng)用中的性能等。該算法包已經(jīng)嵌入美國綠岸射電望遠(yuǎn)鏡實時快速射電暴搜尋管道,探測到了20顆脈沖星的2 000多個單脈沖[39]。值得說明的是,雖然增加網(wǎng)絡(luò)層數(shù)可以提高模型的性能,但是也提高了模型的復(fù)雜度和訓(xùn)練難度,另外,層數(shù)增加對模型性能的貢獻也可能達到飽和,甚至引起梯度不穩(wěn)定、網(wǎng)絡(luò)退化、性能下降等問題。如果能對冗余層進行修剪,將有助于提高模型的整體性能。
文[35]建立了一個由17個卷積層組成的Resnet網(wǎng)絡(luò)架構(gòu),以色散動態(tài)譜圖作為輸入,訓(xùn)練數(shù)據(jù)是由模擬的快速射電暴樣本和僅含有射頻干擾和噪聲的觀測數(shù)據(jù)組成。經(jīng)測試,模型實現(xiàn)了88%的召回率和98%的精確率。與文[34]和文[36]不同,它不依賴于傳統(tǒng)消色散技術(shù)的搜尋手段,而是將訓(xùn)練好的模型直接用于搜尋原始色散動態(tài)譜數(shù)據(jù)中的FRB 121102,并成功從2017年8月26日美國綠岸射電望遠(yuǎn)鏡C波段接收機觀測的FRB 121102數(shù)據(jù)中,發(fā)現(xiàn)了93個脈沖。此前,該數(shù)據(jù)由基于消色散理論的搜尋管道僅檢測到21次爆發(fā)。因此,該方法比傳統(tǒng)的消色散搜尋算法有更高的靈敏度、更低的誤報率和更快的計算速度。
基于深度學(xué)習(xí)的快速射電暴搜尋技術(shù),整體性能較之前有了明顯的提升。現(xiàn)有的3篇文獻均是直接將特征提取的任務(wù)交由卷積神經(jīng)網(wǎng)絡(luò)自動完成,這對于深度學(xué)習(xí)模型計算的復(fù)雜度以及訓(xùn)練難度都提出了挑戰(zhàn)。在數(shù)據(jù)預(yù)處理過程中,僅對輸入網(wǎng)絡(luò)模型的候選體動態(tài)譜圖、色散量-時間陣列圖等做基本的尺寸調(diào)整和標(biāo)準(zhǔn)化處理,在很大程度上減少了數(shù)據(jù)處理的工作量,同時避免了人工設(shè)計、提取特征的不完備性和偏見性。但是,完全依賴網(wǎng)絡(luò)模型自動提取特征,缺乏可解釋性,在訓(xùn)練數(shù)據(jù)不平衡的情況下出現(xiàn)種類歧視,如射頻干擾的類不平衡問題。另外,深度學(xué)習(xí)算法對于硬件要求較高,收斂速度緩慢,需要花費較長的時間訓(xùn)練。但是其基于圖形處理器的前向傳播的推理過程非??欤梢詽M足快速射電暴事件在線搜尋的應(yīng)用需求。
基于機器學(xué)習(xí)的快速射電暴搜尋技術(shù)發(fā)展時間相對較短,相關(guān)的研究論文較少,且還沒有形成大規(guī)模的廣泛應(yīng)用。目前探測到的快速射電暴大部分依賴傳統(tǒng)消色散搜尋技術(shù)?;跈C器學(xué)習(xí)的快速射電暴搜尋技術(shù)在研究和應(yīng)用方面還有繼續(xù)改進的空間。主要表現(xiàn)在:
(1)由于望遠(yuǎn)鏡類型(單碟或陣列)、接收機類型(單波束或多波束)、觀測終端以及數(shù)據(jù)格式(Filterbank,F(xiàn)ITS或者VDIF)等不同,算法需要做針對性設(shè)計。望遠(yuǎn)鏡所在地的射頻干擾環(huán)境對數(shù)據(jù)質(zhì)量產(chǎn)生非常大的影響。因此,提高算法的通用性和泛化能力具有重要意義。
(2)除文[35]外,目前的算法都是針對基于消色散搜尋管道生成的候選體分類。在寬帶觀測中,脈沖的頻率結(jié)構(gòu)是高度可變的[40],基于消色散數(shù)據(jù)頻率積分時間序列的信噪比區(qū)分快速射電暴和射頻干擾,可能導(dǎo)致錯過快速射電暴。因此,直接將分類器對原始觀測數(shù)據(jù)流進行快速射電暴搜尋,無論從搜尋速度還是召回率的角度考慮都值得進一步的研究和探索。
(3)目前模型訓(xùn)練所用的樣本幾乎都是來自脈沖星的單脈沖或者模擬樣本,導(dǎo)致訓(xùn)練的模型過擬合脈沖星或者模擬快速射電暴的特性。因此,隨著探測到的快速射電暴樣本增多,以及對其認(rèn)知和理解加深,持續(xù)優(yōu)化模擬樣本或增加真實觀測樣本以提高訓(xùn)練樣本的質(zhì)量,對于提高算法的性能具有重要意義。
(4)射頻干擾環(huán)境會持續(xù)惡化,將呈現(xiàn)更復(fù)雜的多樣性,甚至一些射頻干擾會具有色散的特性[30,41]。因此,除了采取必要的射頻干擾消除和緩解措施以外,通過解決訓(xùn)練樣本中射頻干擾的類不平衡問題,可以進一步提高算法的魯棒性。
(5)目前的算法主要以二分類(天體物理現(xiàn)象和非天體物理現(xiàn)象)為主。不同快速射電暴之間,快速射電暴和脈沖星單脈沖之間,脈沖星的單脈沖之間,以及不同類型的射頻干擾之間也存在很多差異。因此,對樣本進行更細(xì)致的分類有助于進一步提高算法分類的性能。
快速射電暴搜尋速度與準(zhǔn)確率對于實現(xiàn)觸發(fā)多頻段跟蹤觀測和電壓數(shù)據(jù)轉(zhuǎn)儲非常關(guān)鍵。未來是大數(shù)據(jù)時代,就目前觀測條件下的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過現(xiàn)有的處理能力。因此,應(yīng)用機器學(xué)習(xí)將有助于解決目前人工篩選快速射電暴候選體難以為繼的現(xiàn)狀。在分類器設(shè)計方面,鑒于深度學(xué)習(xí)算法對大數(shù)據(jù)集卓越的學(xué)習(xí)能力,以及其避免人工設(shè)計、提取特征的弊端,深度學(xué)習(xí)在快速射電暴搜尋應(yīng)用方面將發(fā)揮更大作用。