摘 要: 為了在進(jìn)行脈沖星觀測(cè)受到嚴(yán)重射頻干擾(RFI)污染問(wèn)題時(shí)制定特定的緩解策略,提出了一種基于卷積自編碼器和譜聚類的圖像聚類模型CAE-SpectralNet。該模型自編碼器部分自動(dòng)從圖像中提取關(guān)鍵特征,避免了手動(dòng)操作的困難,而譜聚類則將特征空間中距離最近的點(diǎn)聚成簇,有助于揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息。通過(guò)對(duì)云南天文臺(tái)40米射電望遠(yuǎn)鏡采集的2 000張脈沖星時(shí)域和頻域圖像數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,SpectralNet模型在改進(jìn)自編碼器結(jié)構(gòu)之后,對(duì)比原始SpectralNet模型以及一些傳統(tǒng)聚類算法在聚類內(nèi)部指標(biāo)上有明顯提升,并且聚類結(jié)果初步實(shí)現(xiàn)了對(duì)RFI分類的目標(biāo)。
關(guān)鍵詞: CAE-SpectralNet模型;圖像聚類;RFI的形態(tài)歸類
中圖分類號(hào): TP391.9
文獻(xiàn)標(biāo)識(shí)碼: A" 文章編號(hào): 2096-3998(2024)06-0036-10
收稿日期:2024-01-26" 修回日期:2024-04-11
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(12063003)
*通信作者:梁波(1977—),男,重慶奉節(jié)人,碩士,高級(jí)工程師,主要研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)、天文儀器與方法。
引用格式:賀方彤,梁波.基于改進(jìn)SpectralNet的云南40米射電望遠(yuǎn)鏡RFI聚類研究[J].陜西理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,40(6):36-45.
當(dāng)前,脈沖星觀測(cè)數(shù)據(jù)中的射頻干擾(Radio Frequency Interference,RFI)主要通過(guò)兩類方法進(jìn)行緩解:一類是基于每種RFI獨(dú)特特點(diǎn)設(shè)計(jì)定制化消除策略,這種方法對(duì)RFI有更精準(zhǔn)的消除效果,對(duì)原始信號(hào)的破壞較小,但需要投入更多時(shí)間深入研究每類RFI的特性。例如,Maan等[1]提出了一種在傅立葉域中識(shí)別和減輕周期性RFI的方法,這種方法對(duì)于處理周期性RFI具有較高精度,且無(wú)負(fù)面影響于脈沖星脈沖形狀。另一類是采用人工智能模型,全面處理各種類型的RFI,這種策略雖節(jié)省時(shí)間,但在處理復(fù)雜RFI時(shí),可能僅能部分消除RFI,并可能對(duì)原始信號(hào)造成更大破壞。例如,Akeret等[2]提出了利用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行RFI抑制的方法,該方法將所有非天文信號(hào)的干擾統(tǒng)一處理,在模擬數(shù)據(jù)集上表現(xiàn)優(yōu)秀,但在更復(fù)雜的真實(shí)天文數(shù)據(jù)中可能出現(xiàn)誤標(biāo)問(wèn)題。
兩種RFI緩解方法各有特點(diǎn)和局限性。由于云南天文臺(tái)面臨的RFI干擾極其復(fù)雜,可能含有周期性RFI等難以用通用人工智能算法處理的RFI。因此,在此工作中,為不同類型的RFI定制不同的消除策略可能會(huì)更適合此類數(shù)據(jù)處理。然而,這一方案的實(shí)施需要首先進(jìn)行RFI的準(zhǔn)確分類。同時(shí),我們也注意到在射電天文學(xué)領(lǐng)域,RFI類型沒(méi)有明確統(tǒng)一的定義,這進(jìn)一步構(gòu)成了對(duì)RFI進(jìn)行分類處理的主要困難和挑戰(zhàn)。
此問(wèn)題的解決方案可以參考現(xiàn)有的一些研究。例如,Doran等[3]嘗試使用聚類方法,自動(dòng)對(duì)檢測(cè)到的RFI事件進(jìn)行分類并做出描述,免去了人為定義RFI的困擾。另一方面,Czech等[4]記錄了幾種常見(jiàn)RFI源的信號(hào),并將其用作訓(xùn)練分類模型的標(biāo)簽。
以上研究提供了兩種方法,一是以設(shè)備收集的RFI信號(hào)作為標(biāo)簽,二是采用聚類方法。然而,前一種方法對(duì)設(shè)備和信號(hào)收集者的專業(yè)技能要求過(guò)高,以致難以在云南天文臺(tái)的數(shù)據(jù)中復(fù)制。因此,在此工作中選擇采用聚類方法,來(lái)歸類云南天文臺(tái)數(shù)據(jù)中的RFI。
與先前研究選擇人工提取的RFI作為聚類對(duì)象不同,本次實(shí)驗(yàn)直接選擇了云南天文臺(tái)處理RFI常用的脈沖星時(shí)域和頻域原始圖片進(jìn)行聚類。這樣做可以減少提取RFI過(guò)程中的人為干擾,并且脈沖星時(shí)域和頻域原始圖片聚類成簇即可達(dá)到為后續(xù)針對(duì)每個(gè)簇制定RFI抑制策略打下基礎(chǔ)的目的。因此,結(jié)合卷積自編碼器(Convolutional AutoEncoder,CAE)和譜聚類方法,本文提出了一種改進(jìn)的SpectralNet模型,即CAE-SpectralNet,以便對(duì)脈沖星的時(shí)域和頻域圖片進(jìn)行聚類。
為了驗(yàn)證CAE-SpectralNet模型對(duì)于脈沖星時(shí)域和頻域圖片的聚類有效性,本文進(jìn)行傅里葉變換圖、積分輪廓圖以及形態(tài)相似性的分析。同時(shí)設(shè)置輪廓系數(shù)[5](Silhouette Coefficient,SC)和卡林斯基-哈拉巴斯指數(shù)[6](CalinskiHarabasz index,CH),以突顯該模型相較于其他傳統(tǒng)聚類方法的優(yōu)越性。
1 方法
1.1 CAE-SpectralNet模型
脈沖星的時(shí)域和頻域圖像樣本富含大量信息。然而,由于其高維度以及僅以信號(hào)強(qiáng)度表達(dá),直接拉伸成向量進(jìn)行聚類會(huì)導(dǎo)致關(guān)鍵形態(tài)特征的丟失,例如RFI的帶寬和大小。為能更充分地利用這些信息,本文采用基于特征的CAE-SpectralNet聚類模型,該模型由圖像特征提取和圖像特征聚類兩個(gè)模塊組成。
(1)圖像特征提取:利用Resnet50[7]作為編碼器,并結(jié)合簡(jiǎn)化的解碼器,構(gòu)建深度卷積自編碼器CAE。Resnet50在分類任務(wù)中展現(xiàn)了出色的特征提取能力,僅配合簡(jiǎn)化的解碼器便可確保解碼圖像與原圖接近,這表明編碼器成功提取了代表性特征。進(jìn)一步地通過(guò)降維,將編碼器提取到的特征壓縮至較低維度,以便進(jìn)行后續(xù)的聚類工作。
(2)圖像特征聚類:使用SpectralNet[8]進(jìn)行特征聚類。該聚類模塊首先降維特征,然后將其嵌入到關(guān)聯(lián)圖的本征空間中,最后進(jìn)行聚類。實(shí)驗(yàn)結(jié)果顯示,此方法比傳統(tǒng)的聚類算法如K-means[9]更為有效。
通過(guò)使用該模型,能更好地處理脈沖星圖像,提取關(guān)鍵特征,實(shí)現(xiàn)有效的圖像聚類,并助力后續(xù)RFI形態(tài)的分類。具體流程如圖1所示。
1.2 CAE圖像特征提取
本文使用的卷積自編碼器結(jié)構(gòu)如圖2所示,它包含一個(gè)基于殘差網(wǎng)絡(luò)(Resnet50)的編碼器和幾個(gè)反卷積模塊的解碼器。
編碼器部分采用ResNet50作為核心的網(wǎng)絡(luò)結(jié)構(gòu)。這一選擇主要是為解決如梯度消失、梯度爆炸以及網(wǎng)絡(luò)性能退化等問(wèn)題,并能夠提取出高質(zhì)量的有效特征。尤其是在我們所處理的數(shù)據(jù)環(huán)境下,我們對(duì)ResNet50進(jìn)行了一些調(diào)整以提高適應(yīng)性,這些調(diào)整包括了修改輸入數(shù)據(jù)的通道數(shù)、移除全局池化層,以及調(diào)整最后一層全連接網(wǎng)絡(luò)的維度。這些細(xì)致操作的目的在于,其一是保留原始圖像中的空間信息,其二是減小數(shù)據(jù)維度至2 048,以便于后續(xù)聚類分析的進(jìn)行。
解碼是通過(guò)反卷積、批量歸一化和ReLU激活函數(shù),逐步恢復(fù)特征圖至原始輸入的大小[10]。在最后一層卷積操作中,我們將通道數(shù)調(diào)整為與輸入通道數(shù)一致。實(shí)驗(yàn)證明,這樣的設(shè)置可以獲得優(yōu)秀的重構(gòu)效果。
我們選擇均方誤差(MSE)作為損失函數(shù),以衡量重構(gòu)圖像與原圖之間的誤差。MSE值越小,表明重構(gòu)結(jié)果與真實(shí)值越接近[11]。
在優(yōu)化算法方面,我們采用了PyTorch內(nèi)置的optim.Adam。與隨機(jī)梯度下降(SGD)相比,Adam在處理大規(guī)模稀疏梯度方面與收斂性方面都具有優(yōu)勢(shì),加上其較低的內(nèi)存需求,使其非常適用于大數(shù)據(jù)集和高維空間的問(wèn)題[12]。
1.3 SpectralNet圖像特征聚類
譜聚類算法以譜圖理論為基礎(chǔ),優(yōu)于傳統(tǒng)的聚類算法如K-means,這是因?yàn)樗軌蛟谌魏涡螤畹臉颖究臻g中進(jìn)行聚類,并能達(dá)到全局最優(yōu)。特別是在處理脈沖星的非凸時(shí)域和頻域圖像時(shí),其性能表現(xiàn)尤為出色。然而它有兩個(gè)局限性:一是可擴(kuò)展性差,不能適用于數(shù)據(jù)量較大時(shí)的場(chǎng)景;二是當(dāng)遇到非訓(xùn)練樣本時(shí)無(wú)法處理。
為解決這些問(wèn)題,Shaham等[8]在2018年提出了SpectralNet聚類網(wǎng)絡(luò)。他們引入了受限隨機(jī)優(yōu)化方法來(lái)提高可擴(kuò)展性,通過(guò)添加輸出層來(lái)保持正交性,使其適用于處理大規(guī)模的數(shù)據(jù)集。此外,SpectralNet還利用神經(jīng)網(wǎng)絡(luò)的方法來(lái)處理新的樣本。
SpectralNet的主要聚類步驟包括:首先,使用孿生網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),創(chuàng)建親和力矩陣。然后,利用已訓(xùn)練的孿生網(wǎng)絡(luò)定義親和力矩陣W,其中樣本間的距離由‖zi-zj‖給出。接下來(lái),通過(guò)無(wú)監(jiān)督學(xué)習(xí)優(yōu)化譜聚類目標(biāo)函數(shù)Fθ,以保持正交性。最后,在降維的特征空間中,利用K-means學(xué)習(xí)聚類類別。需要注意的是,聚類簇的數(shù)量K會(huì)影響聚類結(jié)果,可以使用肘方法或者間隔統(tǒng)計(jì)量法[13]來(lái)確定合適的簇?cái)?shù)量。
1.4 聚類結(jié)果合理性評(píng)估方法
脈沖星的時(shí)域與頻域圖像特征能夠反映出脈沖星信號(hào)以及射頻干擾(RFI)的形態(tài),不同種類的RFI以及同種RFI在頻域和時(shí)域圖像上的表現(xiàn)可能存在很大的變異。因此,對(duì)我們的聚類結(jié)果進(jìn)行準(zhǔn)確性評(píng)估是必要的。以下是我們所采用的一些評(píng)估方法:
(1)形態(tài)相似性分析:我們首先需要檢查同一聚類中的圖像是否擁有類似的主要形態(tài)特征。這可以通過(guò)比較突出某一RFI的相似性以及不同聚類之間形態(tài)的差異程度來(lái)實(shí)現(xiàn)。
(2)傅里葉變換觀察:我們使用psrchive包中的pav-jp命令,觀察經(jīng)過(guò)傅里葉變換的每個(gè)聚類中心的時(shí)頻圖像特征,以了解不同聚類中RFI的頻域特征差異。
(3)積分輪廓比較:另一種評(píng)估聚類結(jié)果的方法是對(duì)比各個(gè)聚類中心圖像的積分輪廓,其代表了圖像像素值的累積,可展示圖像的總體形狀。通過(guò)對(duì)比,我們可以確認(rèn)聚類的合理性。
綜合使用以上方法,我們能夠全面評(píng)估脈沖星時(shí)域和頻域圖像的聚類結(jié)果,確保聚類方法有效地區(qū)分了不同RFI的形態(tài),以及提供了有關(guān)不同聚類之間形態(tài)差異的重要信息。這有助于我們準(zhǔn)確理解數(shù)據(jù),并順利地進(jìn)行后續(xù)的RFI處理工作。
2 數(shù)據(jù)集
2.1 原始數(shù)據(jù)
在本研究中,我們利用云南天文臺(tái)40米射電望遠(yuǎn)鏡收集的脈沖星觀測(cè)數(shù)據(jù)作為研究對(duì)象。由于近年來(lái)無(wú)線電設(shè)備的普及,這些脈沖星觀測(cè)數(shù)據(jù)中包含的RFI變得越來(lái)越復(fù)雜。因此,為了進(jìn)行精準(zhǔn)的分析和研究,我們選取了2018年至2022年這5年間,對(duì)5個(gè)常被觀測(cè)的源在2 256 MHz中心觀察頻率下累計(jì)的2 000個(gè)觀測(cè)數(shù)據(jù)作為研究樣本。這些數(shù)據(jù)將會(huì)用于我們進(jìn)一步的探究和研究,以提供更深入、更全面的理解。
2.2 數(shù)據(jù)預(yù)處理
在處理原始數(shù)據(jù)的過(guò)程中,我們首先進(jìn)行了基線移除和色散校正操作。基線移除十分關(guān)鍵,因?yàn)榛€可能會(huì)影響到數(shù)據(jù)的分析和解釋,我們通過(guò)移除基線以揭示數(shù)據(jù)中的真實(shí)信號(hào)和結(jié)構(gòu),從而簡(jiǎn)化了進(jìn)一步的分析過(guò)程。另一方面,我們采用色散校正來(lái)處理色散所引起的信號(hào)在接收時(shí)的展寬現(xiàn)象,從而提高時(shí)間分辨率。通過(guò)色散校正,我們成功地消除或減弱了數(shù)據(jù)中的色散效應(yīng),使脈沖信號(hào)的時(shí)間結(jié)構(gòu)更為準(zhǔn)確和清晰。
接著,我們對(duì)原始數(shù)據(jù)的時(shí)間和頻率維度進(jìn)行了平均值計(jì)算,由此得到了相位-時(shí)間圖(即時(shí)域圖)和相位-頻率圖(即頻域圖)。這兩圖的橫坐標(biāo)均為相位,縱坐標(biāo)分別代表子積分和頻率通道數(shù)。在圖中,像素點(diǎn)的亮度成正比于其幅值。需要注意的是,由于脈沖星的信號(hào)在時(shí)域和頻域圖中形態(tài)相對(duì)單一且變化不大,我們將其視為背景的一部分,而不將其單獨(dú)提取出來(lái)。
為了在保持圖像精度與模型運(yùn)行速率之間找到平衡,我們將時(shí)域圖和頻域圖的大小統(tǒng)一調(diào)整為224×224?;趯?duì)RFI形態(tài)的主要關(guān)注點(diǎn),我們?cè)趯D片輸入模型前進(jìn)行了灰度化處理。我們進(jìn)一步采用了一個(gè)最大最小值歸一化公式對(duì)數(shù)據(jù)進(jìn)行了處理,歸一化公式x*=(x-xmin)/(xmax-xmin),其中,xmax和xmin分別代表樣本數(shù)據(jù)中的最大值和最小值。經(jīng)過(guò)歸一化操作,所有的x*值均位于區(qū)間[0,1]內(nèi),這不僅使得優(yōu)化算法可以快速收斂,而且也加快了模型的訓(xùn)練速度[14]。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 脈沖星時(shí)域和頻域圖像聚類實(shí)驗(yàn)
實(shí)驗(yàn)如圖1所示的流程進(jìn)行,環(huán)境配置為CPU:Intel(R) Xeon(R) Gold 6226R CPU @2.90GHz,GPU:GeForce RTX 3090。我們針對(duì)脈沖星時(shí)域和頻域圖像數(shù)據(jù)使用改版的Resnet50架構(gòu)的卷積自編碼器(CAE)進(jìn)行特征提取,此后均簡(jiǎn)寫(xiě)為CAE。CAE的訓(xùn)練使用學(xué)習(xí)率為0.000 01,批量大小為8,并使用Adam作為優(yōu)化器。
盡管SpectralNet的原始論文中推薦使用自編碼器(AE)提取的編碼空間與后續(xù)的聚類結(jié)構(gòu)組合能得到最佳的聚類效果,但是需要注意的是它使用的是相對(duì)簡(jiǎn)單的數(shù)據(jù)集(如Mnist),對(duì)于我們使用的更為復(fù)雜的天文數(shù)據(jù)集,可能需要增加自編碼器的層次。因此,我們選用基于ResNet50改編的CAE代替原始的AE。需要調(diào)優(yōu)CAE以適應(yīng)我們實(shí)驗(yàn)的數(shù)據(jù)。
在實(shí)驗(yàn)中,我們將ResNet50用作編碼器,并結(jié)合1.2節(jié)中的解碼器結(jié)構(gòu),組成了CAE,并與原始的AE進(jìn)行了對(duì)比實(shí)驗(yàn)。時(shí)域和頻域中使用CAE和AE進(jìn)行特征提取的均方誤差(MSE)損失值變化曲線如圖3所示。其中,在時(shí)域和頻域中,CAE的MSE在600個(gè)epoch后緩慢降至0.001以下,而AE的MSE在前10輪左右就快速收斂至0.002左右,這可能是因?yàn)锳E結(jié)構(gòu)過(guò)于簡(jiǎn)單,無(wú)法學(xué)習(xí)到更深層次的特征。
最終得到的最佳組合是ResNet50作為編碼器,以及在最后加上一層卷積的解碼器,此組合得到的MSE損失最小,重構(gòu)圖像最清晰,對(duì)后續(xù)的聚類最有利。完成訓(xùn)練后,我們固定了ResNet50為編碼器的CAE模型參數(shù),并用于提取圖像特征,使得脈沖星時(shí)域和頻域圖像輸入編碼器后得到2 048維的圖像特征數(shù)據(jù)。
然后,我們使用了SpectralNet對(duì)脈沖星時(shí)域和頻域圖像特征數(shù)據(jù)進(jìn)行了聚類,與原模型不同的是,本文在自編碼器之后沒(méi)有采用孿生網(wǎng)絡(luò)[15]進(jìn)行訓(xùn)練,而是直接使用其中的SpectralNet對(duì)每個(gè)特征進(jìn)行類別標(biāo)簽劃分,這種方式的效果更好。在聚類前,我們首先需要估計(jì)最佳的聚類簇?cái)?shù)K。如圖4所示,時(shí)域和頻域的cost-K肘部曲線在K=4處有明顯的拐點(diǎn)。因此,我們使用SpectralNet進(jìn)行特征聚類,最終確定聚類簇?cái)?shù)為4。
3.2 實(shí)驗(yàn)結(jié)果
由于每個(gè)特征樣本最終降到4維也難以直接進(jìn)行可視化,故利用t-SNE[16]技術(shù)將特征樣本降至2維,并予以原4維樣本空間的聚類標(biāo)簽,時(shí)域和頻域得到可視化散點(diǎn)圖如圖5所示。可見(jiàn),盡管部分簇間存在重疊,但樣本點(diǎn)基本能夠分明地聚集和劃分為不同簇。需要說(shuō)明的是,2維空間的簇分布并不與4維空間的簇分布完全一致,可視化結(jié)果只能作為輔助示意,聚類結(jié)果的定量評(píng)估見(jiàn)3.3.2節(jié)。因圖像特征與圖像一一對(duì)應(yīng),可將特征標(biāo)簽賦予圖像從而得到脈沖星時(shí)域和頻域圖像聚類結(jié)果。其簇中心圖像及簇內(nèi)部分圖像如圖6所示,相似圖像被劃分至一類,不同簇的脈沖星信號(hào)和RFI的亮度、大小、帶寬、弧度等有所不同。
3.3 結(jié)果分析
3.3.1 脈沖星時(shí)域頻域圖像特征提取結(jié)果分析
自編碼器對(duì)時(shí)域和頻域重構(gòu)圖像如圖7所示。重構(gòu)圖像和原圖越接近,相信其提取到的抽象特征越合理??梢钥闯龌贑AE在時(shí)域和頻域圖像上的重構(gòu)能力均高于原始的AE。
3.3.2 脈沖星時(shí)域頻域圖像特征聚類結(jié)果分析
對(duì)于沒(méi)有真實(shí)標(biāo)簽的脈沖星時(shí)域頻域圖像數(shù)據(jù),其特征聚類結(jié)果無(wú)法使用計(jì)算聚類標(biāo)簽與真實(shí)標(biāo)簽相似度的外部評(píng)估指標(biāo),而只能使用內(nèi)部指標(biāo)從聚類的簇內(nèi)凝聚性和簇間分散性,即簇結(jié)構(gòu)質(zhì)量,來(lái)評(píng)估聚類的優(yōu)劣。簇內(nèi)不相似度越小,簇內(nèi)凝聚性越高;簇間不相似度越大,簇間分散性越強(qiáng)。若簇內(nèi)不相似度小于簇間不相似度,則表明聚類質(zhì)量良好。二者相差越大,聚類質(zhì)量越高。
3.3.2.1 輪廓系數(shù)(SC)
輪廓系數(shù)能夠度量樣本與所屬簇的相似度,即內(nèi)聚性,以及與其他簇的分散性。計(jì)算步驟如下:
步驟1 計(jì)算樣本i與同簇其他樣本的平均距離a(i),為樣本i的簇內(nèi)不相似度。a(i)越小,i與所屬簇的關(guān)聯(lián)越強(qiáng)。簇C中所有樣本的a(i)均值即為該簇的不相似度,不相似度越小,簇內(nèi)凝聚性越高。不同類的樣本可使用不同的距離度量,例如向量可使用歐式距離等。
步驟2 計(jì)算樣本i與其他簇C(k)中所有樣本的平均距離b(i,k),為樣本i與簇C(k)的不相似度。i與所有其他簇的不相似度的最小值b(i)為i與其他簇的分散度,b(i)越大,i與其他簇越分散。
步驟3 所有樣本的輪廓系數(shù)s(i)的均值即為聚類的SC,s(i)的定義如下式所示:
s(i)=
1-a(i)b(i), a(i)lt;b(i),
0, a(i)=b(i),
b(i)a(i)-1, a(i)gt;b(i),
SC的取值范圍為-1~1,以0為界。若SCgt;0,則說(shuō)明聚類質(zhì)量良好;若SC接近于1,則說(shuō)明聚類質(zhì)量極高。SC對(duì)凸簇結(jié)構(gòu)敏感,例如基于密度的DBSCAN的聚類結(jié)果,其SC通常更高,不能證明該算法聚類效果更優(yōu)。反之,則一定表明該算法聚類效果更差。
3.3.2.2 卡林斯基-哈拉巴斯指數(shù)(CH)
利用卡林斯基-哈拉巴斯指數(shù)計(jì)算聚類結(jié)果簇內(nèi)協(xié)方差矩陣的跡與簇間協(xié)方差矩陣的跡的比值,比值越大,聚類質(zhì)量越高,如下式所示:
MCH=tr(BK)tr(WK)×N-KK-1,
其中,tr(·)表示矩陣的跡,BK為簇間散布矩陣,WK為簇內(nèi)散布矩陣,K為聚類簇?cái)?shù),N為數(shù)據(jù)大小。簇?cái)?shù)較少的聚類CH通常更高,不能說(shuō)明聚類質(zhì)量更高;反之,則一定說(shuō)明聚類質(zhì)量更差。CH也對(duì)凸簇結(jié)構(gòu)敏感。
SpectralNet和高斯混合模型(GMM)等傳統(tǒng)聚類算法在脈沖星時(shí)域和頻域圖片數(shù)據(jù)上的聚類質(zhì)量評(píng)估結(jié)果分別列于表1和表2,在均使用前文CAE提取特征的情況下SpectralNet的兩項(xiàng)指標(biāo)都明顯高于GMM等原始算法。
3.3.3 脈沖星時(shí)域頻域圖像聚類結(jié)果合理性分析
我們首先分析了脈沖星頻域和時(shí)域圖像的聚類中心圖片。由于射頻干擾(RFI)在時(shí)間和頻率域中通常以連續(xù)的橫線或豎線的形式出現(xiàn),我們發(fā)現(xiàn)了一些在頻域中呈現(xiàn)梯形結(jié)構(gòu),在時(shí)域中則出現(xiàn)底部?jī)蓚€(gè)明亮點(diǎn)和中間斷裂的粗線段的圖像。這些特征并非在正常觀測(cè)下出現(xiàn)的RFI特征,而是由設(shè)備故障產(chǎn)生的,鑒于這些數(shù)據(jù)無(wú)法正常使用,我們將其直接排除,并沒(méi)在后續(xù)分析中考慮。
對(duì)于剩余的正常觀測(cè)數(shù)據(jù),我們進(jìn)一步分析了各個(gè)聚類類別的中心圖片。肉眼觀察到,不同類別的中心圖片所反映的RFI形態(tài)存在明顯的差異。接著,我們對(duì)這些圖片進(jìn)行了傅立葉變換以得出其時(shí)頻圖像,并發(fā)現(xiàn)了不同類別時(shí)頻圖像的顯著區(qū)別。為了進(jìn)一步對(duì)比不同類別彼此間的差異,我們還生成了聚類中心圖片的積分輪廓圖。不出所料,不同類別對(duì)應(yīng)的積分輪廓也有明顯的區(qū)分(如圖8所示)。
這些觀察結(jié)果與我們的預(yù)期一致,不同類別的RFI形態(tài)、積分輪廓和傅立葉變換圖均有顯著差異,通過(guò)與天文臺(tái)專家共同討論,以及與先前研究發(fā)現(xiàn)的RFI類別進(jìn)行對(duì)比,基本確定了聚類結(jié)果中含有圖8(a)中第一列所示的強(qiáng)RFI干擾,圖8(b)第一列所示的亮點(diǎn)狀RFI,圖8(b)第二列所示的周期性RFI。圖8(a)剩余列中無(wú)明顯RFI干擾,而圖8(b)剩余列中所含有的RFI干擾,其屬性和類別尚需通過(guò)更深入的研究和分析才能明確。針對(duì)聚類結(jié)果中出現(xiàn)的強(qiáng)RFI和亮點(diǎn)狀RFI可以用AOFlagger標(biāo)注軟件進(jìn)行標(biāo)注并抑制,周期性RFI可以通過(guò)RFIClean軟件進(jìn)行抑制。此次聚類結(jié)果為后續(xù)的RFI抑制方式的分析提供了基礎(chǔ)。
4 結(jié)論
在這項(xiàng)研究中,我們首次成功地開(kāi)發(fā)了一個(gè)名為CAE-SpectralNet的脈沖星時(shí)域頻域圖像聚類模型,它基于深度表征學(xué)習(xí)。該模型的重要功能是無(wú)監(jiān)督地實(shí)現(xiàn)RFI在時(shí)間和頻率域的客觀分類。為了優(yōu)化模型性能,我們改進(jìn)了自編碼器(AE)部分,基于ResNet50技術(shù),從而使CAE-SpectralNet模型能夠提取出更高質(zhì)量的圖像特征。通過(guò)與高斯混合模型(GMM)等傳統(tǒng)算法的對(duì)比驗(yàn)證,我們證實(shí)了該模型在特征聚類方面具有優(yōu)越性。另外,該模型不僅展示出了良好的簇內(nèi)緊密性和簇間分離性,其結(jié)果亦具備一定的物理解釋性。
從科學(xué)角度來(lái)看,我們發(fā)現(xiàn)采用CAE-SpectralNet模型進(jìn)行RFI分類的方式,可以規(guī)避因人為設(shè)計(jì)的RFI形態(tài)特征引發(fā)的主觀誤差,并初次突破了由于缺少標(biāo)準(zhǔn)化分類準(zhǔn)則導(dǎo)致難以采用監(jiān)督式分類模型進(jìn)行RFI類別分類的研究難題。
對(duì)于未來(lái)的研究,我們可將此模型應(yīng)用于對(duì)云南天文臺(tái)收集的脈沖星觀測(cè)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)為每類RFI設(shè)計(jì)定制的抑制策略,替代原有的手動(dòng)操作方式,從而顯著降低工作量和執(zhí)行成本,同時(shí)提升處理效率。雖然我們的聚類方法已為理解RFI數(shù)據(jù)結(jié)構(gòu)打下穩(wěn)固的基礎(chǔ),但如何實(shí)現(xiàn)RFI更為精確的分類還需要進(jìn)行更多的深入工作。我們計(jì)劃進(jìn)一步明確各類聚類結(jié)果中的RFI特性,并導(dǎo)入更多的專業(yè)知識(shí)進(jìn)行研究。此外,我們也打算與天文臺(tái)的專家進(jìn)行深度合作,以便在更大數(shù)據(jù)量的基礎(chǔ)上驗(yàn)證我們的研究成果。這些措施將推動(dòng)我們更精確地識(shí)別和分類RFI,為更為精確地制定RFI抑制策略搭建堅(jiān)實(shí)的基石。
[ 參 考 文 獻(xiàn) ]
[1] MAAN Y,LEEUWEN van J,VOHL D.Fourier domain excision of periodic radio frequency interference[J].Astronomy amp; Astrophysics,2021,650:A80.
[2] AKERET J,CHANG C,LUCCHI A,et al.Radio frequency interference mitigation using deep convolutional neural networks[J].Astronomy and Computing,2017,18:35-43.
[3] DORAN G.Characterizing interference in radio astronomy observations through active and unsupervised learning[J].JPL Publication,2013,13-24.
[4] CZECH D,MISHRA A,INGGS M.Characterizing transient radio-frequency interference[J].Radio Science,2017,52(7):841-851.
[5] SHAHAPURE K R,NICHOLAS C.Cluster quality analysis using silhouette score[C]//7th Iternational Conference on Data Science and Advanced Analytics,2020:747-748.
[6] LAMIREL J C,DUGUN,CUXAC P.New efficient clustering quality indexes[C]//International Joint Conference on Neural Networks,2016:3649-3657.
[7] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[8] SHAHAM U,STANTON K,LI H,et al.Spectralnet:Spectral clustering using deep neural networks[Z/OL].(2018-04-04)[2024-01-11].https://arxiv.org/abs/1801.01587v6.
[9] MACQUEEN J.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,1967:281-297.
[10] JI Yuzhu,ZHANG Haijun,ZHANG Zhao,et al.CNN-based encoder-decoder networks for salient object detection:A comprehensive review and recent advances[J].Information Sciences,2021,546:835-857.
[11] SARA U,AKTER M,UDDIN M S.Image quality assessment through FSIM,SSIM,MSE and PSNR-a comparative study[J].Journal of Computer and Communications,2019,7(3):8-18.
[12] 畢常遙,袁曉彤.基于Adam局部?jī)?yōu)化的分布式近似牛頓深度學(xué)習(xí)模型訓(xùn)練[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(10):278-283.
[13] TIBSHIRANI R,WALTHER G,HASTIE T.Estimating the number of clusters in a data set via the gap statistic[J].Journal of the Royal Statistical Society Series B,2001,63(2):411-423.
[14] PATRO S G,SAHU K K.Normalization:A preprocessing stage[Z/OL].(2015-03-19)[2024-01-11].https://arxiv.org/abs/1503.06462v1.
[15] CHICCO D.Siamese neural networks:An overview[J].Artificial Neural Networks,2020,2190:73-94.
[16] MAATEN van der L,HINTON G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.
[責(zé)任編輯:謝 平]
RFI clustering study of Yunnan 40 meter radio telescope based on improved SpectralNet
HE Fangtong, LIANG Bo
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China
Abstract: To develop specific mitigation strategies for addressing the issue of severe radio frequency interference (RFI) contamination during pulsar observations, an image clustering model called CAE-SpectralNet, based on autoencoders and spectral clustering, has been proposed. The autoencoder part of this model automatically extracts key features from images, avoiding the difficulties of manual operations. Spectral clustering clusters the closest points in feature space, which helps to reveal the underlying structural information of the data. Experiments were performed on 2 000 pulsar time domain and frequency domain image data collected by the Yunnan Observatory's 40-meter radio telescope. The results show that after improving the structure of the autoencoder, the SpectralNet model significantly improves on the internal indicators of clustering compared to the original SpectralNet model and some traditional clustering algorithms. The clustering results preliminarily achieve the goal of RFI classification.
Key words: CAE-SpectralNet model; image clustering; morphological classification of RFI