doi:10.19734/j.issn.1001-3695.2024.10.0365
ARViTrans method for machine sound anomaly detection
ChenLonga,b,Guo Fabina,bt,Huang Xiaoweia,b,Lu Yashia,b (a.Schoolofifcaellgeeamp;igtdslqpntStatesEaoFultredicoamp;tee University,Hefei ,China)
Abstract:Inordertosolvetheproblems thattheexisting machine soundanomalydetection methodsonly focus onthe single featuresof the time,frequencyorchanneldimensions,ignoringthemutualconnectionbetweenthespectralfeaturesandthe timeseriesinformation,andtheinitial featurelossleads toinaccurate fitingof thesampledatadistribution,thuscausing a highanomaly mised detectionrateand1 alarmrate,this paper proposedARViTrans,amachine sound anomalydetection methodthatintegratedatentionmechanismsandskipconnections.Firstlythispaperproposedathree-dimensionalicient coordinateatentionmechanismstocollaborativelycapturethetimedomain,frequencydomainandchanneldimensionfeatures through thedecouplingoperationofthefeaturespace.Secondly,itusedMobileViTasthebackbonenetworkanddesignedthe RES-MoViT module toreplacethe original MobileViT module.Skipconnections captured the information between the input andoutputand beterfitthesampledata distribution.Thegradientrefluxreduced therepeatedlearningof similarfeatureparametersandimprovedtheparameterutilizationeficiency.Finally,itcomparedtheexperimentalresultsontheMMdataset with the AE and MobileNetV2 of the DCASE Task2 baseline system. The AUC improves by 10.14% and 10.26% ,respectively.The pAUC improves by 13.40% and 6.50% ,respectively. The experimental results indicate that the proposed method caneffectivelycapturethemutualconnectionbetween featuresofdiferent dimensions while maintainingalowmodelcomplexity,improve the accuracy of anomaly detection and reduce the 1 alarm rate.
Key words:anomaly detection;MobileViT;attention mechanism;residual connection;unsupervise
0 引言
近年來,工業(yè)機器設(shè)備的狀態(tài)監(jiān)測在工廠自動化領(lǐng)域中發(fā)揮著至關(guān)重要的作用[1]。異常事件不僅會導(dǎo)致生產(chǎn)效率降低、產(chǎn)品質(zhì)量下降,還可能危及工人的生命安全。因此,實時監(jiān)控機器的運行狀態(tài),確保工廠生產(chǎn)的正常運行成為了必不可少的措施。聲音監(jiān)測由于成本低、安裝簡便且能覆蓋視頻監(jiān)控的盲區(qū),在監(jiān)控領(lǐng)域得到了廣泛應(yīng)用。目前,異常聲音檢測技術(shù)已被廣泛用于工業(yè)設(shè)備監(jiān)控[3]、生物醫(yī)學(xué)安全[4]和海上設(shè)備監(jiān)控[5]等多個領(lǐng)域。
在機器異常聲音檢測的研究中,通常對機器聲音的原始信號進(jìn)行預(yù)處理,再進(jìn)行時域、頻域或時頻分析,最后采用基于分類或重構(gòu)的無監(jiān)督學(xué)習(xí)方法來檢測異常。然而,機器聲音異常檢測面臨多個挑戰(zhàn):一方面,聲音信號包含豐富的時序和頻譜信息,而現(xiàn)有檢測方法往往僅關(guān)注時域、頻域或通道維度的單一特征,未能有效捕捉聲譜信息與時間序列間的復(fù)雜關(guān)系,從而導(dǎo)致對異常事件的識別能力不足。例如,Wang等人[圍繞特征融合和信息損失問題,提出了一種結(jié)合高效通道注意機制的輕量化MobileNetV3模型,以增強對機器異常聲音的檢測性能。Bai等人[7]提出了一種雙路Transformer網(wǎng)絡(luò)架構(gòu),通過交替在時間和頻率維度上建模時頻譜中的聲學(xué)特征來有效地進(jìn)行異常檢測。Almudevar等人[8]將時頻譜的每個時間幀作為ViT的輸入,開發(fā)了一種基于ViT的嵌入提取器,以增強特征提取的全面性。另一方面,基于重構(gòu)的方法通過重構(gòu)樣本并使用重構(gòu)誤差作為異常檢測分?jǐn)?shù),由于訓(xùn)練過程中不涉及異常聲音,若訓(xùn)練得到的特征也適用于異常聲音,這種方法的有效性可能會受限[2]。基于分類的方法則利用機器類型、機器身份(ID)或?qū)傩詷?biāo)簽等元數(shù)據(jù)來構(gòu)建輔助分類任務(wù),通過訓(xùn)練分類器預(yù)測正常聲音的機器類型和 ID 。雖然這種方法的性能比基于重構(gòu)的模型好得多,但由于缺乏足夠的標(biāo)簽數(shù)據(jù),導(dǎo)致其實現(xiàn)相對困難。Wang等人[提出了將主成分分析(PCA)、異常分類器和對比學(xué)習(xí)結(jié)合的集成系統(tǒng),進(jìn)一步提升了檢測的準(zhǔn)確性。Asai[1]通過子集群AdaCos損失的深度度量學(xué)習(xí),并結(jié)合高斯混合模型和一類支持向量機進(jìn)行異常檢測。Liao等人[11]結(jié)合條件自編碼器的重構(gòu)誤差和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的分類置信度來生成異常分?jǐn)?shù),提高了部分機器類型的檢測準(zhǔn)確性。Hauser等人[12]通過將AE結(jié)合U-Net架構(gòu)展開實驗,利用U-Net頻譜圖重建誤差進(jìn)行異常檢測。Zhao等人[13]采用結(jié)合生成對抗網(wǎng)絡(luò)(generativeadversarialnetwork,GAN)和自編碼器的模型,利用頻譜圖和對數(shù)梅爾能量進(jìn)行訓(xùn)練。Huang等人[14]提出了一種改進(jìn)的深度卷積GAN,通過集成注意力機制的殘差深度卷積GAN作為生成器,并使用多尺度卷積神經(jīng)網(wǎng)絡(luò)作為判別器,以解決異常檢測中的信息丟失問題。
盡管時頻分析能夠豐富模型對聲音信號的表征能力,但聲音信號在通道維度的差異依然會對異常判斷產(chǎn)生影響,且提取的內(nèi)容不包含聲音信號中的關(guān)鍵通道和異常相關(guān)的時間段。近年來,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和自注意力機制的方法因具有同時建模局部和全局特征的優(yōu)勢,成為研究熱點之一。例如Mobile-ViT[15] 在機器聲音檢測中彌補了以往方法忽略全局時序信息的不足,并在保持較低模型復(fù)雜度的同時提升了性能。然而,隨著網(wǎng)絡(luò)提取更深層次的特征,信息流通和梯度傳播變得不暢,導(dǎo)致特定頻帶上的規(guī)律性受到影響,樣本數(shù)據(jù)分布擬合不準(zhǔn)確。針對上述問題,本文提出了基于改進(jìn)MobileViT并融合注意力機制和跳躍連接的機器異常聲音檢測方法(attentionre-sidualmobilevision Transformer for machine abnormal sound de-tection,ARViTrans),其主要貢獻(xiàn)有:
a)提出了一種三維高效坐標(biāo)注意力模塊(three-dimensio-nalefficientcoordinateattention,TDECA)。首先,通過特征空間的解耦操作來協(xié)同捕捉時域、頻域以及通道維度特征;其次,通過共享卷積層對池化后的特征向量進(jìn)行變換,自適應(yīng)生成三個維度的注意力權(quán)重;最后,通過加權(quán)融合增強聲譜特征與時間序列信息之間的相互聯(lián)系,提高異常檢測準(zhǔn)確性和模型泛化性。b)針對原有MobileViT模塊提取更深層次特征時無法充分捕捉輸入輸出之間的信息以及重復(fù)學(xué)習(xí)相似特征參數(shù)的問題,提出了RES-MoViT模塊。通過引入跳躍連接捕捉輸入和輸出之間的信息,減少了模型中重復(fù)學(xué)習(xí)相似特征的參數(shù)量,并通過梯度回流提高了參數(shù)利用效率,最終實現(xiàn)了更好的數(shù)據(jù)擬合效果,同時保持了較高的檢測精度和性能穩(wěn)定性。
c)使用MIMIIDUE數(shù)據(jù)集來評估ARViTrans的有效性。實驗結(jié)果表明,ARViTrans檢測效果優(yōu)于基線模型,同時保持了較低的模型復(fù)雜度,驗證了其在機器聲音異常檢測中的有效性。
1相關(guān)工作
傳統(tǒng)的機器故障診斷方案是用信號濾波和特征工程對聲音數(shù)據(jù)進(jìn)行處理,再進(jìn)行時域、頻域或時頻分析,最后用機器學(xué)習(xí)算法進(jìn)行診斷[16]。隨著深度學(xué)習(xí)的發(fā)展,一些研究將聲音信號當(dāng)作圖像數(shù)據(jù)或序列數(shù)據(jù)來檢測異常聲音。例如,Verbitskiy等人[17]推廣了短時傅里葉變換(shorttimeFourier trans-form,STFT)的應(yīng)用,提出將多種時頻表示作為輸入特征,采用CNN提取的特征向量與K近鄰算法結(jié)合進(jìn)行異常檢測。Jung等人[18]提出了一種基于輕量級Xception網(wǎng)絡(luò)的新方法,用于轉(zhuǎn)子故障的診斷。LSTM由于其優(yōu)秀的序列處理能力被廣泛應(yīng)用到故障檢測領(lǐng)域。如Borré等人[19]提出了一種基于注意力機制的混合CNN-LSTM模型,不僅成功預(yù)測了時間序列數(shù)據(jù)中的機器故障,并且可擴(kuò)展至其他工程領(lǐng)域。Dao 等人[20]開發(fā)了一種利用CNN自適應(yīng)提取故障特征,并結(jié)合LSTM進(jìn)行特征學(xué)習(xí)的水輪機聲音診斷方法,顯示出優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的性能。盡管LSTM在處理長時間序列數(shù)據(jù)時相比傳統(tǒng)方法有所改進(jìn),但作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一部分,門控單元仍然依賴鏈?zhǔn)揭?guī)則進(jìn)行梯度傳播,這限制了其長時間序列的表征能力[21]
近年來,Transformer網(wǎng)絡(luò)廣泛應(yīng)用于各個領(lǐng)域,如醫(yī)學(xué)[22]裂縫檢測[23]等。Bai等人[7]提出了一種雙路 Transfor-mer網(wǎng)絡(luò)架構(gòu),通過交替在時間和頻率維度上建模時頻譜中的聲學(xué)特征,有效地進(jìn)行異常檢測。ViT模型能夠遞歸處理輸入序列,從而高效提取和學(xué)習(xí)圖像特征。Almudevar等人[8]首次將時頻譜的每個時間幀作為ViT的輸入,開發(fā)了一種基于ViT的嵌人提取器。ViT的相關(guān)變體在時間序列建模相關(guān)的任務(wù)中取得了進(jìn)展,例如交通流量預(yù)測[24]和時間序列預(yù)測[25]。很多研究也已經(jīng)嘗試將ViT應(yīng)用于各種信號處理任務(wù)。例如Kucukkulahli等人[26]通過ViT學(xué)習(xí)梅爾譜圖的時頻特征和長程依賴,增強貓聲音分類能力。
然而,現(xiàn)有方法只關(guān)注時域、頻域或通道維度的單一特征,忽略了聲譜特征與時間序列信息之間的相互聯(lián)系,無法有效判斷機器聲音相關(guān)的邏輯和聲譜異常。針對這些不足,本文提出了一種融合注意力機制和跳躍連接的機器聲音異常檢測方法ARViTrans。
結(jié)合改進(jìn)的三維高效坐標(biāo)注意力機制和跳躍連接設(shè)計,能夠協(xié)同捕捉時域、頻域和通道維度的多層次信息,從而全面表征聲音信號中的復(fù)雜模式。特別地,三維高效坐標(biāo)注意力機制通過特征空間的解耦與自適應(yīng)加權(quán),增強了特征間的互聯(lián)性和表達(dá)能力,有效提升了異常檢測的準(zhǔn)確性。同時,跳躍連接在深層網(wǎng)絡(luò)中減少了梯度流動的阻礙,使模型在捕捉輸入輸出信息時更加靈活,有助于降低漏檢率和誤報率。
通過增強對時序和頻譜信息之間的聯(lián)系捕捉,ARViTrans不僅能夠在多樣化的工業(yè)聲音數(shù)據(jù)上實現(xiàn)高效的異常檢測,還能夠保持模型的輕量化設(shè)計,從而在低誤報率的前提下有效應(yīng)對工業(yè)設(shè)備異常檢測的實際需求,為工業(yè)環(huán)境下的實時監(jiān)控提供了一種高效、穩(wěn)定的解決方案。
2 ARViTrans模型
2.1 概述
本文提出的ARViTrans機器聲音異常檢測流程如圖1所示,主要由預(yù)處理、主干網(wǎng)絡(luò)、異常聲音檢測模塊構(gòu)成。
如圖1(a)所示,在預(yù)處理階段,首先將給定待訓(xùn)練機器聲音片段預(yù)處理為對數(shù)梅爾頻譜。采用 64ms 的FFT窗口和32ms 的幀移生成包含128個梅爾濾波器特征的時頻圖,并將其歸一化為均值為0、方差為1,最終得到大小為 128×128×3 的輸入特征圖。訓(xùn)練和測試階段均保持特征提取一致性,確保數(shù)據(jù)分布的穩(wěn)定性。其次,結(jié)合CNN和Transformer技術(shù)優(yōu)勢,模型采用改進(jìn)后的MobileViT作為主干網(wǎng)絡(luò)提取特征。
如圖1(b)所示,在訓(xùn)練階段,先將預(yù)處理得到的特征圖輸入主干網(wǎng)絡(luò)的layerO(步長為2的 3×3 卷積)中完成初步特征提取,并將特征圖尺寸縮小一半,有效減少計算量的同時保留重要局部信息。隨后在layerO后插人TDECA模塊,通過特征空間的解耦操作協(xié)同捕捉時域、頻域以及通道維度特征,使用共享卷積層對池化后的特征向量進(jìn)行變換,生成具有三維注意力權(quán)重的特征圖。接著特征圖進(jìn)入layerl(MobileNetV2模塊)用于進(jìn)一步深度特征提取;然后進(jìn)入layer2,由三個連續(xù)的Mo-bileNetV2模塊構(gòu)成,其中第一個模塊通過步長為2的操作實現(xiàn)一次2倍下采樣,進(jìn)一步減少特征圖空間維度,增強網(wǎng)絡(luò)全局感受野。在layer3\~5中,每層由一個2倍下采樣的MobileNetV2模塊和一個RES-MoViT模塊構(gòu)成。RES-MoViT模塊通過引人跳躍連接機制,替代MobileViT模塊的拼接操作和卷積操作,將輸入特征與局部和全局表征后的特征直接相連。一方面,跳躍連接增強了模型對輸入輸出之間全局信息的捕捉;另一方面,通過梯度回流機制減少重復(fù)學(xué)習(xí)相似特征所需的參數(shù)量,提高參數(shù)利用效率。這種設(shè)計不僅提高了模型對樣本數(shù)據(jù)分布的擬合能力,還顯著降低了模型的復(fù)雜度。最終經(jīng)過layer5后的特征圖通過 1×1 卷積層進(jìn)一步壓縮通道維度并融合特征信息,隨后利用全局池化對特征進(jìn)行空間維度的全局聚合,生成固定長度的向量作為分類輸人,并通過全連接層完成特征與目標(biāo)類別的映射。分類階段,模型利用softmax函數(shù)將logits值轉(zhuǎn)換為邏輯回歸預(yù)測值,從而建立每種機器類別正常聲音的判別邊界。
如圖1(c)所示,在測試階段,模型對未知聲音數(shù)據(jù)進(jìn)行檢測,通過邏輯回歸預(yù)測值進(jìn)一步計算異常分?jǐn)?shù)。最后利用伽馬分布估計異常分?jǐn)?shù)的分布并設(shè)定閾值,判定音頻片段是否異常。
2.2局部與全局特征聯(lián)合表示網(wǎng)絡(luò)
本文使用改進(jìn)后的MobileViT作為主干網(wǎng)絡(luò)進(jìn)行特征提取。如圖1(b)所示,與標(biāo)準(zhǔn)ViT模型不同,MobileViT結(jié)合了輕量級卷積與自注意力機制,并引入了一種新的局部特征與全局特征聯(lián)合表示的學(xué)習(xí)方法。
改進(jìn)后的MobileViT網(wǎng)絡(luò)主要由MobileNetV2、TDECA以及RES-MoViT模塊串聯(lián)而成,通過連續(xù)的空間下采樣操作來減少特征的維度。在MobileNetV2模塊中,先將特征圖的通道數(shù)上升然后再下降,特征圖的通道數(shù)越少,卷積層的計算量越少。只使用通道數(shù)少的特征圖難以提取足夠的特征信息,MobileNetV2在這兩者之間進(jìn)行取舍,采取先提升通道數(shù)再降低通道數(shù)的策略。因此,MobileNetV2能夠以較少的計算量獲得較高的檢測精度。標(biāo)準(zhǔn)卷積通常包含展開、局部處理和折疊三個步驟,而MobileViT通過在卷積中用Transformer的全局處理代替局部處理,使得RES-MoViT模塊同時具備了CNN和Transformer的特點,從而在使用更少參數(shù)和簡化訓(xùn)練過程的同時,能夠?qū)W習(xí)到更加豐富的特征。在機器聲音異常檢測任務(wù)中,MobileViT通過引人Transformer塊(特別是自注意力機制)來充分利用其全局視野,實現(xiàn)對輸人的對數(shù)梅爾頻譜的全局特征聚合和信息傳遞。
2.3三維高效坐標(biāo)注意力模塊
本文分析了頻譜中每個頻率段和時間段的響應(yīng)情況。首先,對fan和gearbox類別樣本進(jìn)行預(yù)處理,提取振幅譜圖 s∈ R513×313 ,通過在時間維度拼接并平均每一類別的所有 s ,得到頻率激活矩陣 Af∈R513×1 ,如圖2所示。fan的激活值在低頻段有顯著峰值,特別是 0~100Hz 。在中頻和高頻段,激活值有所波動,但整體趨勢較為平穩(wěn)。可以看到fan的主要活躍頻段集中在較低頻率范圍內(nèi)。與fan相比,gearbox的頻率激活更為廣泛且激活值更高?;钴S頻段集中在 0~150Hz ,且在此頻段內(nèi)有多個波峰,表明gearbox的活躍頻率段覆蓋了更大范圍頻率。類似地,通過在頻率維度上拼接并平均,得到時間激活矩陣At∈R313×1 ,如圖3所示。fan的激活波動較大,活躍時段的激活值在9\~13。時間上沒有特別集中的活躍區(qū)域,但整體來看,fan的活躍時段持續(xù)時間較長,活躍度表現(xiàn)出明顯的波動性,表明fan的聲音信號在時間上沒有固定的活躍區(qū)域,可能和持續(xù)性噪聲或機器工作狀態(tài)的變化有關(guān)。與fan相比,gearbox的時間激活值在更高的范圍(14\~24),并且呈現(xiàn)出更頻繁的波動。這表明gearbox的活躍時間段集中度更高且強度較大。
上述分析表明,不同機器都有各自的特征活躍區(qū)域,并且這些區(qū)域之間存在較大差異。因此,通過簡單的固定卷積操作無法有效捕捉這些具有差異性的特征。而注意力機制可以根據(jù)輸入數(shù)據(jù)自適應(yīng)地調(diào)整權(quán)重,聚焦各維度上更為重要的區(qū)域。這種自適應(yīng)的能力可以幫助模型更好地捕捉與異常檢測相關(guān)的區(qū)分性特征,忽略無關(guān)的背景信息或不活躍時頻段,從而提高模型的檢測準(zhǔn)確性和泛化性。
因此,本文提出了一種三維高效坐標(biāo)注意力模塊,如圖1(c)所示。首先,通過特征空間的解耦操作來協(xié)同捕捉時域、頻域以及通道維度特征;其次,通過共享卷積層對池化后的特征向量進(jìn)行變換,自適應(yīng)生成三個維度的注意力權(quán)重;最后,通過加權(quán)融合增強聲譜特征與時間序列信息之間的相互聯(lián)系。
經(jīng)過預(yù)處理后得到的對數(shù)梅爾頻譜經(jīng)過多層MobileNetV2和RES-MoViT后得到特征圖 X∈RC×F×T (其中 c 為通道數(shù), F 為頻率, T 為時間),分別使用特征的時間、頻率以及通道信息來生成時間注意力圖、頻率注意力圖以及通道注意力圖,對 X 分別進(jìn)行時間和頻率維度的平均池化操作,得到時間和頻率維度上的特征矩陣 zc,F(xiàn) 和 zc,T ,再對 X 進(jìn)行通道維度的全局平均池化操作,得到通道維度上的特征矩陣 Zc 0
將 Zc,F(xiàn) 和 zc,r 進(jìn)行拼接得到 Zc,F(xiàn)+T ,并使用 1×1 的共享卷積層 F1 和非線性激活函數(shù) δ 分別對 Zc,F(xiàn)+T 和 Zc 進(jìn)行轉(zhuǎn)換,分別產(chǎn)生包含豐富空間信息的中間特征圖 fC,F(xiàn)+T 和 fc
其中 :fC,F(xiàn)+T∈RC/r×F×T fc∈Rc×1×1 r 是縮減比例,控制塊的大小。對 fC,F(xiàn)+T 和 fc 進(jìn)行歸一化和非線性處理,生成三個獨立的特征圖 fF,fT 和 fc ,這些特征圖經(jīng)過 1×1 卷積層和sigmoid激活函數(shù)處理,生成水平和垂直方向上的注意力權(quán)重 Gr,Gr 和 Gc 。利用這些注意力權(quán)重對輸入特征圖進(jìn)行加權(quán),得到最終輸出:
Y=X*GF*GT*GC
其中: Y∈RC×F×T GF∈RC×F×1 GT∈RC×1×T Gc∈Rc×1×1 。該式在乘法運算時會對 GF,GT 和 Gc 進(jìn)行維度擴(kuò)展,使得 GF GT,Gc∈Rc×F×T ,然后逐元素相乘。具體來說,對于 Y={y1 ,y2,…,yC}∈RC×F×T 中第 c 維特征的計算過程為
yC(i,j)=xC(i,j)*gC,F(xiàn)(i)*gC,T(j)*gC
2.4 RES-MoViT模塊
在RES-MoViT的設(shè)計中,考慮到自然圖像中的像素在空間上通常具有較強的相關(guān)性[27],所以在對自然圖像特征提取時,MobileViT模塊使用拼接操作將輸入特征與局部和全局表征后的特征進(jìn)行拼接,再利用 3×3 卷積進(jìn)行特征融合,旨在混合局部和全局信息。而對數(shù)梅爾頻譜在時間和頻率上的信息分布則表現(xiàn)為更加規(guī)律的變化模式和特定頻帶,所以對對數(shù)梅爾頻譜特征提取時,MobileViT網(wǎng)絡(luò)通過layer3\~5的Mobile-NetV2后,特征信息已經(jīng)分別下采樣8、16、32倍,再經(jīng)過Mobi-leViT模塊中的局部和全局特征建模后能夠有效表征局部頻域信息和全局時序信息。隨著網(wǎng)絡(luò)層數(shù)的加深,繼續(xù)將初始特征圖與表征后的特征圖進(jìn)行拼接并利用卷積操作將會丟失大量的信息[28]
針對這一問題,本文設(shè)計了RES-MoViT模塊。利用跳躍連接機制替代MobileViT模塊的拼接操作和卷積操作,將輸人特征圖與表征后的特征圖相連。該機制在維持輸人特征與局部和全局表征特征一致性的同時,有效保留下采樣和特征建模過程中不同層次的特征信息,從而能夠更精準(zhǔn)地捕捉并擬合樣本數(shù)據(jù)的分布特性。此外,跳躍連接機制通過更穩(wěn)定的梯度流動,減少模型對相似特征重復(fù)學(xué)習(xí)所需的參數(shù)量,提高參數(shù)利用效率。
RES-MoViT分為局部特征建模、全局特征建模和跳躍連接三個部分。如圖1(d)所示,給定深層特征圖 Y∈RH×W×C ,通過3×3 卷積編碼局部空間聲音信息,再利用逐點卷積學(xué)習(xí)輸入通道 c 的線性組合,將特征投影到 d 維空間( d≥C ,得到高維空間特征圖 YL∈RH×W×d 。對特征圖進(jìn)行分塊處理,將其不重疊地展平后得到 N 個平面像素塊,展平后的特征圖 YU∈RP×N×d ( P=wh 表示單個像素塊的尺寸, N=WH/P 表示劃分出的像素塊個數(shù))被劃分為一維向量序列,以此抽取每個像素塊中的特征信息。劃分后的序列單元將被送人多個Transformerencoder來編碼序列間的全局關(guān)系。將表征后的特征圖再調(diào)整回原始通道數(shù),并利用跳躍連接與輸入特征圖相連,最終生成與輸人維度相同的新張量。
Transformerencoder的核心構(gòu)成包括多頭注意力機制(multi-headattention)和多層感知器,多頭注意力機制的主要功能在于根據(jù)序列的不同位置捕捉聲音特征的多個視角,從而實現(xiàn)對聲音特征細(xì)粒度的學(xué)習(xí)和表達(dá)。在多頭注意力機制中,輸入 x∈Rk×d 包含了 k 維的單位序列嵌人。這些輸人被饋送至三個獨立的支路,每條支路分別處理查詢向量 、鍵向量 K, 值向量 Vo 對
和 K 進(jìn)行矩陣乘法操作以捕捉不同序列元素間的相互關(guān)系,并基于鍵向量的維度 dk 實現(xiàn)加權(quán),通過點積操作確定注意力權(quán)重,對注意力權(quán)重應(yīng)用softmax函數(shù),生成注意力矩陣 Fa∈Rk×k×h ,計算公式為
通過多頭配置增加模型對不同時頻區(qū)域的敏感性,每個頭通過不同的權(quán)重矩陣 {calWiQ,calWiK,calWiV} 學(xué)習(xí)聲音信號的不同特性,使模型能夠捕捉更加豐富和復(fù)雜的聲音信息。再通過拼接與權(quán)重矩陣 Wo∈Rd×d 結(jié)合,形成最終的特征表示。多頭注意力的整體輸出可以表示為
其中: Fai 為第 i 個頭的輸出, i∈{1,2,…,h} 。
2.5 異常檢測
通過改進(jìn)的MobileViT異常聲音檢測模型,輸出音頻每幀的邏輯回歸預(yù)測值,建立每種機器各類別的邊界,從而有效進(jìn)行后續(xù)的異常檢測。如圖1(e)所示,音頻異常得分是通過計算音頻片段每幀邏輯回歸預(yù)測值的平均負(fù)對數(shù)來得到的,如式(12)所示。
其中: B 是音頻幀數(shù); t(b) 是頻譜幀索引: ? 是提取的聲學(xué)特征函數(shù); Pθ 是改進(jìn)MobileViT模型得到的邏輯回歸預(yù)測值。
為了測定異常分?jǐn)?shù) Aθ 的異常閾值,本文假設(shè) ?Aθ 服從伽馬分布,基于每段音頻的 Aθ 分布直方圖確定伽馬分布的參數(shù),并設(shè)定異常檢測閾值為伽馬分布的第90百分位數(shù)。若某音頻的Aθ 值大于此閾值,則該音頻被判定為異常;若小于此閾值,則被認(rèn)為是正常的。
3 實驗分析
3.1環(huán)境配置和數(shù)據(jù)集
實驗使用Python語言,在深度學(xué)習(xí)框架TensorFlow中實現(xiàn)。硬件環(huán)境為CPU:IntelCorei7-11700H,8核16線程3.50GHz ;GPU:NVIDIAGeForceRTX3080Ti,12GB顯存。
本文使用DCASETask2下兩種開放的機器聲音數(shù)據(jù)集用于評估ARViTrans的有效性。數(shù)據(jù)集的詳細(xì)描述如下:
a)MIMIIDUE數(shù)據(jù)集主要用于研究域適應(yīng)問題,包括五種類型的機器聲音,具體為風(fēng)扇(fan)、變速箱(gearbox)、泵(pump)、滑軌(slider)、閥(valve)的正常與異常聲音[29]
b)MIMIIDG數(shù)據(jù)集主要用于研究域泛化問題,包括五種類型的機器聲音,具體為軸承(bearing)、風(fēng)扇(fan)、變速箱(gearbox)、滑軌(slider)、閥(valve)的正常與異常聲音[30]
每個錄音均為10s長的單聲道音頻片段,采樣率為16kHz ,錄音中不僅包含目標(biāo)機器的聲音,還有環(huán)境噪聲。數(shù)據(jù)集的具體構(gòu)成如表1所示,每種機器類型分別設(shè)置了section00、section01和sectionO2三種子類別。
3.2評估和參數(shù)設(shè)置
3.2.1 評價指標(biāo)
實驗的評價指標(biāo)與基線系統(tǒng)保持一致,主要采用AUC(areaunderthecurve)和pAUC(partialareaunderthecurve)進(jìn)行評估。AUC是廣泛使用的概率指標(biāo),被定義為受試者操作特征(receiver operating characteristic,ROC)曲線下與坐標(biāo)軸圍成的面積,反映了分類器對樣本的排序能力。pAUC則是在特定假陽性率(1oositiverate,F(xiàn)PR)范圍內(nèi)的AUC,用于評估模型在低誤報率條件下的表現(xiàn)。
其中: SAUC 和 SpAUC 分別表示AUC 和 的值; M 表示機器的類型; n 表示特定機器為 M 類型的某個類別; H(X) 是Heaviside階躍函數(shù),當(dāng) Xgt;0 時輸出為1,當(dāng) Xlt;0 時輸出為 0;Xi- 和 Xj+ 分別代表正常樣本和異常樣本: ??N?- 和 N+ 分別是正常樣本和異常樣本的數(shù)量。
在評估設(shè)置中,pAUC在低誤報率范圍 [0,p] 進(jìn)行計算,以p=0.1 作為閾值。這種設(shè)置旨在確保在低誤報率下提高正陽性率(truepositiverate,TPR),這對于減少誤報非常關(guān)鍵,增強了系統(tǒng)的實用性和可信度。
3.2.2 實施細(xì)節(jié)
為了確保實驗結(jié)果的可靠性,本文在特征提取和訓(xùn)練參數(shù)上保持一致,以避免超參數(shù)調(diào)整對模型評估能力的潛在影響。本實驗的最優(yōu)超參數(shù)設(shè)置如下:特征提取方面,F(xiàn)FT大小為64ms ,幀移為 32ms ,梅爾濾波器數(shù)量為128,最大采樣率為16kHz ;訓(xùn)練參數(shù)方面,優(yōu)化算法為Adam,基礎(chǔ)學(xué)習(xí)率為0.00001 ,訓(xùn)練輪數(shù)為100,批大小為32。通過保持這些參數(shù)設(shè)置的統(tǒng)一性,實驗結(jié)果的可靠性和可比性得到了有效保障。
在訓(xùn)練和測試階段,對數(shù)梅爾頻譜始終以 128×128×3 作為輸入。為方便表示,如圖1(b)所示,將主干網(wǎng)絡(luò)分為六層。特征圖中的通道數(shù)沿著這六層增加為 {3?16,16?32,32?64 64?96,96?128,128?160} 。經(jīng)過layerO后引入TDECA模塊,將第3\~5層中所提RES-MoViT塊的變壓器編碼器的數(shù)量L 分別設(shè)置為2、4和3,注意力頭數(shù)設(shè)置為2。主干網(wǎng)絡(luò)包括五次下采樣操作,通過全局平均池化層和全連接層整合并分類提取的特征,最后經(jīng)過softmax函數(shù)輸出聲音樣本的邏輯回歸預(yù)測值。
3.3 對比實驗及分析
本文設(shè)計兩組對比實驗來驗證ARViTrans的有效性。對比實驗1:為了驗證ARViTrans的機器聲音異常檢測性能,在MIMIIDUE和MIMIIDG數(shù)據(jù)集上將基線系統(tǒng)方法和其他先進(jìn)方法作為對比,并進(jìn)行5次對比實驗,取平均效果。對比實驗2:為了驗證基于分類條件下不同主干網(wǎng)絡(luò)在實際應(yīng)用中的綜合性能,選取EfficientNetBO[31]、NASNetMobile[32]、VGG16[33] ResNet50[34] 以及原始MobileViT[15]作為對比,并進(jìn)行5次對比實驗,取平均效果。
3.3.1對比實驗1:不同方法的性能對比
為了驗證ARViTrans的機器聲音異常檢測性能,本實驗通過與基線系統(tǒng)和其他先進(jìn)方法在相同數(shù)據(jù)集上進(jìn)行對比來評估其性能指標(biāo),具體數(shù)據(jù)如表2、3所示(加粗字體表示相同指標(biāo)下的最優(yōu)結(jié)果)。表2選取DCASE2021Task2的基線系統(tǒng)(baseline)[35]和文獻(xiàn)[9\~11]作為參照對象。在此基線系統(tǒng)中,第一種是基于自編碼器架構(gòu)的異常檢測系統(tǒng)通過重構(gòu)時頻譜并使用重構(gòu)誤差作為檢測異常的分?jǐn)?shù)來學(xué)習(xí)正常聲音的特征。第二種是基于卷積神經(jīng)網(wǎng)絡(luò)MobileNetV2架構(gòu)的異常檢測分類器,借助機器類別屬性來訓(xùn)練分類器,建立每種機器各個類別的邊界,達(dá)到異常檢測的目的。
表3選取DCASE2022task2、DCASE2023task2的基線系統(tǒng)[36,37]和文獻(xiàn)[12\~14]作為參照對象。DCASE2022 task2的基線系統(tǒng)與DCASE2021task2的基線系統(tǒng)一致。DCASE2023task2的基線系統(tǒng)有簡單自編碼器模式和選擇性馬氏模式(se-lectiveMahalanobismode)兩種操作模式。
如表2、3所示,本文方法在多個機器類型上表現(xiàn)優(yōu)異。在MIMIIDUE 數(shù)據(jù)集上的fan、gearbox、pump和valve的AUC指標(biāo)分別達(dá)到了 72.36%.74.88%.76.11% 和 75.96% ,均優(yōu)于其他方法;而在pAUC指標(biāo)上,機器fan、gearbox、slider和valve分別達(dá)到了 73.39% 、64.79% 65.82% 和 68.25% ,為機器類型中的最高值,表明本文方法在低誤報率下具有較好的性能和遷移能力。其中,本文方法在valve上的表現(xiàn)最佳,AUC和pAUC相較于基線系統(tǒng)AE分別提高22.22百分點和17.64百分點,相較于基線系統(tǒng)MobileNetV2分別提高18.89百分點和15.42百分點。同時,本文方法在MIMIIDG數(shù)據(jù)集上的bearing、slider和valve的AUC指標(biāo)也分別達(dá)到了 75.56% 、78.89% 和 69.60% ,在pAUC方面,bearing和valve分別達(dá)到59.41% 和 66.28% ,同樣顯著優(yōu)于其他先進(jìn)方法。結(jié)果表明,本文方法在多個機器類型上性能表現(xiàn)突出,是比較優(yōu)秀的異常檢測方法之一。
此外,盡管本文方法在多種機器類型上表現(xiàn)優(yōu)異,但在MIMIIDG數(shù)據(jù)集上,某些機器類型如fan和gearbox上的表現(xiàn)還有提升空間。可能是由于fan和gearbox的機器特性與訓(xùn)練數(shù)據(jù)存在較大差異,導(dǎo)致模型無法完全泛化。同時,不同方法在不同設(shè)備上的表現(xiàn)差異較大,仍需針對特定機器類型優(yōu)化方法以進(jìn)一步提升性能。
3.3.2對比實驗2:不同模型的綜合性能對比
為了驗證基于分類條件下不同主干模型在實際應(yīng)用中的綜合性能,本文按照主干模型特點選取了目前流行的輕量級CNN模型包括EfficientNetBO[31]和NASNetMobile[32],重量級CNN 模型包括VGG16[33]和 ResNet50[34] ,以及原始MobileViT[15]模型作為對比實驗,在基于分類的方法下對各模型進(jìn)行對比。
實驗結(jié)果如表4、5所示,各模型在不同機器類型上的AUC和pAUC表現(xiàn)展示了本文方法的綜合優(yōu)勢。盡管VGG16在某些機器類型(如slider)的AUC上略高于本文方法,但其參數(shù)量高達(dá) 134.3M ,顯著超過其他對比模型,VGG16的高復(fù)雜度使其在推理時間上達(dá)到了 103.78ms ,這在資源受限的設(shè)備上極其不利,無法滿足實時應(yīng)用的需求,凸顯出高復(fù)雜度模型并不總是帶來性能提升。相比之下,輕量級模型如NASNetMo-bile和EfficientNetBO在推理時間上具備優(yōu)勢,分別為6.49ms和 6.25ms ,且其參數(shù)量僅為 4.1M 和 4.0M 。然而,盡管這兩種模型在推理時間和模型大小上表現(xiàn)優(yōu)異,但其在各類機器類型上的AUC和pAUC指標(biāo)表現(xiàn)較差。特別是在gearbox、valve和pump等關(guān)鍵機器類型中,其AUC和pAUC均顯著低于本文方法。這說明,參數(shù)量減少并沒有帶來準(zhǔn)確率的提升,反而因為模型能力的不足,導(dǎo)致了異常檢測精度的降低。本文方法在保持輕量化的同時,參數(shù)量僅為4.0M,推理時間為 7.02ms ,與EfficientNetBO和NASNetMobile相近,這使其能夠高效地部署在內(nèi)存受限且計算能力有限的移動端或嵌入式設(shè)備上。
在精度上,本文方法在絕大多數(shù)機器類型上均超過了MobileViT,尤其在valve和pump等機器類型上顯著優(yōu)于其他模型。比如,valve的AUC達(dá)到了75. 96% ,顯著超過了EfficientNetBO的 63.64% 和VGG16的 67.82% 。對于pump,本文方法也以76. 11% 的AUC高出其他所有模型。相較之下,本文方法不僅在參數(shù)量和推理時間上維持了輕量級模型的優(yōu)勢,還通過創(chuàng)新性的結(jié)構(gòu)設(shè)計提升了檢測的準(zhǔn)確性,表明其在實際應(yīng)用中能夠兼顧高效性和準(zhǔn)確性。
3.4消融實驗
本文設(shè)計兩組消融實驗來驗證ARViTrans模型各個模塊的有效性,以及不同批大小和注意力頭數(shù)對模型性能的影響。
3.4.1消融實驗1:驗證各個模塊的有效性
為驗證ARViTrans中各個模塊的有效性,并避免消融實驗的隨機性,本文在MIMIIDUE上進(jìn)行了消融實驗,對ARViTrans中提出的TDECA和RES-MoViT模塊的有效性進(jìn)行了驗證,每組進(jìn)行5次實驗,取平均效果。
表6展示了消融實驗的結(jié)果,其中實驗4的效果最佳,缺少任一模塊都會導(dǎo)致模型性能下降,證實了本文方法各部分的有效性。相較于完整的ARViTrans模型,實驗2引入了TDECA后,五種機器的AUC和pAUC指標(biāo)有較為明顯的提高。這證明本文提出的三維高效坐標(biāo)注意力模塊有效地細(xì)化了時間、頻率和通道特征的上下文信息以捕獲判別性表示,增強了聲譜特征與時間序列信息之間的相互聯(lián)系,提高了異常檢測的準(zhǔn)確性和模型泛化性。實驗3在主干網(wǎng)絡(luò)的第四到六層分別用RES-MoViT代替MobileViT后,特別在機器fan、gearbox和pump的異常檢測上帶來了明顯的性能提升,這表明RES-MoViT通過跳躍連接捕捉輸人和輸出之間的信息,更好地擬合了樣本數(shù)據(jù)分布,實現(xiàn)了較高的精度和穩(wěn)定的檢測性能。以上實驗結(jié)果均驗證了本文方法各個模塊的重要性。
為研究ARViTrans的參數(shù)敏感性,探索ARViTrans在不同超參數(shù)組合下的異常聲音檢測能力,本文使用MIMIIDUE數(shù)據(jù)集,選取不同批大小(8、16、32)以及多頭注意力的不同頭數(shù)(1.2、3、4)進(jìn)行消融研究。取所有機器類型評價指標(biāo)的平均效果。
從表7的結(jié)果可以看出,當(dāng)模型采用批大小為32且注意力頭數(shù)為2時,取得了最佳效果(AUC73. 61% ,pAUC67.03% ),相比實驗中次優(yōu)的設(shè)置(批大小32,注意力頭數(shù)3,AUC 71.91% , pAUC65.42% ),分別提升了1.7百分點和1.61百分點。上述實驗結(jié)果顯示,批大小和注意力頭數(shù)的變化對模型性能有顯著影響。具體來說,批大小為32且注意力頭數(shù)為2時,模型在AUC和pAUC指標(biāo)上均達(dá)到最高,說明此參數(shù)組合能夠更好地平衡特征提取的廣度和模型的復(fù)雜性。而批大小較小(如8)或注意力頭數(shù)過多(如4)時,模型性能有所下降,這可能是由于在小批量數(shù)據(jù)或過多頭數(shù)情況下,模型在特征學(xué)習(xí)中的信息泛化效果不足,導(dǎo)致檢測性能減弱。
表7使用不同批大小和注意力頭數(shù)的實驗結(jié)果
Fig.4Comparisonofmodelbeforeand aftertraining ontheMIMIDUEdatase
3.5 異??梢暬?/p>
為了直觀地驗證ARViTrans的異常檢測能力,本文使用MIMIIDUE進(jìn)行異??梢暬?。圖4展示了ARViTrans訓(xùn)練五種機器正常聲音前后特征空間 Φt -SNE分布的對比。所選實例為MIMIIDUE系統(tǒng)在出現(xiàn)域偏移的真實空間狀態(tài)分布。結(jié)果表明,ARViTrans成功將每種機器分成三個簇對應(yīng)三個子類別,即 section OO、section 01和 。模型學(xué)習(xí)到五種機器以及各子類正常聲音的狀態(tài)邊界,從而與異常聲音區(qū)分,進(jìn)而有效檢測正/異常。
4結(jié)束語
針對現(xiàn)有機器聲音異常檢測方法未充分利用聲譜特征與時間序列信息之間的相互聯(lián)系,以及樣本數(shù)據(jù)分布擬合不準(zhǔn)確,導(dǎo)致準(zhǔn)確率低和潛在誤報的問題,本文提出了一種融合注意力機制和跳躍連接的機器聲音異常檢測方法ARViTrans。該方法設(shè)計了三維高效坐標(biāo)注意力機制(TDECA),使得模型同時關(guān)注時域、頻域以及通道維度特征,增強機器聲音不同特征間的關(guān)聯(lián)性;并構(gòu)造基于跳躍連接的RES-MoViT,使得模型有效學(xué)習(xí)輸人和輸出間的殘差信息;同時挖掘機器聲音的多維特征與時間序列信息之間的關(guān)聯(lián)性,從而降低誤報并提高準(zhǔn)確率。使用MIMIIDUE和MIMIIDG兩個公共機器聲音數(shù)據(jù)集進(jìn)行了兩組對比實驗和兩組消融實驗,結(jié)果表明ARViTrans在AUC和pAUC方面優(yōu)于其他方法。與DCASE2021task2基線系統(tǒng)相比,相較于AE分別提高 10.14% 和 13.40% ,相較于MobileNetV2分別提高 10.26% 和 6.50% ,并且具有較高的準(zhǔn)確性和穩(wěn)定性。本文方法為機器異常聲音檢測領(lǐng)域提供了新的思路,并可實際應(yīng)用于冷卻系統(tǒng)的風(fēng)扇設(shè)備、石油化工存儲的閥門設(shè)備等工業(yè)環(huán)境下,具有理論和實際價值。
參考文獻(xiàn):
[1]KoizumiY,YasudaM,MurataS,etal.SPIDERnet:attention network for one-shot anomalydetectionin sounds[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEEPress,2020:281-285.
[2]KoizumiY,Saito S,UematsuH,etal.Unsupervised detectionof anomalous sound based on deep learning and the Neyman-Pearson lemma[J].IEEE/ACMTrans on Audio,Speech,and LanguageProcessing,2019,27(1):212-224.
[3]Zhao Rui,Yan Ruqiang,Chen Zhenghua,etal.Deep learning and itsapplicationstomachinehealthmonitoring[J].Mechanical SystemsandSignalProcessing,2019,115:213-237.
[4]Huang Dongmin,Huang Jia,Qiao Kun,et al.Deep learning-based lungsound analysis for intelligent stethoscope[J].Military Medical Research,2023,10(1):44.
[5]Kumar A,Priyadarshan A,Sekar PK. Monitoring mechanical equipment on an offshore rig with contrastive learning on acoustic features [C]//Proc of Abu Dhabi International Petroleum Exhibition and Conference.2022:D041S126R004.
[6].WangMei,MeiQingshan,SongXiyu,etal.A machine anomalous sound detection method using the IMS spectrogram and ES-MobileNetV3 network[J].Applied Sciences,2023,13(23):12912.
[7]Bai Jisheng,Chen Jianfeng,Wang Mou,et al.SSDPT:selfsupervised dual-path transformer for anomalous sound detection [J]. Digital Signal Processing,2023,135:103939.
[8]Almudévar A,Ortega A,Vicente L,et al.Vision Transformer based embeddings sex tractor for unsupervised anomalous sound detection under domain generalization[R]. Nancy:DCASE 2022 Chalenge,, 2022.
[9]Wang Yaoguang, Zheng Yaohao, Zhang Yunxiang,et al. Several approaches for anomaly detection from sound[R].Helsinki:DCASE 2021 Challenge,2021.
[10]Asai Y. Sub-cluster AdaCos based unsupervised anomalous sound detection for machine condition monitoring under domain shift conditions [R].Helsinki:DCASE 2021 Challenge,2021.
[11]Liao Weilin,Wu sunghan, Chen Shuyu,et al. DCASE 2021 task 2: anomalous sound detection using conditional autoencoder and convolutional recurrent neural network[R].Helsinki:DCASE 2O21 Challenge,2021.
[12] Hauser D, Katsch T, Moosbauer S.Anomaly detection using spectrogram reconstruction errors with U-Net [R].Helsinki:DCASE 2023 Challenge,2023.
[13] Zhao Zhong,Tan Yang,Qian Kun,et al.Ensemble systems with GAN and auto-encoder models for anomalous sound detection[R]. Helsinki:DCASE2023 Challenge,2023.
[14]Huang Xiaowei,Guo Fabin,Chen Long.A RES-GANomaly method for machine sound anomaly detection [J].IEEE Access,2024, 12:80099-80114.
[15]Mehta S,Rastegari M. MobileViT:light-weight,general-purpose, and mobile-friendly vision Transformer[EB/OL].(2021-10-05). https://arxiv.org/abs/2110.02178.
[16]Guo Jianyuan,Han Kai,Wu Han,et al. CMT:convolutional neural networks meet vision Transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022::12165-12175.
[17]Verbitskiy S,Shkhanukova M,Vyshegorodtsev V.Unsupervised anomalous sound detection using multiple time-frequency representations[R].Helsinki:DCASE2022 Challenge.2022.
[18]Jung H,Choi S,Lee B.Rotor fault diagnosis method using CNNbased transfer learning with 2D sound spectrogram analysis [J]. Electronics,2023,12(3):480.
[19]Borré A, SemanL O,Camponogara E,et al.Machine fault detection using a hybrid CNN-LSTM attention-based model[J].Sensors, 2023,23(9): 4512.
[20] Dao Fang,Zeng Yun,Qian Jing.Fault diagnosis of hydro-turbine via the incorporationof Bayesian algorithm optimized CNN-LSTM neural network[J].Energy,2024,290:130326.
[21]Ma Xiaolei,Tao Zhimin,Wang Yinhai,et al.Long short-term memory neural network for traffic speed prediction using remote microwave sensor data [J]. Transportation Research Part C:Emerging Technologies,2015,54:187-197.
[22]張文杰,宋艷濤,王克琪,等.基于自分塊輕量化Transformer的 醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[J].計算機應(yīng)用研究,2024,41(11):3502- 3508.(Zhang Wenjie,Song Yantao,Wang Keqi,etal.Medical image segmentation network based on self-partitioning lightweight Transformer[J].Application Research of Computers,2024,41 (11):3502-3508.)
[23]Guo Feng,QianYu,Liu Jian,et al.Pavement crack detectionbased on Transformer network[J].Automation in Construction,2023, 145: 104646.
[24]周楚昊,林培群.基于多通道 Transformer的交通量預(yù)測方法 [J].計算機應(yīng)用研究,2023,40(2):435-439.(ZhouChuhao, Lin Peiqun.Trafic flow prediction method basedon multi-channel Transformer[J].Application Research of Computers,2023,40 (2):435-439.)
[25]BhattiSG,Ahmad Taj I,UllahM,etal.Transformer-based models for intrapulse modulation recognitionof radar waveforms[J].EngineeringApplicationsofArtificial Intelligence,2024,136: 108989.
[26]Kucukkulahli E,Kabakus A T. Towards understanding cat vocalizations:a novel cat sound classification model based on vision Transformers[J]. Applied Acoustics,2024,226:110218.
[27]Lowe D. SIFT:the scale invariant feature transform [EB/OL]. (2011).https://docslib.org/download/8820507/sift-scale-invariant-feature-transform-by-david-lowe.
[28]Xu Guoping,Liao Wentao,Zhang Xuan,et al. Haar wavelet downsampling:a simple but effective downsampling module for semantic segmentation[J].Pattern Recognition,2023,143:109819.
[29]TanabeR,Purohit H,Dohi K,et al.MIMII due:sound dataset for malfunctioningindustrial machineinvestigation and inspection with domain shifts due to changes in operational and environmental conditions[C]//Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. Piscataway,NJ: IEEE Press,2021: 21-25.
[30]Dohi K,Nishida T,Purohit H,et al.MIMII DG:sound dataset for malfunctioning industrial machine investigation and inspection for domain generalization task [EB/OL].(2022-11-22).https://arxiv. org/abs/2205.13879.
[31]Tan Mingxing,Le Q.EfcientNet:rethinking model scaling for convolutional neural networks[C]//Proc of International Conference on Machine Learning.[S.1.]: PMLR,2019: 6105-6114.
[32]Zoph B,Vasudevan V,ShlensJ,et al.Learning transferable architectures for scalable image recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway, NJ:IEEE Press,2018:8697-8710.
[33]Simonyan K,Zisserman A.Very deep convolutional networksfor large-scale image recognition [EB/OL].(2015-04-10). https:// arxiv.org/abs/1409.1556.
[34]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press ,2016: 770-778.
[35]Kawaguchi Y,Imoto K,Koizumi Y,et al.Description and discussion on DCASE 2O21 challenge task 2:unsupervised anomalous sound detection for machinecondition monitoring under domain shifted coditions[EB/OL]. (2021-09-27). https://arxiv.org/abs/2106. 04492.
[36]Dohi K,Imoto K,Harada N,et al.Description and discusion on DCASE 2022 challenge task 2: unsupervised anomalous sound detection for machine condition monitoring applying domain generalization techniques[EB/OL].(2022-11- 22). https://arxiv.org/abs/ 2206.05876.
[37]Harada N,Nizumi D,Ohishi Y,et al.First-shot anomaly sound detection for machine condition monitoring:a domain generalization baseline[C]// Proc of the 31st European Signal Processing Conference.Piscataway,NJ: IEEE Press,2023:191-195.