摘要:傳統(tǒng)的輪軌異常磨耗檢測方法過于依賴于人工經驗和理論研究,檢測結果容易受主觀因素和理論局限性的影響,提出了一種基于符號傅里葉(SFA)-余弦相似度的輪軌異常磨耗識別方法,選取軸箱振動信號作為監(jiān)測信號并對加速度信號進行時間序列分割處理,將原始時間序列信號分割成若干子序列,以充分捕捉輪軌異常磨耗的時間尺度信息,進而利用SFA時間序列符號化方法將若干個子序列時域信號轉換為符號序列,利用TF-IDF詞頻統(tǒng)計方法對符號序列進行特征提取,結合改進的余弦相似度分類方法完成輪軌異常磨耗的識別。結果表明,該方法可有效識別混合疊加輪軌異常磨耗下的磨耗類型及磨耗程度,其中對疊加磨耗類型的識別準確率可達到97%以上,對疊加磨耗程度的識別準確率可達到92%以上。
關鍵詞:輪軌異常磨耗識別;時間序列符號化;余弦相似度度量;特征提取
中圖分類號:U216""""""""""""""""""""""""" 文獻標志碼:A""""""""""""""""" doi:10.3969/j.issn.1006-0316.2025.01.008
文章編號:1006-0316 (2025) 01-0052-07
Wheel-Rail Abnormal Wear Identification Method Based on SFA-Cosine Similarity
Abstract:The traditional methods for detecting abnormal wheel rail wear rely too much on manual experience and theoretical research, and the detection results are easily affected by subjective factors and theoretical limitations. This paper proposes a wheel rail abnormal wear recognition method based on symbolic Fourier (SFA) - cosine similarity. The vibration signal of the axle box is selected as the monitoring signal and the acceleration signal is segmented into time series. The original time series signal is divided into several subsequences to fully capture the time scale information of abnormal wheel rail wear. Then, the SFA time series symbolization method is used to convert the time-domain signals of several subsequences into symbol sequences, and the TF-IDF word frequency statistical method is used to extract features from the symbol sequences. Combined with improved cosine similarity, the feature extraction of the symbol sequences is carried out. The classification method is used to identify abnormal wheel rail wear. The results show that this method can effectively identify the types and degrees of wear under mixed superimposed wheel rail abnormal wear, with an accuracy rate of over 97% for identifying superimposed wear types and over 92% for identifying superimposed wear degrees.
Key words:wheel-rail abnormal wear identification;time series symbolization;cosine similarity measurement;feature extraction
目前,我國在列車檢測系統(tǒng)方面已做了大量的工作,傳統(tǒng)的輪軌異常磨耗檢測方法過于依賴于人工經驗和理論研究,檢測結果容易受主觀因素和理論局限性的影響,而基于數據驅動的方法可以利用大數據和機器學習算法,提高檢測的準確性,對輪軌異常磨耗情況進行實時監(jiān)測和分析,即時發(fā)現和預測輪軌磨耗的趨勢[1]。如何從龐大且復雜的數據中高效、精準地提取有價值的信息,是基于數據驅動的故障檢測任務領域需要解決的關鍵問題。
時間序列符號化實際上是對時間序列進行離散化,相當于一個“粗?;钡倪^程,能夠準確捕捉時間序列中包含的大尺度特征,同時減少各種噪聲對分析結果的影響,可以實現數據的降維[2]。已有大量研究學者對時間序列符號化分析方法進行研究,Lin等[3]提出了SAX符號化方法,該方法通過對值域采取分段聚合近似技術以及高斯分布等概率空間,將高維的時間序列轉換符號序列。該方法對具有一定周期性的數據表達的準確性較差。Chin等[4]提出了一種基于小波空間的符號化方法,該方法通過對數據進行小波變換并選取主頻片段,進而將系數進行離散化完成符號化轉換,這種方法的抗噪性較差。Sch?fer和H?gqvist[5]提出了一種基于離散傅里葉變換的符號化方法(SFA),該方法基于前幾個傅里葉系數對序列進行符號化,可以有效避免噪聲的干擾,具有更好的魯棒性和更高的準確性。也有一些學者結合多種符號化融合的方法來實現時間序列的符號化表示,例如,Nguyen和Ifrim[6]提出了一種新的時間序列分類器MrSQM,該方法使用多個符號表示方法來提取重要的時間序列特征。這種集成的方法雖然可以更準確地表示時間序列信息,但是時間復雜度亦隨之增加。
因此,考慮到輪軌異常磨耗信號的周期性,本文采用基于頻域的時間序列符號化表示方法來對其進行高效的特征提取,并在此基礎上采用一種簡單的分類方法實現輪軌異常磨耗狀態(tài)識別。
1 符號傅里葉(SFA)時間序列符號化方法基本理論
SFA時間序列符號化方法包括兩個階段:使用所有時間序列執(zhí)行的預處理階段和使用從預處理獲得的離散化對每個時間序列執(zhí)行的符號轉換階段[7]。
(1)預處理獲得離散化字母表刻度
通過離散傅里葉變換(DFT)將時間序列變換到頻域空間,假設給定一條有限長的離散序列t(n)={t0, t1,..., tn-1}(0≤n≤N-1),經離散傅里葉變換后為T(k),結合歐拉公式將DFT表示為:
式中:j為虛數單位。
傅里葉系數T(k)由實數部分和虛數部分組成,分別記作realk和imagk:
故而時間序列t(n)應用于SFA符號化表示方法中的傅里葉系數數值序列為:
DFT將時間序列分解為不同頻率的正弦函數和余弦函數的線性組合。前幾個基函數對應低頻成分,代表粗分布,后幾個基函數代表高頻成分,比如噪聲[8]。因此,僅使用前幾個傅里葉系數就可以很好地近似時間序列。
假設選擇前p個傅里葉系數來近似時間序列,即符號化編碼單詞長度為p,給定樣本數量m,字母表大小為α;將m個樣本的第i個傅里葉系數劃分為一組,共p組;對每一組進行離散化,即將該組傅里葉系數劃分為α個離散化區(qū)間,并保證離散化區(qū)間長度相同,每個區(qū)間對應一個字母,這樣就獲得了前p個系數的離散化字母表刻度。
(2)符號化轉換
對每一個時間序列樣本按照預處理獲得的離散化結果進行符號序列轉換,如圖1所示,為α=5的SFA符號化示意圖,若某樣本的前4個系數值落入圖示黃色區(qū)間,則該樣本的SFA單詞前四個字母為cbdc。
2 基于SFA-余弦相似度的輪軌異常磨耗識別方法
通過SFA方法可以深度高效挖掘時間序列中蘊含的信息,再利用簡單分類方法進行分類,無疑會提高輪軌異常磨耗識別的效率與精度。本文基于SFA-余弦相似度方法實現輪軌異常磨耗的識別,包括以下步驟:
(1)數據集的建立;
(2)時間序列分割;
(3)時間序列符號化表示;
(4)基于改進余弦相似度的符號化序列分類;
(5)輪軌異常磨耗識別。
2.1 數據集的建立
本文采用地鐵車輛的仿真數據,進行鋼軌波磨、車輪扁疤以及車輪多邊形的識別研究。把車輛各個部件視為剛體的鐵路車輛系統(tǒng)動力學模型通常適用頻率范圍在20 Hz之內,但對于輪軌異常磨耗以及由它們引起的動力學問題,往往和車輛-軌道系統(tǒng)的高頻振動特性密切相關,剛體模型不能反應實際運行的真實情況,柔性特性對車輛系統(tǒng)動力學性能的影響不容忽視[9-11]。本文基于剛柔耦合車輛系統(tǒng)動力學模型仿真模擬輪軌異常磨耗,采用柔性輪對、柔性鋼軌,并加入某實際軌道不平順譜,選擇軸箱垂向振動作為監(jiān)測信號,將其整理為兩個帶有標簽的數據集:混合輪軌異常磨耗疊加工況,按照疊加磨耗類型的不同劃分標簽;單類型磨耗工況,按照磨耗程度的不同劃分標簽。
2.2 時間序列分割
由于輪軌異常磨耗信號的復雜性,為了更好的捕捉時間尺度信息,提高時間序列符號化表示的準確度,本文采用滑動窗口對原始時間序列樣本進行切片分割,進而對每一片段應用時間序列符號化技術,最終獲得原始序列的若干個重疊子序列的符號化序列,如圖2所示。
大量實驗研究證明,滑動窗口大小和窗口滑動步長都會影響分割效果[12-13]。根據上述原理圖可知,滑動窗口的寬度w決定了每次觀測到的數據量,也就是每次采樣得到的樣本數據點的個數,滑動步長S決定了每次數據移動的步長,也就是每個滑動窗口所包含數據的更新程度以及歷史數據的刪除量?;瑒哟翱趦鹊臄祿慷嗌偻ǔQ定了計算效率,過小的窗口導致信息量不夠,樣本信息表示不準確,只能反應樣本的局部信息;相反地,過大的滑動窗口會包含過多的無用信息,導致信息冗余。因此,為了保證滑動窗口可以盡可能地適應數據的變化特性,盡可能地捕捉樣本的有效信息,需要設置合理的滑動窗口大小和滑動步長長度,本文將這兩個變量作為參數,利用網格搜索進行參數優(yōu)化,從而找到適用于本文輪軌異常磨耗數據的窗口大小和步長。
2.3 時間序列符號化表示
對滑動窗口分割后的每一子集應用SFA符號化表示技術,即可以實現用若干代表局部信息的字母組合表示原軸箱加速度時域信號。針對不同的任務,最優(yōu)符號編碼字長和最優(yōu)符號字母表大小亦會有所差別,結合輪軌異常磨耗信號特點,相關參數的意義分析如下:
(1)符號編碼字長代表每個編碼字符串的長度,也就是選擇的傅里葉系數的個數,字長過短會導致樣本信息表示不準確,過多會導致信息冗余,無法排除車輛運行中其他噪聲的干擾。
(2)符號字母表大小代表離散化時刻度劃分的數量,對于傅里葉系數波動范圍較大的數據需要設置較大的字母表,這樣有助于將代表不同信息的數據分離開,但也不可過大,刻度劃分過于詳細,無法排除噪聲干擾。理論上,較大的符號字母表可以無限接近原始實值型序列,但是過大的字母表會導致信息冗余,失去符號化表示的意義。
綜合來說,針對輪軌異常磨耗識別問題,進行時間序列分割和SFA符號化時需考慮:滑動窗口大小、滑動步長、符號編碼字長、符號字母表大小。根據對相關參數的意義分析,初判參數最優(yōu)參數取值范圍,利用網格搜索算法進行參數尋優(yōu)。
2.4 基于改進余弦相似度的符號化序列分類
本文提出一種結合TF- IDF詞頻統(tǒng)計方法的改進余弦相似度度量分類方法。余弦相似度是一種常見的相似性度量方法,該方法將兩向量間夾角的余弦值作為衡量指標[14-15],原則上利用余弦相似度度量方法進行預測樣本間的相似性度量時需要將待檢測樣本分別與已知類別的樣本進行比較,假設共p類輪軌異常磨耗信號,共m個已知類別的訓練樣本,共n個待檢測樣本,每個待檢測樣本分別與m個訓練樣本進行向量余弦值的求取,選擇其中余弦值較大訓練樣本類別作為新樣本的類別。這種傳統(tǒng)方法每次任務的計算量較大,需要n×m次向量余弦值計算。本文結合TF-IDF詞頻統(tǒng)計方法對傳統(tǒng)余弦相似度度量進行改進,將訓練樣本轉換后的字符串序列按照類別進行儲存,每一類樣本字符串統(tǒng)一進行TF-IDF詞頻統(tǒng)計,得到p個詞頻統(tǒng)計特征向量,這樣待比較樣本數量就從m個降為p個,這里p是遠小于m的。接下來測試樣本的類別判斷都是基于這p個詞頻特征向量進行的,這種方法雖然減少了相似度對比時的計算量,但是并沒有因此降低詞頻特征向量對原序列信息表達的有效性。
2.5 輪軌異常磨耗狀態(tài)識別
本文綜合時間序列符號化表示方法、時間序列分類算法,提出一種可用于輪軌異常磨耗識別的智能檢測方法,該智能檢測算法流程圖如圖3所示。
具體步驟如下:
(1)對于已知輪軌異常磨耗類型及程度的軸箱垂向加速度信號,將其按需求標記為不同類別并保存為訓練數據集用于字母表刻度的劃分。假設共m類輪軌異常磨耗,分別標記為C1,C2,…,Cm,每類磨耗對應的軸箱振動信號的樣本數量為Ni,m類磨耗共有N個訓練樣本。
(2)分別對N個訓練樣本進行離散傅里葉變換,將前幾個傅里葉系數進行離散化處理實現符號化,這樣就實現了從原始實值型時間序列到字符串序列的轉換。為了提取出符號序列的特征信息以用于后續(xù)分類,對其進行TF?IDF詞頻統(tǒng)計,并使用詞頻統(tǒng)計得到的詞頻向量來表示各個訓練樣本,并將其按照不同類別存儲為特征向量,例如m類軸箱振動信號將使用詞頻特征向量v1,v2,…,vm表示,后續(xù)輪軌異常磨耗識別均基于此結果進行對比判斷。
(3)將未知類別的軸箱垂向加速度信號利用步驟(2)中時間序列符號化方法和特征提取方法,將待診斷的振動信號用詞頻特征向量w表示。然后利用余弦相似性度量方法將特征向量w和訓練結果中的m個特征向量v1,v2,…,vm進行相似性度量,可以實現未知類別輪軌異常磨耗的檢測識別。
由于列車在實際運行過程中不僅僅會出現一種輪軌異常磨耗類型,可能會幾種磨耗疊加出現,本文磨耗檢測的思想是首先判斷未知樣本的輪軌異常磨耗類別,進而判斷其磨耗程度。
3 方法驗證
本文將基于車輛-軌道剛柔耦合動力學模型仿真得到的輪軌異常磨耗數據劃分成兩個數據集,數據集1為混合異常磨耗疊加工況,按照疊加磨耗類型的不同劃分標簽,如表1所示。數據集2為單類型磨耗工況,按照磨耗程度的不同劃分標簽,如表2所示。用多邊形、波磨、扁疤簡稱代表車輪多邊形、鋼軌波磨、車輪扁疤;D為多邊形階數;L為扁疤弦長;λ為波磨波長;h為波磨波深。
將數據集1中的部分數據作為測試集,將數據集1中其余的數據和數據集2利用前文所述的輪軌異常磨耗識別算法進行符號化,通過TF?IDF方法對符號化序列進行詞頻統(tǒng)計得到詞頻特征向,分別記作符號庫1和符號庫2。為了充分客觀地評價該輪軌異常磨耗識別算法
的分類效果,共進行10次試驗,為了避免訓練集和測試集的不同對字母刻度表劃分結果以及分類準確率的影響,每次試驗由程序從數據集的所有樣本中隨機的選擇測試集。
首先利用改進余弦相似性度量方法進行測試集與符號庫1(數據集1除測試集部分)的相似性對比,通過網格搜索對該方法涉及的參數進行參數優(yōu)化,選定字母表大小為6、單詞長度為8、滑動窗口大小為360以及窗口滑動步長為1。本文選擇準確率來評價分類結果,圖6給出了利用SFA?余弦相似性度量方法進行輪軌異常磨耗類型識別十次試驗的結果,其中類別1、2、3、4的平均準確率分別為99.59%、97.64%、98.82%、90.68%??梢姡摲椒梢杂行ёR別疊加輪軌異常磨耗下的磨耗類型,并且對于兩種磨耗疊加工況的識別效果較好。
將測試集1中確定為類別1的樣本記作標簽5,將確定為類別2的樣本記作標簽17,將確定為類別3的樣本記作標簽16,與符號庫2(數據集2)進行相似性對比,進一步確定磨耗程度,通過網格搜索設定字母表大小為4、單詞長度為7、滑動窗口大小為126以及窗口滑動步長為1。圖5給出了利用SFA-余弦相似性度量方法進行輪軌異常磨耗程度識別十次試驗的結果。其中類別5、17、16的平均準確率分別為96.71%、92.89%、92.67%。可見,對于鋼軌波磨程度的識別效果優(yōu)于其他兩類磨耗程度識別,該方法可以有效識別疊加輪軌異常磨耗下的磨耗程度。
4 結論
本文利用SFA時間序列符號化方法將軸箱振動信號實值序列轉化為符號序列,有效提取了原始序列的特征信息,并結合TF?IDF詞頻統(tǒng)計方法對余弦相似度分類方法進行改進。本文提出的SFA-余弦相似性度量方法可有效識別混合輪軌異常磨耗下的磨耗類型及磨耗程度,該方法的優(yōu)勢在于可以在輪軌異常磨耗診斷過程中,通過增加對已知類別信號的學習(包括增加已知類別樣本數量和新增未知類別樣本),來加強或者新建振動信號與輪軌異常磨耗的對應關系,不斷地提高分類算法的分類精度。
參考文獻:
[1]李勇潔. 基于數據驅動的地鐵車輪磨耗預測及應用研究[D]. 成都:西南交通大學,2022.
[2]張琪. 時間序列流數據異常檢測問題的研究[D]. 濟南:山東大學,2019.
[3]LIN J,KEOGH E,WEI L,et al. Experiencing SAX:a novel symbolic representation of time series[J]. Data Mining and knowledge discovery,2007(15):107-144.
[4]CHIN S C,RAY A,RAJAGOPALAN V. Symbolic time series analysis for anomaly detection: A comparative evaluation[J]. Signal Processing,2005,85(9):1859-1868.
[5]SCH?FER P,H?GQVIST M. SFA: a symbolic fourier approximation and index for similarity search in high dimensional datasets[C]. New York:Proceedings of the 15th international conference on extending database technology,2012:516-527.
[6]NGUYEN T L, IFRIM G. MRSQM: Fast time series classification with multiple symbolic representations and efficient sequence mining[J]. Arxiv preprint Arxiv, 2021, abs/2109.01036: n.pag.
[7]SCH?FER P. Scalable time series classification[J]. Data Mining and Knowledge Discovery,2016,30(5):1273-1298.
[8]PRESS W H. Numerical recipes 3rd edition:The art of scientific computing[M]. Cambridge:Cambridge university press,2007.
[9]ZHONG S,XAO X,WEN Z,et al. Effect of wheelset flexibility on wheel-rail contact behavior and a specific coupling of wheel-rail contact to flexible wheelset[J]. Acta MechanicaSinica,2016(32):252-264.
[10]張華鵬,吳蔚,徐夢楠,等. 實際運營條件下的地鐵鋼軌波磨試驗研究[J]. 機械,2023,50(6):40-47.
[11]展旭和,劉林,金瀟,等. 車輪磨耗影響下驅動系統(tǒng)對輪軌動態(tài)特性的影響研究[J]. 機械,2023,50(6):31-39.
[12]YAGOUBI D E,AKBARINIA R,KOLEV B,et al. ParCorr: efficient parallel methods to identify similar time series pairs across sliding windows[J]. Data Mining and Knowledge Discovery,2018(32):1481-1507.
[13]REN L,WEI Y,CUI J,et al. A sliding window-based multi-stage clustering and probabilistic forecasting approach for large multivariate time series data[J]. Journal of Statistical Computation and Simulation,2017,87(13):2494-2508.
[14]葉英杰,竇杰. 基于余弦相似度的分類定位一致性損失[J]. 電光與控制,2023,30(11):41-48.
[15]武永亮,趙書良,李長鏡,等. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學報,2017,31(5):138-145.