(公安部第一研究所,北京 102200)
自1928年由印度科學(xué)家C.V. Raman發(fā)現(xiàn)拉曼光譜以來,尤其近幾十年基于拉曼散射效應(yīng)所建立起來的分子結(jié)構(gòu)表征技術(shù)融合激光技術(shù)獲得了蓬勃的發(fā)展,伴隨儀器技術(shù)與激光技術(shù)的發(fā)展,基本解決了多年存在的拉曼散射信號弱的問題?,F(xiàn)代拉曼光譜分析技術(shù)因其無需制樣、無損、快速、信息豐富、水干擾小、可重復(fù)、靈敏度高、強(qiáng)穩(wěn)定性及高分辨率等眾多優(yōu)點,拉曼光譜儀已成為分析化學(xué)及工業(yè)、安檢及反恐等領(lǐng)域物質(zhì)結(jié)構(gòu)信息測定與快速識別鑒定的有效技術(shù)裝備[1-6]。
拉曼光譜是激發(fā)光照射到物質(zhì)上發(fā)生的非彈性散射,與分子的振動轉(zhuǎn)動能級有關(guān),和分子結(jié)構(gòu)緊密相關(guān)。拉曼散射普遍存在于一切分子中,拉曼光譜對不同的物質(zhì)具有不同的特征光譜,是一種能表征分子結(jié)構(gòu)信息的指紋光譜。拉曼光譜信息蘊(yùn)藏于拉曼譜峰之中,譜峰的位置和強(qiáng)弱可以靈敏地反映物質(zhì)的結(jié)構(gòu)、相應(yīng)分子的濃度以及變化信息,利用拉曼光譜可進(jìn)行物質(zhì)的檢測和識別。一方面,拉曼光譜與分子結(jié)構(gòu)的密切關(guān)系使得拉曼光譜具有進(jìn)行定性并對相似物質(zhì)進(jìn)行區(qū)分的功能;另一方面,拉曼光譜的峰強(qiáng)度與相應(yīng)分子的濃度呈線性關(guān)系,拉曼光譜也能用于待測物質(zhì)成分的定量分析。
盡管拉曼光譜技術(shù)具有諸多其它光譜方法無法比擬的優(yōu)勢,“硬手段”層面上的障礙總有一些是難以消除的,現(xiàn)代拉曼光譜儀器也還存在信號較弱的現(xiàn)象、拉曼光譜尖銳特征譜峰與在線拉曼宇宙射線體現(xiàn)的spike混淆、噪聲高頻帶與有用信號高頻帶亦發(fā)生重疊等,而噪聲的存在勢必影響拉曼光譜譜峰識別及其定性與定量分析。因此,需“軟方法”摒棄“硬手段”的固有缺陷,發(fā)展高性能數(shù)據(jù)處理方法,進(jìn)而提高拉曼光譜儀器系統(tǒng)檢測性能[7-12]。本研究通過分析拉曼光譜儀噪聲信號數(shù)據(jù)特點,利用噪聲本身固有的無規(guī)則上下頻繁跳動的特性,合理篩選、解析提取噪聲數(shù)據(jù)段,提出了一種快速簡易的噪聲閾值實時計算方法,為后續(xù)儀器獲取待測物質(zhì)拉曼光譜特征提供可靠的自適應(yīng)閾值判別依據(jù)。
從理論上講,拉曼光譜儀器所采集的待測物質(zhì)的譜圖可分解為:譜峰、基線、期望值為0的隨機(jī)噪聲共三部分,即
拉曼譜圖信號=拉曼譜峰+基線+期望值為0的隨機(jī)噪聲
其中,拉曼譜峰信號為所要提取的有用信息,具有特定的位置和大小,由此可提供最終的定性、定量分析結(jié)果;基線是在沒有分析樣品情況下儀器系統(tǒng)的本底信號,主要來自容器與物質(zhì)受激產(chǎn)生的熒光背景;噪聲信號主要來自雜散光與儀器硬件系統(tǒng)等,它不同于基線與譜峰,無固定性態(tài)有不確定性,以不同頻率形式存在于譜圖之中。
一般而言,原始信號在譜峰信號段呈分段單調(diào)性,被譜峰信號淹沒的噪聲難以從中分離解析,因此需從譜峰信號段及若干信號奇異段(如常數(shù)值信號段及與部分譜峰信號混合段)之外合理篩選噪聲數(shù)據(jù)段,以獲取噪聲其不確定性中所隱含著的確定的統(tǒng)計規(guī)律。為此,首先對本幅譜圖信號從左到右分割成若干個定長的數(shù)據(jù)段,利用噪聲本身固有的無規(guī)則上下頻繁跳動的特性,通過統(tǒng)計每一數(shù)據(jù)段跳動出現(xiàn)的次數(shù),根據(jù)跳動次數(shù)閾值從譜峰信號段之外合理篩選噪聲數(shù)據(jù)段,示例如圖1。
進(jìn)一步,通過對所提取的各數(shù)據(jù)段進(jìn)行線性回歸,計算得到各區(qū)間段噪聲相應(yīng)的統(tǒng)計值;最后,結(jié)合儀器檢測系統(tǒng)信號特點,選擇噪聲值最小值適當(dāng)?shù)谋稊?shù),確定為該幅拉曼譜圖的噪聲閾值,該閾值作為自適應(yīng)閾值可用于峰判斷,為最終獲取拉曼光譜特征提供可靠的判別依據(jù)。
本研究所設(shè)計的噪聲閾值算法,采用從左到右逐一滑動等長窗口,計算各窗口信號上下跳動次數(shù),根據(jù)跳動次數(shù)閾值BeatTimesThreshold解析提取噪聲數(shù)據(jù)段,然后對所提取的噪聲數(shù)據(jù)段通過線性回歸值確定噪聲值。
該算法共有3個參數(shù)即數(shù)據(jù)窗口的寬度WindowSize、窗口信號上下跳動次數(shù)閾值BeatTimesThreshold與噪聲值倍數(shù)閾值BeatTimesThreshold,算法參數(shù)選項見表1。
表1 算法參數(shù)選項表
關(guān)于噪聲閾值確定算法的實現(xiàn),請參看流程圖2。
圖2 噪聲閾值計算程序流程圖
根據(jù)上述噪聲閾值確定算法和程序流程圖,利用Matlab編程實現(xiàn)了該算法,為限于篇幅具體程序省略?,F(xiàn)設(shè)置噪聲值倍數(shù)閾值NoiseTimesThreshold=3,數(shù)據(jù)窗口寬度WindowSize=50及BeatTimesThreshold=20,對一幅拉曼譜圖原始信號采用所編寫的程序進(jìn)行噪聲閾值計算,本示例噪聲分析仿真結(jié)果如表2及圖3所示。
表2 噪聲值結(jié)果
續(xù)表2
圖3 仿真結(jié)果顯示圖WindowSize=50;BeatTimesThreshold=20
表2中第一列“序號”為本示例所提取的各噪聲段相應(yīng)的原始信號等長分段序列號,噪聲值1、噪聲值2分別為基于漂移線性回歸的最大峰與最小峰的距離、校準(zhǔn)偏差值,漂移為線性回歸的斜率。
噪聲分析采用了噪聲值1即基于漂移線性回歸的最大峰與最小峰的距離,最小噪聲值為853.4,噪聲閾值為最小噪聲值的3倍。
本示例最大噪聲值對應(yīng)的噪聲段實際上有一真實峰,最大噪聲值為8818.2,為最小噪聲值的10倍之多,噪聲閾值作為自適應(yīng)閾值峰判斷依據(jù),可區(qū)分拉曼譜圖噪聲高頻帶與有用信號高頻帶。
通過以上及多組仿真實驗結(jié)果分析可得:①采用本文設(shè)計的算法進(jìn)行數(shù)據(jù)處理,根據(jù)信號上下跳動次數(shù)閾值所篩選的噪聲段合理,噪聲閾值計算結(jié)果能區(qū)分噪聲高頻帶與有用信號高頻帶;②基于多參數(shù)選項的算法更加靈活實用,可通過選擇適當(dāng)?shù)膮?shù)值優(yōu)化應(yīng)用效果;③噪聲值1(漂移線性回歸的最大峰與最小峰的距離)、噪聲值2(漂移線性回歸的校準(zhǔn)偏差值)之比值大約范圍為3~6,在實用中可根據(jù)儀器信號系統(tǒng)選擇噪聲值1或噪聲值2之一即可。
本研究所提出的噪聲閾值計算方法具備如下幾個特點:(1)快速簡易、獨立性非常強(qiáng),無需平滑與去基線等前處理,直接對時間域信號提取能獨立反映噪聲信號隨機(jī)特性的信號段,從而快速確定拉曼譜圖信號噪聲閾值;(2)靈活易用、穩(wěn)健高效,因該算法含有多個參數(shù)選項,結(jié)合拉曼光譜儀信號系統(tǒng)特性,根據(jù)算法參數(shù)值選擇準(zhǔn)則和經(jīng)驗,選擇適當(dāng)?shù)膮?shù)值(數(shù)據(jù)窗口寬度WindowSize、窗口信號上下跳動次數(shù)閾值BeatTimesThreshold與噪聲值倍數(shù)閾值BeatTimesThreshold)可優(yōu)化應(yīng)用效果;(3)通過設(shè)置適當(dāng)?shù)乃惴▍?shù)值,可解決因噪聲高頻帶與有用信號高頻帶發(fā)生重疊所引起的拉曼譜峰漏判誤判問題;(4)可為拉曼光譜儀提供實時在線監(jiān)控噪聲檢測結(jié)果與故障診斷相應(yīng)信息;(5)為儀器獲取待測物質(zhì)拉曼光譜特征、后續(xù)譜圖數(shù)據(jù)處理峰識別提供可靠的自適應(yīng)閾值判別依據(jù)。
通過以上理論分析和眾多仿真實驗反復(fù)驗證,該算法是一種靈活實用、快速簡易的高效算法。