左佳倩, 王紅球, 譚玲玉, 田 睿, 王康琳, 李 勃
引入新型實驗技術(shù)和儀器是實現(xiàn)出入境特殊物品的快速無損檢測的理想方式,拉曼光譜技術(shù)由于具有無需對樣品進(jìn)行預(yù)處理、測試時間短等優(yōu)點(diǎn),常用于物質(zhì)結(jié)構(gòu)及成分分析[1]。史永剛等人[2]采用歐氏距離、馬氏距離、切比雪夫距離等拉曼光譜識別中常用的距離測量方法,結(jié)合相似性函數(shù),利用物質(zhì)圖譜與標(biāo)準(zhǔn)物圖譜中每個譜峰的位置差進(jìn)行物質(zhì)識別,方法可用于實驗室中化學(xué)物質(zhì)的取樣檢測,不適用于復(fù)雜包裝下商品化物質(zhì)的識別和檢測。賈南南等人[3]提出了將投影算法的判定標(biāo)準(zhǔn)由待測物質(zhì)光譜的量測誤差大小是否在限定水平,改進(jìn)為待測物質(zhì)光譜與標(biāo)準(zhǔn)物質(zhì)光譜的量測誤差大小水平是否相當(dāng)、量測誤差分布是否相近,改進(jìn)的投影算法,有助于實現(xiàn)對阿司匹林等特定藥品的快速鑒別,但并不適用于液體藥品,不具有藥品快速鑒別的普適性。陳秀麗等人[4]提出了基于主成分分析(principal components analysis,PCA)和反向傳播(back propagation,BP)網(wǎng)絡(luò)預(yù)測模型相結(jié)合的拉曼光譜技術(shù),實現(xiàn)了地中海貧血紅細(xì)胞的判定,該分析方法在算法訓(xùn)練過程中易陷入局部誤差,且僅適用于特殊細(xì)胞的實驗室檢測,暫不適用于實際應(yīng)用。章穎強(qiáng)等人[5]提出了基于多重迭代優(yōu)化的最小二乘支持向量機(jī)(support vector machine,SVM)模型,采用求解線性方程組的方法替代SVM中的凸優(yōu)化問題,降低了計算復(fù)雜度,實現(xiàn)了橄欖油摻偽的識別。王磊等人[6]提出了一種采用表面增強(qiáng)拉曼光譜技術(shù),通過自適應(yīng)平滑濾波器和結(jié)合小波變化的SVM分類器,減少拉曼特征峰強(qiáng)度,并通過小波變換實現(xiàn)數(shù)據(jù)降維,實現(xiàn)了對常見毒品的識別。上述針對拉曼光譜的算法改進(jìn)均可實現(xiàn)一定實驗條件下某類物質(zhì)的特征識別,對于復(fù)雜包裝干擾或高熒光干擾下的物質(zhì)識別存在一定的局限,也無法實現(xiàn)針對被檢物質(zhì)的無損快速識別。
本文采用拉曼光譜技術(shù)結(jié)合SVM改進(jìn)算法,通過采用相關(guān)系數(shù)對待檢物品與標(biāo)準(zhǔn)品進(jìn)行相似性度量;針對性提出了改進(jìn)的SVM算法,對相關(guān)系數(shù)低于閾值的待檢物進(jìn)行分類處理,對高維向量進(jìn)行降維處理,提升識別準(zhǔn)確性,該方法可為檢驗檢疫領(lǐng)域出入境特殊物品的快速無損查驗提供有效的輔助手段。
拉曼光譜識別技術(shù)是對待檢物進(jìn)行分類和識別的應(yīng)用技術(shù)[7]?;舅枷胧牵和瓿晒庾V預(yù)處理及特征提取后,得到能夠反映物質(zhì)組成的關(guān)鍵信息,提取光譜信號中所包含的光譜信息,按照光譜信息差異對待檢測物質(zhì)進(jìn)行分類[8]。在物品識別中,相似性度量[9]是一種常用的簡單且有效的方法。其中,相關(guān)系數(shù)(correlation coefficient)是研究變量間線性相關(guān)程度的量,是一種衡量向量間相互關(guān)系的方法。設(shè)有特征向量X=(x1,x2,…,xn),Y=(y1,y2,…,yn),相關(guān)系數(shù)r定義如下
(1)
選用相關(guān)系數(shù)作為相似性度量的判斷依據(jù),避免了歐氏距離對信息的丟失和馬氏距離對微小偏差的放大作用。因此,本文采用相關(guān)系數(shù),對算法進(jìn)行補(bǔ)充驗證。
拉曼光譜測量中由于樣品均勻性差異,儀器噪聲、熒光背景等使得光譜產(chǎn)生偏差[10];在光譜處理過程中,去噪、基線校正等也會產(chǎn)生誤差[11]。在識別過程中僅采用相關(guān)系數(shù)進(jìn)行物質(zhì)的特征識別的準(zhǔn)確率不高,因此,引入了SVM對略低于閾值的待檢物進(jìn)行物品分類。
SVM是一個二分類模型,其基本模型定義為特征空間上間隔最大的線性分類器。其原理如圖1所示。設(shè)訓(xùn)練樣本集X為xi,i=1,2,…,N,樣本分屬兩類,w1和w2,且線性可分。線性判別函數(shù)l的一般形式為:g(x)=w·x+b,但該超平面并不唯一。因此,SVM的分類識別問題轉(zhuǎn)化為尋找最大間隔的分類超平面問題。在該過程中,對距離超平面l0最近的樣本進(jìn)行歸一化處理,這樣Gap/2=2/‖w‖ ,則有線性可分類SVM的優(yōu)化函數(shù)為
s.t.yi(w·xi+b)≥1,i=1,2,…,n
(2)
圖1 SVM原理示意
由于拉曼光譜在經(jīng)過預(yù)處理后,得到高維向量用以表征待識別物質(zhì)。在直接采用高維向量進(jìn)行識別分類的過程中,訓(xùn)練學(xué)習(xí)時間過程較長。為了改變這一問題,在采用SVM進(jìn)行識別的過程中,首先對于拉曼光譜進(jìn)行一定的稀疏變換[12],具體運(yùn)算包括:
1)建立特殊物品標(biāo)準(zhǔn)數(shù)據(jù)庫,即由標(biāo)準(zhǔn)庫得到光譜信息的主成分M;
2)對特殊物質(zhì)的光譜信息y進(jìn)行重構(gòu),y′=Mc,如式(3)所示,即用M的有限子集對光譜信息進(jìn)行表示,且c的非零元素個數(shù)固定,實現(xiàn)拉曼光譜高維且稀疏表示
(3)
改進(jìn)后的SVM實現(xiàn)了對光譜的高維且稀疏表達(dá),增強(qiáng)了光譜信息的可區(qū)分性,可采用線性核SVM實現(xiàn),使訓(xùn)練和測試速度更快,且所需的存儲空間更少,在訓(xùn)練學(xué)習(xí)過程中減少時間。
圖2為雙氧水、乙醇2種物質(zhì)的拉曼光譜;圖3為k=2,3時按照改進(jìn)SVM對拉曼光譜進(jìn)行稀疏且高維的表示。與原始光譜比較,稀疏后光譜呈現(xiàn)明顯的聚集特征,為正確查驗奠定堅實基礎(chǔ)。
圖2 雙氧水和乙醇的拉曼光譜
圖3 不同k值時拉曼光譜稀疏表示
分類器的建立過程主要包括3個步驟,以二分類為例:1)選取適量樣本作為訓(xùn)練樣本,對樣本進(jìn)行測量得到拉曼光譜,經(jīng)過基線校正、去噪、歸一化后得到訓(xùn)練樣本數(shù)據(jù);2)將訓(xùn)練樣本分為正樣本和負(fù)樣本,其中正樣本即為某種待測物質(zhì)的光譜信息,負(fù)樣本為非待測物質(zhì)的光譜信息;3)通過對光譜進(jìn)行稀疏表示得到高維且稀疏的光譜信息,采用SVM進(jìn)行模型建立,得到分類器。
實驗隨機(jī)抽取北京市出入境檢驗檢疫局日常查驗過程中的380種入境特殊物品進(jìn)行拉曼譜圖采集和SVM算法驗證實驗。統(tǒng)計380種出入境特殊物品物質(zhì)種類,其中,血液制品、抗體、病毒、培養(yǎng)基、緩沖液及其他所占比例分別為29.3 %,26.4 %,11.2 %,15.6 %,10.8 %及6.7 %。
實驗所用儀器為同方威視技術(shù)股份有限公司RT6000手持式拉曼光譜儀,激發(fā)波長785 nm;分辨率6~9 cm-1;波數(shù)范圍為200~3 200 cm-1。
改進(jìn)SVM的準(zhǔn)確性驗證包括2個方面,對于識別結(jié)果與真實值相同的物質(zhì)判斷為正確(pass),與真實值不同的物質(zhì)判別為錯誤(fail)。應(yīng)用測試樣本對模型的準(zhǔn)確性進(jìn)行驗證。具體流程如圖4所示。
圖4 改進(jìn)SVM的模型驗證
運(yùn)用改進(jìn)的SVM對所有的測試樣本進(jìn)行分析,其中共有6類物質(zhì),包括血液制品、病毒、抗體等。對采用相似性度量,與改進(jìn)SVM算法進(jìn)行物質(zhì)的符合性查驗的匹配率進(jìn)行統(tǒng)計。依次選取閾值為0.86,0.88,0.90,查驗結(jié)果如圖5所示。
圖5 不同算法查驗結(jié)果
通過對比圖5 (a)~圖5(c),圖5(d)~圖5(f)可知,在增大閾值時,符合性查驗的準(zhǔn)確率逐漸下降。由于溫度、機(jī)械噪聲、采集位點(diǎn)等差異,使得同類物質(zhì)譜圖信息存在一定的差異。因此,降低物質(zhì)與樣本相似度,在增大閾值時,查驗的準(zhǔn)確率下降。對比圖5(a)和圖5(d),圖5(b)和圖5(e),圖5(c)和圖5(f)可知,在選取相同閾值時,改進(jìn)SVM的查驗準(zhǔn)確率均優(yōu)于相似性度量的查驗準(zhǔn)確率。首先,通過對光譜信息的稀疏編碼,實現(xiàn)光譜信息較完整的高維稀疏表示,為采用SVM進(jìn)行查驗提供良好的基礎(chǔ);其次,運(yùn)用SVM尋找物質(zhì)間的最大幾何間隔,在查驗過程中,保證經(jīng)驗風(fēng)險最小,降低置信風(fēng)險,實現(xiàn)了在查驗中的真實風(fēng)險最小化。因此,在選取相同閾值時,改進(jìn)SVM優(yōu)于相似性度量查驗。
將SVM分類算法引入拉曼光譜分類識別中,在出入境特殊物品的特征識別方面具有較高的準(zhǔn)確性和可靠性;同時,采用改進(jìn)SVM對所得到的高維向量進(jìn)行降維處理,縮小了SVM的訓(xùn)練學(xué)習(xí)時間,提高了特征光譜分類識別準(zhǔn)確性。改進(jìn)SVM識別算法有望為檢驗檢疫領(lǐng)域出入境特殊
物品的無損快速檢測提供有效的輔助手段。為實現(xiàn)這一目標(biāo),一方面,需進(jìn)一步進(jìn)行出入境特殊物品的拉曼譜圖的采集工作,建立針對性數(shù)據(jù)庫;另一方面,需結(jié)合改進(jìn)SVM識別算法對便攜式拉曼光譜設(shè)備進(jìn)行針對性的設(shè)計和改進(jìn)。此外,基于改進(jìn)SVM的拉曼光譜識別算法也為復(fù)雜包裝干擾、高熒光干擾等難以采用拉曼光譜技術(shù)直接檢測的物質(zhì)檢測提供了新的思路,有望應(yīng)用于藥物快速檢測、生物樣品篩查等領(lǐng)域。
參考文獻(xiàn):
[1] 朱 倩,程明霄,丁 妍,等.基于拉曼光譜CCD信號的譜峰識別技術(shù)研究[J].傳感器與微系統(tǒng),2012,31(12):12-15.
[2] 史永剛,王國民,李華峰,等.激光拉曼光譜相似性測度方法[J].現(xiàn)代科學(xué)儀器,2011(4):117-120.
[3] 賈南南,季 江,高鵬飛,等.基于拉曼光譜的改進(jìn)投影算法快速鑒別藥品[J].光譜學(xué)與光譜分析,2015(5):1271-1275.
[4] 陳秀麗,王桂文,陶站華,等.基于PCA和BP網(wǎng)絡(luò)的地中海貧血紅細(xì)胞拉曼光譜判別[J].中國激光,2009,36(9):2448-2454.
[5] 章穎強(qiáng),董 偉,張 冰,等.基于拉曼光譜和最小二乘支持向量機(jī)的橄欖油摻偽檢測方法研究[J].光譜學(xué)與光譜分析,2012,32(6):1554-1558.
[6] 王 磊,郭淑霞,戴吟臻,等.尿液中常見毒品微量檢測的表面增強(qiáng)拉曼光譜識別[J].分析化學(xué),2015(1):33-39.
[7] 高武斌,凌云漢,孫加林.Au納米粒子修飾納米片狀結(jié)構(gòu)襯底的SERS研究[J].傳感器與微系統(tǒng),2013,32(4):9-11.
[8] 朱 倩,程明霄,丁 妍,等.基于拉曼光譜CCD信號的譜峰識別技術(shù)研究[J].傳感器與微系統(tǒng),2012,31(12):12-15.
[9] 陳歡歡,黃 劍,王 楷,等.基于節(jié)點(diǎn)相似性的WSNs故障檢測方法研究[J].傳感器與微系統(tǒng),2014,33(4):10-13.
[10] 高國明,李 雪,覃宗定,等.消除拉曼光譜熒光背景的新方法及其應(yīng)用[J].光學(xué)學(xué)報,2013(2):258-266.
[11] 胡衛(wèi)軍.基于塑料光纖的Cd(Ⅱ)傳感器吸收光譜信號處理研究[J].傳感器與微系統(tǒng),2015,34(9):11-12.
[12] 馮瑩瑩,程向陽,鄧 明.基于稀疏表示的信號DOA估計[J].計算機(jī)應(yīng)用研究,2013,30(2):537-540.