樊迪,王樂新,楊蔚然,譚可麗,邱潤澤
(1.黑龍江八一農(nóng)墾大學信息技術學院,大慶163319;2.黑龍江八一農(nóng)墾大學理學院)
N
基于分形維數(shù)差模法的熒光光譜識別
樊迪1,王樂新2,楊蔚然1,譚可麗1,邱潤澤1
(1.黑龍江八一農(nóng)墾大學信息技術學院,大慶163319;2.黑龍江八一農(nóng)墾大學理學院)
提出一種基于分形理論的光譜分形特征識別光譜曲線的分析方法,選取50個待測血清樣品,分別測量血清樣品在波長為260、290、350和580 nm激發(fā)光下產(chǎn)生的熒光光譜。應用分形理論計算光譜曲線的分形維數(shù),利用分形維數(shù)的差模識別不同血清(正常、高甘油三脂、高膽固醇、高血糖)的熒光光譜。結果表明,高甘油三脂血清光譜識別率88%,高膽固醇血清識別率81%,正常血清識別率為75%,高血糖血清識別率為60%,為分形理論在光譜識別上應用作了初步探索。
分形理論;光譜識別;差模;血清
近年來,許多學者用自體熒光光譜法對各種組織進行光譜檢測,并用特征峰和熒光強度來區(qū)別光譜的特性。隨著光譜學和計算機技術的發(fā)展,光譜識別已成為光譜分析技術的重要組成部分。光譜識別都是以整個光譜作為研究對象,考慮各種因素的變化在光譜中引起的差異進行的識別。史曉鳳等[1]用最小二乘法分析自體熒光光譜識別胃癌。王玉田[2]利用小波神經(jīng)網(wǎng)絡、蟻群算法、同步-導數(shù)熒光光譜法對多組分混合農(nóng)藥的熒光光譜進行分類識別,取得較好的效果。職統(tǒng)興[3]采用主成分回歸和熒光光譜結合技術,對混合體系中的蒽和芘進行同時測定并進行定量分析。朱殿明[4]用雙正交樣條小波對人血清血卟啉熒光光譜的識別。張平[5]基于分形理論提出了一種新的太赫茲光譜識別方法通過這種方法使不同的藥品得到了很好的鑒別。熊宇虹[6]提出了以分形維數(shù)作為光譜識別特征的方法,運用相空間重構得出了光譜信號的分形維數(shù),達到識別不同光譜的目的。Ramanujam等應用主成分法結合后退法區(qū)分正常和發(fā)炎的鱗狀上皮細胞[7];Wang等[8]將偏最小二乘法應用到口腔癌的光譜分析中,并將偏最小二乘法與人工神經(jīng)網(wǎng)絡法合起來,對口腔癌進行分期;Eker等用主成分法、偏最小二乘法分別對喉部組織的自體熒光光譜進行計算[9]。嚴拯宇等[10]應用人工神經(jīng)網(wǎng)絡研究紫外光譜中的Zn、Cu、Co含量,陳秀麗[11]等用主成分和BP網(wǎng)絡對地中海貧血紅細胞拉曼光譜進行了識別。從光譜識別的基本過程來看,光譜信號特征的選擇和提取是光譜識別的前提。對單組分光譜信號而言,組分單一,因而信號波形也較簡單,選取波形特征點就可以方便地達到比較識別的目的;對于復雜組分的光譜信號而言,成分復雜,因而信號波形也較復雜,選取適當?shù)奶卣饕簿统闪苏_識別的關鍵[12]。特征提取的目的是用較低的維數(shù)表示高維數(shù)據(jù),并且盡可能地保持它們之間的距離,從而大大降低對它們進行各項操作的計算復雜度使數(shù)據(jù)更易觀察,數(shù)據(jù)的關系更易識別。從分形理論入手,初步研究了正常和異常血清熒光光譜的識別,為光譜識別方法開辟了一個新的途徑。
1.1 分形維數(shù)
分形維數(shù)是對非光滑、非規(guī)則、破碎的等極其復雜的分形客體進行定量刻劃的重要參數(shù),是分形的一個重要特征數(shù),表征了分形體的復雜程度、粗糙程度[13]。假設一組單變量時間間隔為△t的時間序列
耗散系統(tǒng)的吸引子就包含在這個時間序列中。按時間序列的數(shù)據(jù),重構一個m維的相空間,就得到下面的相型分布:
其中τ=k△t(k=1,2,……)為延滯時間,X(ti)為相點,它有m個分量,且對應于(1)式中的每一列元素:y(ti)y(ti+τ)…y(ti+(m-1)τ)。上述的(n-(m-1)τ個相點在m維空間構成一個相型。按時間增長的順序用線將各相點連起來,它即成為描述系統(tǒng)在m維相空間的演化軌跡。τ的取值必須足夠大,才能保證上述各坐標分量之間的線性獨立性。
考慮m維相空間中任意兩個相點
式中|ti-tj|>τ記相點之間的距離為rij=‖Xm(ti)-Xm(tj)‖,i、j=1、2、…m。任意給定一實數(shù)r,則N1(r)為rij 上式中的指數(shù)D是一種維數(shù),實際上D是關聯(lián)維數(shù)D2的很好逼近。D2的嚴格定義為 N 對某一給定的m,畫出lnr-lnCr曲線,除去斜率為0或m的直線外考察其間的最佳擬合直線,該直線的斜率就是D,為了選擇合適的m值,增大m,通常D也有所改變,到一定的m,此時D趨近于不變,m就是最小嵌入維數(shù)。 1.2 差模比較法 實驗測出樣品光譜的數(shù)據(jù)后,求出每組數(shù)據(jù)對應的平均數(shù),對平均數(shù)做平滑處理,平滑算法為[13]: 式中:yk,y*k分別為第k點(中心點)的平滑前后的值;ai為平滑系數(shù)(或權重),“窗口”寬度為2r+1個點,在窗口內(nèi)進行加權平均,平均區(qū)段是逐點后移的。然后再將平滑處理得到的數(shù)據(jù)進行標準化處理: 式中:xˉ是xi的樣本均值;s是xi的樣本標準差。 在相同的標準下比較樣本與標準的相近程度,通過觀察樣本與標準的相近程度得出樣本的具體分類,但當數(shù)據(jù)非常多時,這樣比較很難準確快速的得出樣本的分類,利用差模法可以快速簡便的得出結果,其算法為: 其中n表示有共有n個類別,m表示每個類別又有m個標準,X[n×m]表示標準尺度,λ[n×m]表示樣本的m個標準的值被擴展為n行,γ[n×1]表示樣本的差模值共有n行1列,每行與標準中的每行對應,取其中最小數(shù)所對應行的類別便為該樣本的類別。 假設訓練集有C類,其中第i類的j標準用αij表示,包含Nij個樣本,xmij是一個d維列向量,表示第i類的j標準中第m個樣本。第i類j標準樣本的均值;第i類jj標準的平滑后數(shù)據(jù)ηij;第i類的j標準的樣本均值μij。 在進行特征提取之前先構造數(shù)據(jù)矩陣Mij(j=高膽固醇、高血糖、高甘油三脂、正常,i=260、290、350和580 nm)高膽固醇數(shù)據(jù)樣本矩陣,高血糖數(shù)據(jù)樣本矩陣,高甘油三脂數(shù)據(jù)樣本矩陣,正常數(shù)據(jù)樣本矩陣,矩陣各列代表了一組樣本在各特定波長處的自體熒光光譜強度值。特征提取的具體步驟如下: 步驟1由以上第i類jj標準的數(shù)據(jù)矩陣Mij求出第i類的j標準的樣本均值μij; 步驟2利用平滑移動算法對第i類的j標準的樣本均值μij得出第i類j標準的平滑后數(shù)據(jù)ηij; mi=5,5,4,3表示260 nm,290 nm特征波長進行5點平滑移動,對350 nm特征波長段進行4點平滑處理,對580 nm進行3點平滑處理,選取不同的平滑移動只為數(shù)據(jù)的簡化處理,但不能取太少的數(shù)據(jù),以減少失真度。平移后第i類j標準的數(shù)據(jù)個數(shù)變?yōu)椋?/p> 步驟3將第i類j標準的平滑后數(shù)據(jù)ηij的數(shù)據(jù)進行標準化處理得到第i類j標準的標準化數(shù)據(jù)ωij; 步驟4利用分型維數(shù)中的關聯(lián)維數(shù)的計算方法算出第i類j標準的分型維數(shù)τij,通過整理得到了不同特征光譜的標準矩陣τ; 步驟5對某一待測樣本b按照步驟2,3的處理同樣可得到標準化后的數(shù)據(jù),在利用的分型維數(shù)中的關聯(lián)維數(shù)計算的方法得出第i類j標準的分型維數(shù)τbωb; 步驟6利用(8)式的差模比較法可以得出樣本b的所屬類別; 步驟7對所有選取的待測樣本重復步驟5,6就可以得出所有選取樣本的類別。 3.1 標準的產(chǎn)生 實驗儀器選用日本島津公司生產(chǎn)的RF-5301PC熒光分光光度計。在校醫(yī)院的配合下,采集了50位空腹成年男性的血液,并測試其生化指標用于制備實驗樣品。在室溫下用熒光光度計測量各組樣品的熒光光譜,測量時用比色皿取3 mL樣品進行測試,激發(fā)波長(λEX)選用260、290、350和580 nm,掃描間隔1 nm,采用中速自動掃描。對實驗所測的光譜數(shù)據(jù)進行預處理,并按照要求進行分類總結,將同一種病癥(如高血脂)的特征波長數(shù)據(jù)匯總到同一個表格中去。首先求出所有樣品在不同特征波長處一系列數(shù)據(jù)的平均值;再對數(shù)據(jù)進行平滑移動相應的移動步長;將平滑后的數(shù)據(jù)進行標準化,并將所有標準化后的數(shù)據(jù)進行相空間重構,利用關聯(lián)維數(shù)的計算方法,設計出相應的計算程序,求出每個不同癥狀樣品在特征波長處的分形維數(shù)。通過計算每個特征波長分形維數(shù)最終都達到了穩(wěn)定,即直線的斜率不再改變時即為該特征波長下分形維數(shù),分別計算不同血清光譜分形維數(shù)后得到光譜識別的參考標準,見表1。 3.2 光譜識別 將選取的所有待識別樣本按照算法分析的步驟進行處理,最后在不同的特征波長處選取同表1中相同的特征波長的插入維數(shù)以及r的取值范圍,得出樣本的各個特征波長處的分形維數(shù),按照標準進行差模比較可得出各樣本的病癥情況。以2號待識別樣本癥狀的確定為例,說明光譜的識別過程。將2號待識別樣本按照算法分析的步驟進行數(shù)據(jù)處理,計算出樣本在260 nm、290 nm、350 nm、580 nm波長激發(fā)下光譜對應的分形維數(shù)為[1.05 0.98 0.85 0.96],然后與表1中不同血清的參考分形維數(shù)進行差模比較,結果中數(shù)值最小的數(shù)據(jù)對應的癥狀就是待識別樣本的癥狀。計算過程如下式: 表1 不同血清的參考分形維數(shù)Table 1Reference of fractal dimension of different serum 從計算結果可知,其中數(shù)據(jù)0.034 6最小,對應的為膽固醇癥狀,故2號為膽固醇血清。選取50個待測樣本,以260 nm、290 nm、350 nm、580 nm為特征波長的熒光光譜進行病癥的識別。識別結果見表2,通過比較發(fā)現(xiàn),對高甘油三脂血清光譜識別率88%,高膽固醇血清識別率81%,正常血清識別率為75%,高血糖血清識別率為60%。 表2 光譜的識別結果Table 2Recognition results of spectra 光譜識別技術是光譜定性分析的基礎。隨著光譜學和計算機技術的發(fā)展,光譜識別已成為光譜分析技術的重要組成部分。利用分形的方法計算出光譜曲線的分形維數(shù),利用差模法對不同癥狀的血清光譜進行比較識別,高甘油三脂血清光譜識別率88%,高膽固醇血清識別率81%,正常血清識別率為75%,高血糖血清識別率為60%。在光譜識別上作了初步嘗試,進一步研究,應選取更多的激發(fā)波長激發(fā)的光譜作為識別特征量,改進數(shù)據(jù)處理方法,提高識別率。使分形作為一種熒光光譜的識別辦法,為正常和異常血清的檢測提供一種快速有效的新途徑。 [1]史曉鳳,馬君,毛偉征,等.最小二乘法分析自體熒光光譜識別胃癌[J].光譜學與光譜分析,2006,26(12):295-298. [2]王玉田,李艷春.蟻群算法在多組分導數(shù)熒光光譜解析中的應用[J].傳感技術學報,2006,19(2):508-513. [3]職統(tǒng)興,尚麗平,鄧琥.主成分回歸熒光光譜法同時分析多組分混合體系[J].應用化工,2008,37(10):1232-1234. [4]朱殿明,金萬祥,駱曉森,等.人血清血卟啉熒光光譜的雙正交樣條小波識別[J].光譜學與光譜分析,2008,28(8):1879-1882. [5]張平,王新柯,李海濤,等.基于分形理論的太赫茲光譜識別[J].量子電子學報,2007,24(6):673-677. [6]熊宇虹,溫志渝,張流強,等.分形理論在光譜識別中的應用[J].光譜學與光譜分析,2006,26(14):772-774. [7]Ramanujam N,Mitchell M F,Mahadevan A,et al.Development of a multivariate statistical algorithm to analyze human cervical tissue fluorescence spectra acquired in vivo[J].Lasers in Surgery and Medicine,1996,19(1):46-62. [8]Wang C Y,Tsai T,Chen H M,et al.PLS ANN based classification model for oral submucous fibrosis and oral carcinogenesis[J].Lasers in Surgery and Medicine,2003,32(4):318-326. [9]Eker C,Rydell R,Svanberg K,et al.Multivariate analysis of laryngeal fluorescence spectra recorded in vivo[J].Lasers in Surgery and Medicine,2001,28(3):259-266. [10]嚴拯宇,姜新民,張圣華.人工神經(jīng)網(wǎng)絡用于紫外光譜同時測定Zn、Cu、Co含量的研究[J].光譜學與光譜分析,2000,20(3):409-411. [11]陳秀麗,王桂文,陶站華,等.基于PCA和BP網(wǎng)絡的地中海貧血紅細胞拉曼光譜判別[J].中國激光,2009,36(9):2448-2554. [12]董赫,李偉凱.基于近紅外光譜苗期玉米葉片葉綠素含量的無損檢測方法[J].黑龍江八一農(nóng)墾大學學報,2015,26(2):82-85. [13]陳颙,陳凌.分形幾何學[M].北京:地震出版社,2005. [14]李民贊.光譜分析技術及其應用[M].北京:科學出版社,2006. Study of Fluorescence Spectrum Identification Based on the Difference Module of the Fractal Dimensions Fan Di1,Wang Lexin2,Yang Weiran1,Tan Keli1,Qiu Runze1 The fractal feature of the spectrum based on the fractal theory was proposed to identify the spectral curves.The fluorescence spectra of 50 serum samples were measured by using the exciting light with the wavelength of 260,290,350,and 580 nm,respectively.The fractal dimensions of the spectral curves were calculated by the fractal theory.The difference module of the fractal dimensions was used to identify the fluorescence spectra of normal,high blood lipid,high cholesterol,and high blood glucose serum.The results indicated that the recognition rate was 75%,88%,81%and 60%,respectively.The research showed a preliminary study for the fractal theory in spectral identification. fractal theory;spectral identification;differential module;serum O433.4 A 1002-2090(2016)04-0130-05 10.3969/j.issn.1002-2090.2016.04.029 2015-06-26 黑龍江省自然基金資助項目(F201427);黑龍江省教育廳資助項目(10541155;12521376);黑龍江省農(nóng)墾總局科技項目(HNK11A-06-09);大慶市科技局資助項目(SGG2008-041);大學生省級創(chuàng)新創(chuàng)業(yè)訓練項目(201410223009)。 樊迪(1994-),女,黑龍江八一農(nóng)墾大學理學院信息與計算科學2012級本科生。 王樂新,男,教授,E-mail:wanglexin@126.com。2 光譜數(shù)據(jù)處理
3 光譜識別
4 結論
(1.College of Information and Technology,Heilongjiang Bayi Agricultural University,Daqing 163319;2.College of Science,Heilongjiang Bayi Agricultural University)