楊思元,陳小恵,王凱莉,梁 瑩
(南京郵電大學 自動化/人工智能學院,江蘇 南京 210023)
人體固有的生理特征或行為方式是個體自身獨一無二的,可以精準地代表個體身份,很難被復制或假冒[1]。近幾年,基于生物特征的身份識別技術(shù),引起了各方學者的強烈興趣?;谏锾卣鞯纳矸葑R別系統(tǒng),安全性高,操作簡單,成本低[2]。PPG信號作為人體的一種固有的生理信號,包含了人體心血管系統(tǒng)大量的病理、生理信息,不同個體之間的PPG信號存在著較大的差異,具有很好的保密性和唯一性[3-4],基于PPG信號的人體身份識別研究越來越受到重視。
國內(nèi)外學者對基于PPG信號的身份識別技術(shù)進行了較多的研究,取得了一些成果。Y.Y.GU等人選擇單個脈搏周期中波峰個數(shù)、脈搏起始點到第一個波峰的斜率和時間間距、重搏波波峰到下一個脈搏周期起始點斜率四個特征參數(shù),利用多元統(tǒng)計方法對特征進行加權(quán),以歐氏距離最小為判別依據(jù)進行身份識別,識別率達到94%[3]。該方法對特征定位、模板選擇以及待識別對象的狀態(tài)具有較高的要求,容易受到各種因素的干擾;Kemal Polat等人選擇從單周期PPG信號及其一階和二階差分信號中提取40個時域特征,利用歐氏距離公式計算各個特征對身份識別率的貢獻值,從而進行識別分類,識別率達94.44%[5]。該方法綜合了PPG信號的一階、二階特征,對于PPG信號的描述較為準確,但由于PPG信號微弱且變換復雜,特征提取易受到各種噪聲影響,而且特征提取運算量大,計算復雜;Jaafar N A L等人利用PPG信號單周期波形進行身份識別,該方法首先對PPG信號進行二次求導得到加速度脈波,然后利用巴斯低通濾波器去除加速度脈波中的高頻噪聲,對去噪后的加速度脈波進行分段、歸一化處理,最后進行識別,最高識別率為97.5%[6]。該方法具有較高的抗干擾性,但是也增加了對波形穩(wěn)定性的要求,且波形求導、分段、歸一化等數(shù)據(jù)處理復雜,運算量大。根據(jù)對以上方法的對比分析知,僅從時域選擇較少的特征點,計算復雜度降低,但是準確度和抗干擾性會受到影響;將信號波形進行多次變換以及提取多個特征點,可以提高準確度,但是也增加了運算量,計算復雜。針對以上問題,文中提出了一種基于PPG信號稀疏分解和機器學習的身份識別方法,它利用改進的MP稀疏分解算法把PPG信號進行稀疏分解,提取PPG信號的特征,并把這些特征與波形時域的周期特征相融合,利用基于特征的決策樹分類算法 建立分類模型,提高分類識別的準確率。本方法直接以PPG信號的單個周期波形作為分解對象,不需要對波形進行復雜的變換處理,降低了特征提取的運算復雜性;在過完備原子庫上,通過提取的特征可以最大程度的還原PPG信號,提高了特征提取的準確性,識別率達到98.3%。
圖1是從眾多的研究測試結(jié)果中隨機抽取的四組PPG信號,其中圖(a)、圖(b)和圖(c)來自不同個體,圖(a)和圖(b)為年齡、性別和體型等特征相近的個體,圖(a)和圖(c)為年齡、性別和體型等特征相遠的個體,圖(a)和圖(d)來自同一個體的不同時刻。由圖(a)和圖(b)可見,雖PPG信號包含人體固有的特征信息,但因人體特征相近而PPG信號相近,兩者的波形走勢很相似,都存在主波次波以外的波峰,周期也很接近;圖(a)和圖(c)因個體特征相遠使兩個個體的PPG信號無論在波形、幅度還是周期上都存在明顯的差異;由于外界環(huán)境、身體狀態(tài)等的影響,圖(a)和圖(d)展示相同個體不同時刻PPG信號在幅度上有明顯的差異,在周期上也有略微的差異。
(a)第一組 (b)第二組
(c)第三組 (d)第四組
根據(jù)以上分析,PPG信號包含人體固有的、不同的特征信息,但因人的特征信息的相遠與相近性,而使PPG信號有相遠與相近性,采用傳統(tǒng)的時頻域特征參數(shù)提取與多元統(tǒng)計的身份識別方法因特征信息不能提取全面,而使其識別的準確性不高。文中采用PPG信號稀疏分解和機器學習算法,根據(jù)PPG信號波形選擇最佳原子進而提取特征,這些最佳原子不是一個特征值,而是一個特征信息量,包含較全面的特征信息,基于最佳原子的身份識別準確率就會得到提高。
身份識別的整體流程框圖如圖2所示。
圖2 身份識別的總體流程框圖
首先將經(jīng)過放大、濾波、運動偽差剔除[7]等預處理后的PPG信號進行單周期劃分并提取周期值,然后對單周期信號進行稀疏分解。稀疏分解的關(guān)鍵在于過完備原子庫的選擇,根據(jù)PPG信號的周期性以及近余弦等特性,文中選擇有類似特性的Gabor原子構(gòu)成過完備原子庫,Gabor原子由經(jīng)過調(diào)制的高斯窗函數(shù)構(gòu)成[8],表達式為:
(1)
其中,g(t)=e-πt2是高斯窗函數(shù),gτ(t)是經(jīng)調(diào)制的高斯窗函數(shù),(s,u,v,w)是原子時頻參數(shù),u決定了原子所代表的波形在原始信號中的位置,s決定了所代表波的寬度,v為原子的頻率,w為原子的相位,原子的形狀近似地反映出代表波的形狀。通常在過完備原子庫中選出數(shù)個最佳原子是關(guān)鍵,將最佳原子進行線性疊加就可將PPG信號還原出來。根據(jù)原子在信號以及信號殘余上投影值最大的原則選出幾個最佳原子,即選擇前幾個滿足式(2)、(3)的原子。
(2)
(3)
其中,f為原始信號,Rnf為信號殘余,gn為原子,Γ為原子庫原子個數(shù)。原子形狀由時頻特性參數(shù)(s,u,v,w)決定,將選出的最佳原子時頻特性參數(shù)組成PPG信號特征,再結(jié)合PPG信號的周期特征作為特征向量,劃分訓練集以及測試集,導入決策樹分類器進行身份識別。
MP算法的目的在于選出過完備原子庫中的最佳原子完成對信號的分解,其分解的關(guān)鍵表達式為式(4)、式(5)。
f=〈f,gr0〉gr0+R1f
(4)
Rnf=〈Rnf,grn〉grn+Rn+1f
(5)
其中,gτn表示選出的第n個最佳原子[9]??梢钥闯鯩P算法的殘值僅與最近選出的那一項正交,在已選擇的原子上進行垂直投影是非正交性的,這種非正交性會造成MP算法在已經(jīng)選出的原子上反復迭代,從而使得每次迭代的結(jié)果不是最優(yōu)而是次最優(yōu)的,那么收斂就需要很多次迭代。為了解決這個問題,文中改進MP算法在分解的每一步對所選擇的全部原子進行正交化處理,即將余項Rnf投影到根據(jù){grk}0≤k≤n得到的正交族{uk}0≤k≤n上[10]。
設D={gr}r∈Γ是用于稀疏分解的過完備原子庫,利用匹配追蹤挑選gγn,使得:
(6)
利用施密特正交化算法將gγn關(guān)于{grk}0≤k≤n正交化,定義:
(7)
將余項Rnf投影到un,得到:
(8)
對式(8)進行0≤n (9) 其中,PVz是在{urn}0≤n≤z上生成的空間vz的正交投影算子,{gτn}0≤n≤z也是vz的一組基。當n=z時,由式(7)可得: 〈Rnf,un〉=〈Rnf,grn〉 (10) 因為殘差余量可以快速趨于0,所以存在M≤N(N是信號長度)使得RMf=0。此時: (11) 信號f在一個正交向量族上做有限M次迭代就可以收斂完成分解。 MP算法中它的殘值僅與最近選出的那一項正交,改進后則與前面每個分量正交,所以避免出現(xiàn)重復迭代的問題,這樣在選擇相同數(shù)量的最佳原子時,利用改進MP算法選擇出的原子所包含的信號的信息量更加完整,利用少數(shù)最佳原子稀疏表示出來的信號更加準確,提高了稀疏分解的性能。 根據(jù)PPG信號的時頻特性,文中選擇Gabor原子來構(gòu)成過完備原子庫。Gabor原子由經(jīng)過調(diào)制的高斯窗函數(shù)構(gòu)成[11]: (12) 其中,g(t)=e-πt2是高斯窗函數(shù),(s,u,v,w)是原子時頻參數(shù),可決定一個原子。當參數(shù)u不同而s,v,w相同時,原子的中心位置不同,形狀相同。可使參數(shù)u的值保持不變,其他參數(shù)s,v,w按照原來的方法進行選取,過完備原子庫中的原子數(shù)目將大大減小,有效提高算法的計算速度[12]。將N次內(nèi)積運算轉(zhuǎn)換為一次Rkf和gr的互相關(guān)運算并利用FFT實現(xiàn)快速的互相關(guān)運算[13],可以大大提高稀疏分解的速度。 決策樹分類器的關(guān)鍵在于屬性值的確定,文中將提取好的PPG信號特征向量劃分為訓練集和測試集,將訓練集傳遞給決策樹分類器,通過信息增益法找出決策樹的屬性值,完成分類器訓練,然后將測試集傳遞給分類器進行分類識別。信息增益法是利用信息增益和分裂信息量共同定義的[14],其關(guān)系式如式(13): (13) 其中,Gain(S,A)表示信息增益,SplitInformation(S,A)表示分裂信息量。 信息增益的定義如式(14)所示: (14) 其中V(A)是屬性A的值域;Sv是集合S中在屬性A上的值等于v的子集;Entropy為熵,用來刻畫任意樣例的純度[15](purity)。如果目標屬性具有c個不同的值,那么集合S相對于c個狀態(tài)的分類的熵定義如式(15)所示: (15) 其中pi為子集合中第i個屬性值的樣本數(shù)所占的比例[15]。信息增益法可以根據(jù)PPG信號特征的特性,將所有屬性列表的屬性按照讓每個分支記錄的類別盡可能純的標準排序,從而選出最好的屬性,提高了決策樹分類器的識別性能。 實驗共采集100個人在不同時刻的5組PPG信號作為樣本。針對每個人每一組信號分割出10個單周期信號進行信號的稀疏分解。根據(jù)多次實驗對比,選取前5個最佳原子的識別效果最好,將得到的每個單周期信號的5個最佳原子的時頻特性參數(shù)(s,u,v,w)與信號對應的周期特性共21個特征相融合,組成融合特征向量。每個人分別獲取50組融合特征向量,將特征向量以7∶3的比例劃分為訓練集和測試集。 改進MP算法與MP算法在對PPG信號稀疏分解過程中每次迭代后殘留的內(nèi)積結(jié)果對比 ,如圖3所示。 圖3 改進MP與MP每次迭代殘留內(nèi)積對比 由圖3可見,在稀疏表示精度相同的情況下,改進后的算法收斂速度更快,即所需原子更少;在需要用相同原子表示信號時,通過改進后的算法得到的稀疏表示的精度更高;根據(jù)運行時間對比,改進后的MP算法分解的速度提升了20倍左右。 利用改進MP算法對三個個體PPG信號稀疏分解的結(jié)果進行對比,如表1所示。 表1 三個個體的最佳原子對比 基于表1,利用EXCEL數(shù)據(jù)分析庫對稀疏分解之后的PPG信號最佳原子特性參數(shù)進行差異性及相關(guān)性分析,結(jié)果如表2所示。 表2是三個個體分解后的PPG信號最佳原子參數(shù)的相關(guān)系數(shù)。由三個表可以看出,每個個體最佳原子參數(shù)的相關(guān)系數(shù)可以達到0.95以上,具有非常高的相關(guān)性,所以每個個體的PPG信號具有很好的相似性。 表2 相關(guān)系數(shù) 三個個體PPG信號分解后最佳原子參數(shù)差異性分析如表3所示。分析時選擇的風險指數(shù)α=0.05,表中SS是平方和;df是自由度;MS是均方;F是檢驗統(tǒng)計量;P-value是觀測到的顯著性水平;F-crit是臨界值。由表3可以看出F=4.038 179>F-crit,所以F值在α=0.05的水平上顯著,即三個個體分解后的PPG信號最佳原子特性參數(shù)差異性在α=0.05上顯著。根據(jù)以上分析,相同個體的原子特性參數(shù)具有很好的相關(guān)性,不同個體的參數(shù)具有顯著的差異性,所以以最佳原子的特性參數(shù)作為分類識別的依據(jù)切實可行。 表3 三個個體間數(shù)據(jù)差異性分析 將待識別對象的21個特征分別帶入信息增益的計算公式,如式(14)所示。根據(jù)信息增益最大的原則從21個特征中選擇出5個貢獻最大的特征作為決策樹屬性節(jié)點,經(jīng)過多次數(shù)據(jù)訓練,屬性節(jié)點值域依據(jù)待識別對象的特點進一步劃分,完成決策樹分支,建成決策樹分類器。 為了更好地展示決策樹分類器識別的準確性,文中從100個待識別對象中隨機選取4個對象,再利用搭建好的決策樹分類器進行身份識別,其結(jié)果如圖4所示。 圖4 身份識別結(jié)果 決策樹分類器的分類結(jié)果如表4所示。 表4 決策樹分類器的分類結(jié)果 根據(jù)表內(nèi)數(shù)據(jù)可看出利用決策樹進行PPG信號分類識別的準確率可以達到98%以上,重代入誤差和交叉驗證誤差都很小,所以分類識別的效果比較理想。 光電容積波信號包含了人體大量的病理、生理信息,不同個體之間的PPG信號存在著很大的差異,具有良好的保密性和唯一性,可以很好地應用于身份識別。采用改進MP算法進行信號稀疏分解,更加快速完整地獲取信號的信息。利用少數(shù)幾個最佳原子還原信號獲得信號更為簡潔的表示方式,從而更容易地獲取信號中所蘊含的信息,更方便進一步對信號進行加工處理。對信號進行稀疏表示之后再進行特征提取,相比于直接對原始信號進行特征提取更加簡單準確。利用決策樹分類器,在不用對數(shù)據(jù)做太多準備的情況下,能夠得到效果良好的分類結(jié)果,所以實驗證明基于PPG信號稀疏分解和機器學習的身份識別方法切實可行。2.2 分解速度上的改進
3 決策樹分類器
4 實驗結(jié)果與分析
4.1 改進MP算法稀疏分解結(jié)果與分析
4.2 分類識別結(jié)果與分析
5 結(jié)束語