孟 琪, 趙 鵬, 宦克為, 李 野, 姜志俠, 張瀚文, 周林華*
1. 長(zhǎng)春理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長(zhǎng)春 130022
2. 長(zhǎng)春理工大學(xué)物理學(xué)院, 吉林 長(zhǎng)春 130022
3. 長(zhǎng)春理工大學(xué)數(shù)學(xué)實(shí)驗(yàn)示范中心, 吉林 長(zhǎng)春 130022
近紅外光譜分析技術(shù)在醫(yī)療健康領(lǐng)域尤其在血液成分無創(chuàng)監(jiān)測(cè)中扮演著重要的角色[1-2]。 血糖是評(píng)價(jià)人體健康程度的一項(xiàng)重要指標(biāo), 持續(xù)性追蹤血糖變化尤為重要。 然而, 人體組織背景復(fù)雜、 血糖信號(hào)變化微弱以及測(cè)量條件有限等原因使得無創(chuàng)監(jiān)測(cè)未能實(shí)現(xiàn)。 前輩學(xué)者為攻克這一難題做了許多努力, 1987年Dahne首次應(yīng)用近紅外分光法進(jìn)行人體血糖無創(chuàng)檢測(cè)[3], 開啟了無創(chuàng)檢測(cè)血糖的光譜領(lǐng)域。 2003年Katsuhiko Maruo等使用近紅外光測(cè)量真皮組織下的葡萄糖含量進(jìn)而追蹤血糖變化, 該方法可以減弱人體組織對(duì)光譜信號(hào)的干擾[4]。 Ramasahayam等使用人工神經(jīng)網(wǎng)絡(luò)對(duì)近紅外信號(hào)進(jìn)行處理, 將神經(jīng)網(wǎng)絡(luò)這一強(qiáng)有力工具應(yīng)用到血糖無創(chuàng)檢測(cè)中[5]。 以消除個(gè)體差異為重點(diǎn), 天津大學(xué)李剛團(tuán)隊(duì)提出了動(dòng)態(tài)光譜法用于實(shí)現(xiàn)血液檢測(cè)[6-8]。 進(jìn)一步考慮血糖變化的本質(zhì), 代娟綜合多種因素確定了近紅外光譜的測(cè)量波長(zhǎng)及部位, 提出基于粒子群算法優(yōu)化兩個(gè)神經(jīng)網(wǎng)絡(luò)的模型[9]。 2018年, 徐馨荷為了提高無創(chuàng)血糖測(cè)量的精度, 基于“M+N”理論從誤差理論的角度闡明了在光譜分析中M種非測(cè)量組分和N種外界干擾因素對(duì)測(cè)量精度的影響。 考慮了M因素中四種非測(cè)量組分和N因素中接觸壓力對(duì)血糖測(cè)量值的影響, 建立基于“M+N”理論的血糖人體試驗(yàn)系統(tǒng)[10]。 針對(duì)實(shí)際監(jiān)測(cè)過程中傳感器, 環(huán)境噪聲等各種因素限制其測(cè)量精度的問題, 黃永英提出了一種移動(dòng)窗雙層篩選處理算法結(jié)合實(shí)時(shí)自補(bǔ)償校準(zhǔn)算法的雙重校準(zhǔn)模式, 實(shí)現(xiàn)對(duì)電流數(shù)據(jù)的信號(hào)漂移補(bǔ)償, 并基于此設(shè)計(jì)了一種可實(shí)時(shí), 動(dòng)態(tài)檢測(cè)血糖變化的監(jiān)測(cè)器[11]。
以上工作對(duì)引起血糖變化的多重因素充分考究, 針對(duì)數(shù)據(jù)采集與分析做了有效推進(jìn), 從光譜中解析葡萄糖濃度信息, 通常采用如偏最小二乘回歸(PLSR)等多變量回歸的方法在實(shí)際測(cè)量中[12]。 陳真誠學(xué)者提出一種脈搏波預(yù)處理方法, 采用經(jīng)驗(yàn)?zāi)B(tài)分解和三次樣條插值算法去除原始脈搏波的高頻噪聲和基線漂移。 運(yùn)用動(dòng)態(tài)光譜頻域提取法提取對(duì)數(shù)脈搏波的基波分量, 采用的偏最小二乘法交叉驗(yàn)證的方法[13]。 隨著機(jī)器學(xué)習(xí)的熱潮, 支持向量機(jī)展現(xiàn)了處理回歸問題中的優(yōu)勢(shì), 便有學(xué)者馬爽等提出了基于支持向量機(jī)回歸模型的無創(chuàng)血糖光譜算法, 該方法預(yù)測(cè)準(zhǔn)確度優(yōu)于偏最小二乘回歸10%~15%[14], 為回歸模型的優(yōu)化提供了新思路。
現(xiàn)有回歸預(yù)測(cè)模型常使用全波段數(shù)據(jù), 對(duì)特征波段的選取多基于特征向量之間的相關(guān)性和對(duì)模型的貢獻(xiàn)力等因素, 應(yīng)用連續(xù)投影算法(SPA)[15]、 無信息變量消除法(UVE)、 最佳指數(shù)法(OIF)等方法以去除冗余信息以降低數(shù)據(jù)維度、 減少運(yùn)算量。 孫靜濤等對(duì)多元散射校正(MSC)處理后的光譜分別利用連續(xù)投影算法(SPA)、 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)和CARS-SPA方法篩選了哈密瓜可溶性固形物和硬度的特征波長(zhǎng), 并建立支持向量機(jī)回歸模型[16]。 張紫楊提出了基于最佳光程長(zhǎng)的測(cè)量波長(zhǎng)選擇原則, 可在測(cè)量靈敏度最大的條件下, 評(píng)價(jià)葡萄糖吸收光譜的測(cè)量是否可行[17]。 此種方法強(qiáng)調(diào)的是特征向量之間的關(guān)系并沒有考慮到標(biāo)簽的變化。 根據(jù)前輩學(xué)者的分析, 證實(shí)血糖存在明顯的吸收波峰且不同波長(zhǎng)下包含血糖變化的信息量有差異, 因此提取更滿足標(biāo)簽變化的有效波長(zhǎng)至關(guān)重要, 并考慮將標(biāo)簽值引入特征波長(zhǎng)挑選算法中。 本文基于標(biāo)簽敏感度算法(label sensitivity, LS)實(shí)現(xiàn)了近紅外光譜特征波長(zhǎng)的有效選擇。
由于不同波長(zhǎng)下血糖對(duì)光的吸收量有差異, 提取有效波長(zhǎng)非常有必要。 我們的算法思想為期盼挑選出與濃度差值變化保持一致的特征波長(zhǎng), 認(rèn)為挑選出的LS值高的特征波長(zhǎng)應(yīng)具備以下特點(diǎn): (1)同一濃度數(shù)據(jù)分布集中即方差較小。 (2)不同濃度之間, 近紅外吸光度的均值具有區(qū)分性并且變化幅度與濃度差值呈正相關(guān), 即當(dāng)濃度差值越大時(shí), 吸光度均值差也應(yīng)越大。 設(shè)原始光譜信號(hào)值為
(1)
式(1)中,N為所有濃度,L為選定濃度下樣本總數(shù),K為波長(zhǎng)總數(shù)。
如圖1, 在波長(zhǎng)k處, 對(duì)應(yīng)4組濃度數(shù)據(jù), 濃度分別為la,lb,lc,ld, 且有l(wèi)a-lb≤lb-lc≤la-lc, 球體代表不同濃度值下的吸光度值, 球心A、B、C為同一濃度的吸光度均值。 由于人體血液是流動(dòng)變化的, 因此可能存在偏離中心值的數(shù)據(jù)。 選擇的波長(zhǎng)應(yīng)保證同一濃度數(shù)據(jù)盡量集中, 不同濃度中心點(diǎn)的期望滿足如下序關(guān)系Dab≤Dbc≤Dac。
圖1 算法原理可視化圖
圖2 近紅外光譜成像儀
設(shè)原始光譜信號(hào)值為xi, j(k),i=1, 2, …N;j=1, 2, …,L;k=1, 2, …,K。
首先, 對(duì)原始光譜信號(hào)值做多元散射校正(MSC)
(2)
式(2)中,F為多元散射校正函數(shù), 使用吸收光度法的基本定律Lambert-Beer求吸光度
(3)
對(duì)吸光度Ai,j(k)歸一化
(4)
(5)
(6)
Qi, m(k)刻畫標(biāo)簽差值與均值差值的比例, 由式(5)可知, 當(dāng)特定波長(zhǎng)下, 吸光度方差越小, 且Qi, m(k)取值越接近1時(shí), 即標(biāo)簽差值與均值差值變化量越保持一致時(shí),LS取值越大。 根據(jù)LS值大小重新對(duì)波長(zhǎng)序列排序。
SVR是支持向量機(jī)在回歸問題上的應(yīng)用。 根據(jù)上述給定的吸光度數(shù)據(jù)和血糖濃度數(shù)據(jù), SVR的訓(xùn)練數(shù)據(jù)為D={(x1,y1), (x2,y2), …, (xN,yN)}, 最終得到一個(gè)回歸模型f(x)=ωTx+b, 使得f(x)與y接近, 其中ω和b是參數(shù)。 在回歸問題中, 給定一個(gè)邊界值φ, 即當(dāng)|f(xi)-yi|≥φ時(shí)計(jì)算損失。
SVR的優(yōu)化目標(biāo)為
(7)
式(7)中,C為正則化常數(shù),lφ為損失函數(shù), 表示為
(8)
引入松弛變量ξi和拉格朗日乘子ui, 優(yōu)化目標(biāo)變?yōu)?/p>
(9)
(10)
即f(x)的解為
(11)
若0 (12) (13) 為獲取更高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù), 本文設(shè)計(jì)OGTT葡萄糖耐量實(shí)驗(yàn), 并搭配使用近紅外光譜成像儀(注: 型號(hào)是HyperspecTM, 波長(zhǎng)范圍為900~1 700 nm, 可調(diào)節(jié)范圍)測(cè)量反射光譜。 實(shí)驗(yàn)開展之前, 志愿者保持10 h以上空腹, 保持人體狀態(tài)穩(wěn)定。 選取右手食指作為測(cè)量位置, 被測(cè)對(duì)象在5 min內(nèi)飲入250 mL含75 g的無水葡萄糖粉劑的水溶液, 在2.5 h內(nèi)被測(cè)對(duì)象的血糖濃度會(huì)出現(xiàn)一個(gè)從谷到峰, 最終回到谷底并震蕩的趨勢(shì)。 因此測(cè)量時(shí)間設(shè)定為3 h, 考慮儀器運(yùn)行時(shí)長(zhǎng)導(dǎo)致光源溫度升高從而造成的光源不穩(wěn)定, 在每次采集前進(jìn)行白板矯正。 并探究接觸壓力對(duì)測(cè)量的光譜信號(hào)的影響, 確保手指與端面輕微穩(wěn)定的接觸。 實(shí)驗(yàn)獲取4人、 每人兩天, 每天14個(gè)時(shí)刻、 每時(shí)刻測(cè)量90條與人體血糖相關(guān)的譜帶信息, 共有112個(gè)濃度、 10 080條數(shù)據(jù), 每條數(shù)據(jù)對(duì)應(yīng)164個(gè)波長(zhǎng)。 使用近紅外光譜成像儀測(cè)量光譜數(shù)據(jù), 測(cè)到的表征數(shù)據(jù)為三維的Raw數(shù)據(jù)文件, 每組重復(fù)掃描90次, 每個(gè)像素點(diǎn)包含164個(gè)波段的光譜數(shù)據(jù), 應(yīng)用圖像邊緣檢測(cè)算法截取食指指尖ROI區(qū)域的光譜信號(hào)值, 并在特定區(qū)域內(nèi)進(jìn)行數(shù)據(jù)平均處理。 簡(jiǎn)單處理后使用Lambert-Beer定律求得的原始吸光度如圖3。 圖3 四名志愿者所有濃度原始吸光度圖 當(dāng)考慮到血液的散射效應(yīng)時(shí), 不同波長(zhǎng)光程長(zhǎng)不一致, 即會(huì)導(dǎo)致脈動(dòng)血液光程變化量不同, 考慮去除部分散射效應(yīng)的影響, 引入多元散射校正方法。 多元散射校正方法由Martens等首先提出, 是一種多變量散射校正技術(shù), 用于分離散射介質(zhì)光譜中物理光散射信息和化學(xué)光吸收信息, 然后消除不同光譜之間的物理散射信息差異, 光譜進(jìn)行MSC預(yù)處理能有效減少模型的最佳因子數(shù), 簡(jiǎn)化數(shù)學(xué)模型、 使模型更穩(wěn)定[19]。 由圖3, 900~1 000 nm區(qū)間內(nèi)的16個(gè)波長(zhǎng)數(shù)據(jù)噪聲大, 參考動(dòng)態(tài)光譜數(shù)據(jù)質(zhì)量評(píng)價(jià)截取1 000~1 700 nm區(qū)間的數(shù)據(jù)進(jìn)行分析[20]。 對(duì)上述原始反射數(shù)據(jù)多元散射矯正后, 再使用Lambert-Beer定律求得的吸光度圖如圖4。 由圖4可知, 針對(duì)每名志愿者28個(gè)濃度2 520條數(shù)據(jù), 使用多元散射校正后的數(shù)據(jù)更集中, 數(shù)據(jù)質(zhì)量有明顯提升。 圖4 四名志愿者所有濃度MSC后吸光度圖 3.1.1 對(duì)比算法: FS算法 FS算法的思想是若某固定波長(zhǎng)對(duì)動(dòng)態(tài)血液中血糖濃度變化比較靈敏、 區(qū)分度大, 其對(duì)應(yīng)光譜數(shù)據(jù)應(yīng)該具有兩個(gè)特點(diǎn): (1) 相同濃度的近紅外吸光度分布比較集中, 即相同濃度數(shù)據(jù)的方差較小; (2)不同濃度的近紅外吸光度具有較好的分離性, 即相鄰濃度數(shù)據(jù)均值之差較大。 據(jù)此給出FS算法原理FS算法的提出, 將特征波長(zhǎng)挑選轉(zhuǎn)化成了區(qū)分度取值排序問題。 (14) 3.1.2 特征維數(shù)的優(yōu)化分析 截取1 000~1 700 nm區(qū)間內(nèi)149個(gè)波長(zhǎng)的數(shù)據(jù)。 由式(5)和式(6)根據(jù)標(biāo)簽敏感度算法對(duì)波長(zhǎng)序列重新排序得到波長(zhǎng)敏感度排序圖(圖5), 其中橫坐標(biāo)為根據(jù)敏感度值重新排序后的波長(zhǎng)序列, 縱坐標(biāo)為L(zhǎng)S(k)數(shù)值。 顯然, 不同波長(zhǎng)的貢獻(xiàn)值不同, 選擇原始光譜信號(hào)值區(qū)分度高的波長(zhǎng)非常有必要。 圖5 四名志愿者的波長(zhǎng)敏感度圖 回歸算法的運(yùn)算速度和復(fù)雜性跟數(shù)據(jù)的特征維數(shù)密切相關(guān)。 挑選出的特征波長(zhǎng)的數(shù)量多少會(huì)影響預(yù)測(cè)結(jié)果。 因此, 通過分析不同特征維數(shù)對(duì)模型的影響, 確定最優(yōu)特征波長(zhǎng)數(shù)目是本節(jié)的研究重點(diǎn)。 本小節(jié)設(shè)計(jì)對(duì)比實(shí)驗(yàn), 探究不同波長(zhǎng)數(shù)目對(duì)預(yù)測(cè)集的均方根誤差、 相關(guān)系數(shù)的影響。 如圖6示, 每組光譜數(shù)據(jù)選用的特征波長(zhǎng)數(shù)l對(duì)預(yù)測(cè)精度影響的結(jié)果, 從圖中得到以下結(jié)論: (1)均方誤差和相關(guān)系數(shù)兩種評(píng)價(jià)指標(biāo), 我們提出的LS算法表現(xiàn)總體優(yōu)于FS算法。 (2)增加特征波長(zhǎng)數(shù)l可提升支持向量機(jī)回歸的預(yù)測(cè)精度, 當(dāng)l≥32之后, 兩種評(píng)價(jià)模型均區(qū)域收斂, 此時(shí)仍再增加特征波長(zhǎng)數(shù)會(huì)進(jìn)一步使計(jì)算復(fù)雜, 但對(duì)于回歸精度的提升十分有限。 (3)為確保預(yù)測(cè)精度高的前提下計(jì)算復(fù)雜度不高, 確定志愿者A的特征波長(zhǎng)最佳維度為32。 圖6 特征維數(shù)對(duì)FSSVR、 LSSVR模型預(yù)測(cè)精度的影響(志愿者A) 圖7 志愿者A的交叉驗(yàn)證克拉克誤差分析圖 單一血糖濃度選取90個(gè)光譜樣本, 每幀光譜應(yīng)用算法篩選前32個(gè)特征波長(zhǎng), 利用合適的超參數(shù)和訓(xùn)練數(shù)據(jù)訓(xùn)練模型, FSSVR和LSSVR預(yù)測(cè)與PLSR預(yù)測(cè)的5折交叉驗(yàn)證結(jié)果如表1所示。 表1 四名志愿者交叉驗(yàn)證預(yù)測(cè)結(jié)果 由表1可知, 以志愿者A為例分析, 使用PLSR回歸無創(chuàng)血糖濃度中, 實(shí)際測(cè)量濃度與預(yù)測(cè)的數(shù)值相關(guān)性低, 預(yù)測(cè)效果差。 與之相比FSSVR的相關(guān)性有56.6%的提升, 并且均方根誤差下降了91.17%, 回歸效果較好。 LSSVR算法, 較FSSVR算法預(yù)測(cè)效果有進(jìn)一步提升, 預(yù)測(cè)值與真實(shí)值保持一致相關(guān)系數(shù)高達(dá)99.8%, MSE下降至0.009。 由此證明, LSSVR具有最優(yōu)的預(yù)測(cè)效果。 為便于觀察數(shù)據(jù)最終的預(yù)測(cè)效果, 使用克拉克誤差分析圖, 克拉克誤差分析認(rèn)為A區(qū)可允許誤差為, 落在A區(qū)的數(shù)據(jù)占全部數(shù)據(jù)的比值是預(yù)測(cè)效果的重要評(píng)價(jià)標(biāo)準(zhǔn)之一。 由圖6可知FSSVR算法預(yù)測(cè)性能較PLSR明顯降低。 而LSSVR的預(yù)測(cè)效果進(jìn)一步提升, 預(yù)測(cè)值與原始標(biāo)簽值保持高度一致。 提出了與標(biāo)簽差值相關(guān)聯(lián)的特征波長(zhǎng)挑選算法LS算法, 分別使用PLSR、 FSSVR、 LSSVR回歸模型設(shè)計(jì)對(duì)比實(shí)驗(yàn), 并探究最優(yōu)特征波長(zhǎng)數(shù)的優(yōu)化分析, 結(jié)果表明當(dāng)最優(yōu)波長(zhǎng)數(shù)量為32時(shí), 評(píng)價(jià)指標(biāo)均趨于穩(wěn)定、 相對(duì)預(yù)測(cè)效果最佳。 在選定前32維特征波長(zhǎng)后, 交叉驗(yàn)證實(shí)驗(yàn)表明LSSVR的預(yù)測(cè)值與真實(shí)值保持高度一致, MSE、P、R2三種評(píng)價(jià)指標(biāo)較前兩類方法均有顯著提升, 驗(yàn)證了LSSVR的優(yōu)勢(shì)。 人體是一個(gè)復(fù)雜的系統(tǒng), 人體組織在不同時(shí)間、 不同位置、 不同環(huán)境下光學(xué)性質(zhì)有所差異。 并且不同個(gè)體之間, 手指尺寸、 各組織厚度和血液搏動(dòng)幅度等生理上的不同, 也會(huì)造成光譜信息有很大的差異。 這是我們提出的LS算法的基礎(chǔ)。 不同的回歸算法使用性能三角形評(píng)估算法的預(yù)測(cè)效果如圖8。X軸為預(yù)測(cè)值與真實(shí)值的相關(guān)系數(shù)。Y軸位于clarke網(wǎng)格A區(qū)域的概率, 越靠近1證明落在可允許的誤差范圍內(nèi)的數(shù)據(jù)占比越大。Z軸為預(yù)測(cè)值與真實(shí)值的均方根誤差, 誤差越小, 預(yù)測(cè)性能越佳。 以性能三角的頂點(diǎn)與原點(diǎn)組成的性能四面體觀測(cè)算法的表現(xiàn)效果, 以XOY平面為底面, OZ為高。 當(dāng)?shù)酌鍻PR三角形的面積越大, 并且OM的取值越小時(shí)性能越佳。 圖8給出的效果更直觀, LSSVR在不同志愿者的數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率較前其他方法均有明顯提升, 由此證明LSSVR具有普適性。 圖8 四名志愿者不同算法的性能三角形 提出的LSSVR表現(xiàn)優(yōu)異, 結(jié)合支持向量機(jī)回歸對(duì)預(yù)測(cè)集的交叉驗(yàn)證預(yù)測(cè)精度極高, 期望在后續(xù)工作中重新劃分?jǐn)?shù)據(jù)集, 希望當(dāng)測(cè)試集為從未參與訓(xùn)練的濃度數(shù)據(jù)時(shí), 模型仍能保持優(yōu)異。 還可以進(jìn)一步對(duì)回歸方法做改進(jìn), 深度神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛, 在未來工作中考慮將深度神經(jīng)網(wǎng)絡(luò)引入回歸模型中, 為進(jìn)一步推進(jìn)無創(chuàng)血糖的進(jìn)展做出貢獻(xiàn)。2 實(shí)驗(yàn)部分
2.1 方案設(shè)計(jì)
2.2 數(shù)據(jù)預(yù)處理
3 結(jié)果與討論
3.1 特征維數(shù)優(yōu)化分析
3.2 實(shí)驗(yàn)對(duì)比與結(jié)果分析
4 結(jié) 論