李 婷,葉 松,李景振,馬菁菁,陸瑤芃,洪培濤,聶澤東?
1) 桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,桂林 541004 2) 中國科學(xué)院深圳先進(jìn)技術(shù)研究院,深圳 518055 3) 深圳海關(guān)工業(yè)品檢測技術(shù)中心,深圳 518067
據(jù)統(tǒng)計(jì),糖尿病已成為繼腫瘤、心腦血管疾病后的第3種嚴(yán)重危害人民健康的慢性非傳染性疾病[1?2].2019年全球20~79歲的糖尿病患者總數(shù)位4.6億,占該年齡段人口總數(shù)的9.1%,預(yù)計(jì)到2035年,上述兩個(gè)數(shù)據(jù)將分別增至5.92億和10.1%[3].目前糖尿病尚無根治的方法,連續(xù)血糖監(jiān)測(Continuous glucose monitoring,CGM)系統(tǒng)可實(shí)時(shí)監(jiān)測患者的血糖,為臨床醫(yī)生提供詳細(xì)的血糖變化趨勢,以便于調(diào)控血糖水平,減少糖尿病并發(fā)癥的發(fā)生,為預(yù)后的評(píng)估提供重要依據(jù)[4].目前血糖監(jiān)測的方法可分為有創(chuàng)、微創(chuàng)及無創(chuàng),由于患者需要頻繁測量血糖,有創(chuàng)及微創(chuàng)監(jiān)測會(huì)帶來身體和心理上的痛苦,故無創(chuàng)血糖監(jiān)測具有重要的應(yīng)用價(jià)值和市場前景[5]. 考慮到心電信號(hào)(Electrocardiogram,ECG)可通過可穿戴設(shè)備獲取,具有無創(chuàng)、便捷、舒適等優(yōu)勢,本文提出了一種基于ECG信號(hào)的無創(chuàng)監(jiān)測方法實(shí)現(xiàn)對血糖水平的實(shí)時(shí)、精準(zhǔn)監(jiān)測.
ECG信號(hào)可使用心電采集儀器記錄人體心臟電位變化[6?9],相關(guān)研究表明人體血糖變化會(huì)影響心臟活動(dòng)[10?13]. 人體攝入食物時(shí),血糖水平會(huì)逐漸升高,此時(shí)交感神經(jīng)系統(tǒng)觸發(fā)腎上腺(特別是腎上腺髓質(zhì))釋放腎上腺素,從而引起包括心率加快、心電傳導(dǎo)速度加快和不應(yīng)期縮短為特征的ECG變化;血糖水平較低時(shí),也將激活交感神經(jīng)系統(tǒng)和副交感神經(jīng)系統(tǒng)而引起ECG的變化;血糖水平正常時(shí),副交感神經(jīng)系統(tǒng)會(huì)釋放出乙酰膽堿激素來減慢心率[13]. 綜上可知,心電變化與血糖水平存在相關(guān)性,因此通過分析ECG的變化規(guī)律有望實(shí)現(xiàn)血糖水平的實(shí)時(shí)監(jiān)測.血糖監(jiān)測技術(shù)在近年來也在不斷突破中,并取得了較大的成果. Kandhasamy和Balamurali[14]分別使用卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural networks,CNN)與卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)相結(jié)合(Convolution neural networks and long short-term memory,CNN-LSTM)算法通過 5折交叉驗(yàn)證對從加州大學(xué)歐文分校數(shù)據(jù)庫中獲取的數(shù)據(jù)集進(jìn)行糖尿病監(jiān)測,結(jié)果顯示CNN的監(jiān)測正確率為93.6%,而CNN-LSTM的正確率最高為95.1%. Tafa等[15]使用包含常規(guī)飲食、身體活動(dòng)和糖尿病家族史等特征構(gòu)建矩陣作為數(shù)據(jù)集,提出了一種新的支持向量機(jī)(Support vector machine,SVM)和樸素貝葉斯綜合改進(jìn)模型來監(jiān)測人體是否患有糖尿病,其二分類監(jiān)測精度高達(dá)97.6%.此外,劉宇巍[16]提出了利用超極限學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)以及分?jǐn)?shù)階系統(tǒng)算法將血糖水平分為6類,在對用戶進(jìn)行個(gè)性化建模且建模所用數(shù)據(jù)量較多時(shí),監(jiān)測準(zhǔn)確率可達(dá)85%. 馮培華[17]對采集的光電容積脈搏波(PhotoPlethysmoGraphy, PPG)信號(hào)和ECG信號(hào)采用經(jīng)驗(yàn)?zāi)B(tài)分解進(jìn)行基線去除,結(jié)合彈性網(wǎng)絡(luò)、自適應(yīng)增強(qiáng)算法、極端梯度提升(Extreme gradient boosting,XGBoost)和基于決策樹算法的分布式梯度提升 (Light gradient boosting machine,LightGBM) 4種算法建模監(jiān)測,獲得的克拉克錯(cuò)誤網(wǎng)格圖A區(qū)均能達(dá)到80%以上. 本課題組前期提出了多模型分類方法用于糖尿病前期的預(yù)測[13]并鑒別了一些重要的生理特征阻止糖尿病病情的惡化[18?19].
縱觀上述研究,盡管已取得較大的進(jìn)展,但上述研究中對血糖水平或糖尿病的分類較少,大多為二分類或三分類[14?15].同時(shí),大多數(shù)血糖監(jiān)測輸入特征局限于部分生理特征,如:身高、體重、文化程度、是否有家族遺傳等作為神經(jīng)網(wǎng)絡(luò)的輸入序列[20].人體的健康監(jiān)測迫切需要更為精確的血糖水平,無創(chuàng)的實(shí)時(shí)血糖精準(zhǔn)監(jiān)測算法有待研究.針對上述問題,本文提出了一種基于ECG的多分類的血糖監(jiān)測方法. 本文研究的血糖監(jiān)測算法與其他傳統(tǒng)分析方法不同,采用CNN和LSTM相結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)血糖水平的自動(dòng)監(jiān)測.該方法兼顧了血糖監(jiān)測的實(shí)時(shí)性與精準(zhǔn)性,測試結(jié)果表明可精準(zhǔn)監(jiān)測血糖的實(shí)時(shí)水平,有利于推動(dòng)CGM技術(shù)和糖尿病管理的發(fā)展,對進(jìn)一步提高血糖監(jiān)測準(zhǔn)確度具有重要的研究意義.
為研究基于ECG信號(hào)的無創(chuàng)血糖監(jiān)測方案的可行性,課題組在中國科學(xué)院健康信息重點(diǎn)實(shí)驗(yàn)室進(jìn)行了在體實(shí)驗(yàn)研究(實(shí)驗(yàn)已獲得中國科學(xué)院深圳先進(jìn)技術(shù)研究院人體實(shí)驗(yàn)倫理管理委員會(huì)批準(zhǔn),批準(zhǔn)號(hào):SIAT-IRB-200815-H0525).
實(shí)驗(yàn)之前,課題組對招募的12名志愿者(所有志愿者都已簽署志愿者知情同意書)進(jìn)行了口服葡萄糖耐量試驗(yàn)以確認(rèn)志愿者是否為糖尿病患者.在12名志愿者中,9名為健康志愿者,3名為糖尿病患者(A1,A2...A9分別對應(yīng)于9名健康志愿者;B1,B2,B3分別對應(yīng)于3名糖尿病志愿者).如表1所示,所招募的志愿者分布在各個(gè)不同年齡段、不同性別及不同體型. 其中,有5名男性志愿者和7名女性志愿者;4名志愿者年齡小于24歲、5名志愿者年齡在24歲到40歲之間、大于40歲的志愿者有3名. 此外,考慮到身體質(zhì)量指數(shù)(Body mass index, BMI)常用來衡量人體胖瘦程度,論文中對志愿者的BMI進(jìn)行了分析,其中3名志愿者體重偏低,6名志愿者體重正常,3名志愿者體重超重.
表1 12名志愿者信息分布(人數(shù))Table 1 Quantity of volunteers with different body information
正式實(shí)驗(yàn)通過使用采樣頻率為1000 Hz、陷波濾波器開關(guān)為ON、高通濾波器為1.0 Hz、波動(dòng)模式為NORM的BIOPAC系統(tǒng)(型號(hào)為MP150)通道2,該系統(tǒng)可通過電極片實(shí)現(xiàn)胸導(dǎo)聯(lián)以連續(xù)獲取志愿者ECG信號(hào),該設(shè)備可以連接到裝有AcqKnowledge(Acq)軟件的計(jì)算機(jī)(PC)并將采集的ECG信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)存儲(chǔ)在計(jì)算機(jī)中. 并在實(shí)驗(yàn)開始1 d前為志愿者佩戴德康G6設(shè)備以獲取CGM數(shù)據(jù),此設(shè)備可連續(xù)監(jiān)測志愿者血糖水平,每5 min獲得一次血糖數(shù)據(jù). 其中,每位志愿者實(shí)驗(yàn)持續(xù)5 d,每天上午2.5 h. ECG數(shù)據(jù)采集實(shí)驗(yàn)如圖1所示.本次研究使用12名志愿者共60 d 756160個(gè)ECG周期信號(hào)作為數(shù)據(jù)集.一個(gè)ECG信號(hào)周期如圖2所示.
圖1 ECG數(shù)據(jù)采集實(shí)驗(yàn)圖Fig.1 ECG data acquiring experiment
圖2 一個(gè)ECG信號(hào)周期示意圖Fig.2 ECG signal cycle diagram
1.2.1 信號(hào)提取及濾波
如圖3(a)所示,實(shí)驗(yàn)所采集到的ECG信號(hào)中存在干擾噪聲,去除ECG信號(hào)噪聲干擾是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟.
綜合考慮自適應(yīng)濾波去噪、小波去噪[21]及遞歸濾波器(Infinite impulse response,IIR)等去噪方法[22],本文最終選用高通為0.2 Hz、低通為30 Hz的IIR濾波器以濾除部分噪聲. 濾波前后的ECG信號(hào)對比如圖3所示.濾波預(yù)處理完成后,根據(jù)Acq軟件獲取ECG信號(hào)中峰值點(diǎn)對應(yīng)的時(shí)間,并利用Matlab軟件分離出ECG信號(hào)的單個(gè)心跳并聯(lián)接實(shí)時(shí)CGM的血糖值即完成初步的數(shù)據(jù)預(yù)處理.
圖3 ECG 信號(hào)濾波前后圖像. (a)未濾波的 ECG 信號(hào);(b)IIR 濾波器去噪后的ECG信號(hào)Fig.3 Images of ECG signals before and after filtering: (a) unfiltered ECG signal; (b) ECG signal followed by IIR filter
1.2.2 數(shù)據(jù)分類
考慮到實(shí)驗(yàn)所采集到的CGM數(shù)據(jù)波動(dòng)較大,根據(jù)CGM數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的標(biāo)簽存在數(shù)據(jù)不均衡問題,因此從提高血糖監(jiān)測模型精準(zhǔn)性出發(fā),本次研究在血糖數(shù)據(jù)分類時(shí)通過重復(fù)采樣的方法擴(kuò)充數(shù)據(jù)集以提升模型泛化能力.以采集到的12名志愿者的總數(shù)據(jù)量(694413個(gè)ECG周期信號(hào)及CGM數(shù)據(jù))作為數(shù)據(jù)集為例,其血糖分類標(biāo)簽及各標(biāo)簽的數(shù)據(jù)量如表2所示. 其中,血糖(Blood glucose,BG)大于 14.9 mmol?L?1、標(biāo)簽為 9的數(shù)據(jù)最多,共有75616個(gè)ECG周期信號(hào)及CGM數(shù)據(jù),通過重復(fù)采樣使每個(gè)標(biāo)簽的數(shù)據(jù)量擴(kuò)充為75616個(gè)ECG周期信號(hào),最終神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測試所使用的數(shù)據(jù)集為10個(gè)標(biāo)簽的數(shù)據(jù)總量共計(jì)756160個(gè)ECG周期信號(hào).
表2 群體建模血糖分類標(biāo)簽及數(shù)據(jù)量Table 2 Blood glucose classification labels and data volumes upon group modeling
圖4顯示了血糖值分別為5.9、8.1和10.5 mmol?L?1時(shí)不同志愿者的ECG波形.由圖4可知,對于不同個(gè)體而言相同血糖水平下的ECG信號(hào)存在差異性,因此在建模時(shí)由于個(gè)體數(shù)據(jù)量有限可能會(huì)影響血糖監(jiān)測效果.
圖4 不同志愿者在相同血糖水平下的一個(gè) ECG 信號(hào)周期波形示例. (a)BG=5.9 mmol?L?1;(b)BG=8.1 mmol?L?1;(c)BG=10.5 mmol?L?1Fig.4 ECG signal cycle waveforms at the same BG level for different subjects: (a) BG = 5.9 mmol?L?1; (b) BG = 8.1 mmol?L?1; (c) BG = 10.5 mmol?L?1
在LSTM的輸出端使用全連接層作為分類神經(jīng)網(wǎng)絡(luò)模型輸出層. 經(jīng)過預(yù)處理后的單個(gè)ECG周期及CGM數(shù)據(jù)輸入到CNN-LSTM網(wǎng)絡(luò)中,其輸出為不同的血糖標(biāo)簽的概率.血糖監(jiān)測模型性能的評(píng)估通過血糖監(jiān)測精確率(Precision)、召回率(Recall)、F1值(F1-score)及混淆矩陣評(píng)估[30]. 其原理如下:
在本文研究的CNN-LSTM網(wǎng)絡(luò)中,CNN是由大小卷積核相結(jié)合的一維卷積、正則化過程和最大池化層組成,最大池化輸出被饋送到后續(xù)的LSTM層.由于模型的超參數(shù)直接影響算法的性能,因此需要調(diào)節(jié)學(xué)習(xí)速率、隱層數(shù)、池化層步長、卷積核大小等超參數(shù)進(jìn)行不同的實(shí)驗(yàn)驗(yàn)證,以提高血糖監(jiān)測模型的泛化能力[29]使其具有魯棒性. 研究所使用的模型超參數(shù)如表3所示.
表3 CNN-LSTM模型參數(shù)設(shè)置Table 3 Parameter setting of the CNN-LSTM model
本文使用單個(gè)Intel(R)Core(TM)i7-7700中的CPU進(jìn)行訓(xùn)練和測試數(shù)據(jù). 經(jīng)過對比不同的損失函數(shù)和學(xué)習(xí)率,最終選擇Adam優(yōu)化器及交叉熵函數(shù)作為損失函數(shù).為了達(dá)到更快的收斂速度,學(xué)習(xí)率設(shè)置為0.001,模型迭代的次數(shù)為40[24].為研究數(shù)據(jù)集對血糖監(jiān)測模型分類性能的影響,研究分別選取兩名健康志愿者和兩名糖尿病患者志愿者進(jìn)行個(gè)體建模、12名志愿者群體建模分別評(píng)估分類性能.
3.2.1 個(gè)體建模
分別以A1、A2、B1、B2作為數(shù)據(jù)集,經(jīng)數(shù)據(jù)分類后輸入CNN-LSTM血糖監(jiān)測模型中,對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試,其性能評(píng)估如表4所示. 神經(jīng)網(wǎng)絡(luò)對4名志愿者血糖監(jiān)測的精確率分別為79%、80%、81%和86%.
表4 A1、A2、B1和B2分別進(jìn)行個(gè)體建模性能評(píng)估Table 4 Individual modeling performance evaluations for A1, A2, B1,and B2
3.2.2 群體建模
使用12名志愿者共計(jì)756160個(gè)ECG周期信號(hào),并利用CNN-LSTM模型對數(shù)據(jù)進(jìn)行訓(xùn)練和測試. 計(jì)算得到的血糖水平10分類監(jiān)測的精確率為88.4%,血糖監(jiān)測模型的混淆矩陣和性能評(píng)估如表5、表6所示.
表5 群體建模下的血糖監(jiān)測混淆矩陣Table 5 Confusion matrix for blood glucose prediction under group modeling
表6 血糖監(jiān)測模型性能評(píng)估Table 6 Performance evaluation of the proposed glucose prediction model
本文提出了將血糖水平分為10類,利用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)相結(jié)合的CNNLSTM對人體血糖水平進(jìn)行高精度監(jiān)測.首先提取ECG信號(hào)并使用IIR濾波器濾除噪聲,然后利用Acq及Matlab軟件分離出完整的ECG周期信號(hào),將ECG周期信號(hào)及CGM數(shù)據(jù)集作為輸入,利用CNN-LSTM神經(jīng)網(wǎng)絡(luò)模型分別對個(gè)體模型和群體模型進(jìn)行訓(xùn)練和測試. 研究表明,群體建模的血糖監(jiān)測性能優(yōu)于個(gè)體建模.
相比基于回歸算法或人工神經(jīng)網(wǎng)絡(luò)模型[15?17],本文所提出的CNN-LSTM模型監(jiān)測血糖可達(dá)10分類,精度更高.隨著可穿戴技術(shù)的發(fā)展,實(shí)時(shí)的心電信號(hào)和血糖數(shù)據(jù)可便捷保存為數(shù)字信號(hào),存儲(chǔ)在計(jì)算機(jī)中,為可穿戴的無創(chuàng)血糖系統(tǒng)研究提供了條件[22?25].前人的研究大多基于人體生理特征、外界環(huán)境特征或血糖數(shù)據(jù)監(jiān)測血糖[20?21],本研究使用課題組實(shí)驗(yàn)獲得的ECG周期信號(hào)和CGM數(shù)據(jù),為實(shí)現(xiàn)血糖水平的實(shí)時(shí)、精準(zhǔn)監(jiān)測提供了一種有力的理論支撐與技術(shù)指導(dǎo).
本文對比了劉宇巍提出的基于PPG和ECG信號(hào)融合的無創(chuàng)血糖檢測方法[16],發(fā)現(xiàn)基于ECG周期信號(hào)的群體建模方法,其精確率更高,達(dá)到88%,相比劉宇巍使用5次數(shù)據(jù)的6分類監(jiān)測精確率和分類精度都有所提升,表7對比了血糖監(jiān)測模型性能.實(shí)驗(yàn)證明本研究方法能實(shí)現(xiàn)基于ECG信號(hào)精準(zhǔn)監(jiān)測血糖水平.在今后的血糖水平監(jiān)測研究中,將致力于規(guī)范實(shí)驗(yàn)流程:首先,增加志愿者數(shù)量及正式實(shí)驗(yàn)時(shí)長以擴(kuò)大數(shù)據(jù)集;其次,提高實(shí)驗(yàn)設(shè)備精確性以減少ECG信號(hào)噪聲.
表7 血糖監(jiān)測模型對比Table 7 Comparison of glucose prediction models
課題組還將進(jìn)一步探索與血糖水平密切關(guān)聯(lián)的生理信號(hào),今后的研究將考慮在數(shù)據(jù)中加入其他與人體血糖關(guān)聯(lián)密切的生理數(shù)據(jù)繼續(xù)優(yōu)化模型,提升模型普適性,以致力于對高精度無創(chuàng)血糖儀的研制提供新思路.
(1)提出了一種基于ECG的血糖水平10分類監(jiān)測模型,相比于回歸算法和其他人工神經(jīng)網(wǎng)絡(luò)模型,所提出的CNN-LSTM模型具有較為優(yōu)越的性能,血糖監(jiān)測精確率明顯提升.
(2)提出了將一個(gè)完整的ECG周期信號(hào)數(shù)據(jù)作為CNN-LSTM的輸入特征,經(jīng)過對比實(shí)驗(yàn)表明,與個(gè)體建模相比,群體建模的血糖監(jiān)測性能更優(yōu),擴(kuò)大數(shù)據(jù)集將會(huì)在一定程度上優(yōu)化血糖監(jiān)測模型的性能.
(3)今后的研究可通過改進(jìn)可穿戴式傳感器的設(shè)計(jì),采集多種人體生理數(shù)據(jù)(如PPG、腦電信號(hào)及血氧含量等),實(shí)現(xiàn)多模生理信號(hào)的融合,這對于今后無創(chuàng)血糖技術(shù)的發(fā)展及可穿戴的個(gè)性化健康監(jiān)測設(shè)備的研制有重大的意義.