向莉 薛紅 黃巋 錢(qián)瑩晶
(1.吉首大學(xué)信息科學(xué)與工程學(xué)院 湖南省吉首市 416000)
(2.懷化學(xué)院武陵山片區(qū)生態(tài)農(nóng)業(yè)智能控制技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室 湖南省懷化市 418008)
當(dāng)今社會(huì),越來(lái)越多老人因疾病突發(fā)、處理不及時(shí)導(dǎo)致猝死現(xiàn)象。降低病人監(jiān)護(hù)的技術(shù)門(mén)檻和人力成本,提高疾病突發(fā)時(shí)候的預(yù)警效率和準(zhǔn)度是目前亟需解決的問(wèn)題。為實(shí)現(xiàn)患者病情的高效、可靠和低成本檢測(cè),本文通過(guò)研究人臉檢測(cè)技術(shù)[1]、微表情特征提取技術(shù)[2]和微表情識(shí)別技術(shù)[3]等內(nèi)容,擬研制一套基于微表情識(shí)別的病人病情預(yù)警系統(tǒng)。
基于計(jì)算機(jī)的人臉表情識(shí)別是指:首先在視頻或圖像中檢測(cè)出人臉,然后對(duì)人臉的面部特征進(jìn)行提取,最后通過(guò)已訓(xùn)練的模型對(duì)表情進(jìn)行分類(lèi)。該系統(tǒng)主要包括視頻采集模塊、圖像預(yù)處理模塊、人體目標(biāo)識(shí)別模塊、病人表情識(shí)別模塊、VAS(微表情庫(kù))疼痛評(píng)分模塊、病情預(yù)警模塊及服務(wù)器數(shù)據(jù)中心和信息管理平臺(tái)。系統(tǒng)通過(guò)監(jiān)控設(shè)備對(duì)監(jiān)控區(qū)域出現(xiàn)的心臟病病人的表情、行為進(jìn)行采集、處理、訓(xùn)練和識(shí)別,進(jìn)而預(yù)測(cè)病人的病情。
整個(gè)系統(tǒng)先通過(guò)視頻采集模塊將含有人物特征的圖片集從視頻中提取出來(lái)。第二步,將經(jīng)過(guò)預(yù)處理的視頻通過(guò)人體識(shí)別模塊標(biāo)出人物位置。第三步,使用病人表情識(shí)別模塊,識(shí)別出視頻人物所出現(xiàn)的表情變化。最后,通過(guò)VAS疼痛評(píng)分模塊將臨床病人的痛苦表情打分,超過(guò)一定閾值時(shí)觸發(fā)報(bào)警,尋求家人或者護(hù)理人員的幫助。
圖像采集模塊是指從原始視頻流中按照一定的滑動(dòng)窗口選擇連續(xù)的數(shù)幀圖像。對(duì)于預(yù)處理模塊,首先將這些圖像灰度化轉(zhuǎn)為灰度圖,再使用圖像去噪算法,去除圖像噪聲。本系統(tǒng)采用傅里葉變換與高斯濾波算法降噪,并采用運(yùn)動(dòng)模糊圖像復(fù)原算法,復(fù)原處于運(yùn)動(dòng)中的臨床病人的圖像。使用降噪的圖像作為輸入可以提高圖像后期人物與微表情識(shí)別模塊的準(zhǔn)確性。
本系統(tǒng)的人體目標(biāo)識(shí)別模塊的主要任務(wù)是從預(yù)處理的數(shù)幀圖像中確定,將獲取的視頻逐幀輸入DarKNet-53變型網(wǎng)絡(luò),并以卷積層leaky relu損失函數(shù)作為基本組件。在人物識(shí)別模塊采用多尺度融合的方式進(jìn)行預(yù)測(cè)在多個(gè)尺度特征圖上進(jìn)行位置和類(lèi)別預(yù)測(cè),提高人物檢測(cè)的準(zhǔn)確率。用k近鄰的方法對(duì)數(shù)據(jù)集的目標(biāo)框進(jìn)行維度聚類(lèi),對(duì)于尺度更大的特征圖則采用更小的先預(yù)測(cè)框使用獨(dú)立的邏輯分類(lèi)器進(jìn)行類(lèi)別預(yù)測(cè)。對(duì)于高層特征圖和低層特征圖則采用上采樣和下采樣進(jìn)行特征融合,對(duì)人物目標(biāo)選取與其重疊并且IOU最大的作為候選框。
圖1:系統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2:積極與消極表情測(cè)試結(jié)果的樣本分布
表1:實(shí)驗(yàn)?zāi)P驮?種表情的數(shù)據(jù)集中的表現(xiàn)結(jié)果
系統(tǒng)設(shè)計(jì)前期,構(gòu)建了病人表情圖像采集系統(tǒng),收集訓(xùn)練樣本并且人工的進(jìn)行標(biāo)注,建立病人表情數(shù)據(jù)集并且采用多尺度訓(xùn)練的策略方式對(duì)病人表情進(jìn)行多尺度訓(xùn)練,結(jié)合Keras框架搭建卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。在時(shí)間維度的流結(jié)構(gòu)中引入LSTM網(wǎng)絡(luò)[4],使其網(wǎng)絡(luò)架構(gòu)能夠獲得更長(zhǎng)的視頻幀信息。之后再重新構(gòu)造標(biāo)準(zhǔn)化圖像的誤差函數(shù)、平滑誤差函數(shù)以及ssim誤差函數(shù)并進(jìn)行整合。最后通過(guò)雙向LSTM獲取關(guān)鍵時(shí)域信息進(jìn)行聯(lián)合訓(xùn)練,去除無(wú)用幀。
使用該訓(xùn)練好的識(shí)別模型,針對(duì)人這一人物特征進(jìn)行學(xué)習(xí),將時(shí)間流和空間流進(jìn)行加權(quán)融合采取softmax回歸從而識(shí)別視頻中的微表情將其結(jié)果傳遞給服務(wù)器。
目前微表情識(shí)別的方法主要有LBP、SVM和深度學(xué)習(xí)等。卷積神經(jīng)網(wǎng)絡(luò)是用于微表情識(shí)別最熱門(mén)的方法之一,如VGGNet、CNN16等。本系統(tǒng)采用了卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),使用OpenCV中分類(lèi)器積分圖與Ada Boost級(jí)聯(lián)分類(lèi)器[5],大量節(jié)省了識(shí)別微表情的時(shí)間,提高了系統(tǒng)的運(yùn)行效率。微表情識(shí)別模塊在患者實(shí)時(shí)監(jiān)護(hù)系統(tǒng)中的主要目的是精確判斷患者的面部表情是否痛苦。相較于目前主流的微表情識(shí)別系統(tǒng)的主要區(qū)別在于,本系統(tǒng)較為關(guān)心其面部表情的痛苦程度、憤怒等具有消極性的面部表情,對(duì)于其他類(lèi)型面部表情本系統(tǒng)將不予區(qū)分,進(jìn)一步縮短訓(xùn)練與識(shí)別時(shí)間,提高識(shí)別效率,能夠更快的響應(yīng)實(shí)時(shí)性的視頻流數(shù)據(jù),降低計(jì)算的資源消耗。
同時(shí),該模塊采用的卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積層、池化層、全連接層及Softmax層的深度神經(jīng)網(wǎng)絡(luò),圖1為系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)圖。
其中卷積層采用大小為3×3、步長(zhǎng)為1的卷積核對(duì)圖像進(jìn)行卷積計(jì)算,同時(shí)使用ReLU激活函數(shù)減少計(jì)算量、增加網(wǎng)絡(luò)稀疏性、防止發(fā)生過(guò)擬合。卷積層和池化層交替出現(xiàn),對(duì)輸入的參數(shù)進(jìn)行降維處理,使得提取出來(lái)的特征數(shù)據(jù)方便連接全連接層。Softmax分類(lèi)器輸出每一個(gè)類(lèi)別對(duì)應(yīng)的輸出概率,最終選擇輸出概率最大的類(lèi)別作為分類(lèi)器輸出結(jié)果。
fer2013/PublicTest共含有7種表情標(biāo)簽,分別為anger、disgust、fear、happy、neutral、sad以及surprise。為將這些表情用于病床監(jiān)護(hù)系統(tǒng)中去,我們將這七種表情分為兩類(lèi):happy以及neutral標(biāo)簽的分為positive類(lèi),其余五種表情歸為negative類(lèi),這五類(lèi)表情因?yàn)榕c痛苦表情具有一定的相通性,在實(shí)際病房中,可以將該類(lèi)表情均歸為一類(lèi)。
使用CNN模型對(duì)fer2013/PublicTest的七種表情的數(shù)據(jù)集測(cè)試結(jié)果如表1。
其中face_detection_rate表示在包含人臉的圖片中識(shí)別出人臉的概率,可以評(píng)估出人臉檢測(cè)模塊的準(zhǔn)確性。emotion_identify_accuracy表示在已識(shí)別出人臉的樣本中劃分表情性質(zhì)的準(zhǔn)確度,可以評(píng)估表情識(shí)別模塊在區(qū)分積極與消極表情的準(zhǔn)確度。total_accuracy表示最終正確劃分的結(jié)果占總樣本的比重,用于評(píng)價(jià)組合模型的整體性能。
同時(shí),實(shí)際程序在CPU占用峰值<600%(6線程)的情況下,平均檢測(cè)速度達(dá)到7張圖(512×512)每秒,能夠滿足高通量數(shù)據(jù)流的病床監(jiān)護(hù)系統(tǒng)需求。
從實(shí)驗(yàn)結(jié)果中,我們對(duì)積極與消極兩種表情的人臉檢測(cè)錯(cuò)誤、表情識(shí)別成功與表情識(shí)別錯(cuò)誤的樣本個(gè)數(shù)的統(tǒng)計(jì)結(jié)果如圖2所示。
實(shí)驗(yàn)?zāi)P褪褂昧四壳爸髁鞯娜四槺砬閿?shù)據(jù)集CK+、JAFFE進(jìn)行了訓(xùn)練,對(duì)fer2013/PublicTest的數(shù)據(jù)集進(jìn)行了測(cè)試。在人臉表情的識(shí)別這一模塊中能達(dá)到80.56%的準(zhǔn)確度,但由于受到人臉檢測(cè)模型準(zhǔn)確度的影響,使得最終準(zhǔn)確度維持在57.48%。但實(shí)際應(yīng)用中,我們可以在高通量的圖片數(shù)據(jù)流中,對(duì)于連續(xù)的多幀圖片的檢測(cè)結(jié)果來(lái)綜合判定短時(shí)間內(nèi)患者的表情,提高最終預(yù)測(cè)的準(zhǔn)確性。