季培琛,李 晨
(1.徐州市中醫(yī)院,江蘇 徐州 221000;2.徐州醫(yī)科大學,江蘇 徐州 221000)
帕金森病(PD,parkinson’s disease)是一種常見的神經(jīng)系統(tǒng)退行性疾病,目前該病發(fā)病機制尚未明確,主要受到遺傳、環(huán)境、年齡老化以及氧化應激等諸多因素影響[1-2]。據(jù)統(tǒng)計,年齡在45歲以上和65歲以上人群中,PD的發(fā)病率分別為0.4%和1.7%[3],預計到2030年,我國PD患者將達500萬,在全球排名第一,約占世界50%。通過眾多病歷的長期跟蹤和數(shù)據(jù)統(tǒng)計結(jié)果顯示,隨著PD患者病情發(fā)展以及年齡的增長,患者各項身體機能將逐漸退化、行動也受到嚴重限制,導致其6年死亡率高達66%,要明顯高于慢性心力衰竭(50.9%)、慢性阻塞性肺病(44.7%)、殘血性心臟病(32.5%)、中風或短暫性腦缺血發(fā)作(52.5%)等疾病。而PD缺少明確的病理機制,早期癥狀隱匿,并存在非運動癥狀和相似神經(jīng)系統(tǒng)疾病癥狀的干擾,導致PD早期診斷極為困難。
在大量的臨床試驗中[4-6],語音功能障礙和步態(tài)特征是PD患者臨床表現(xiàn)中非常典型的癥狀。PD患者在語音特征上多表現(xiàn)為語速慢、停頓增多、音質(zhì)顫抖及刺耳等癥狀,在步態(tài)特征上多表現(xiàn)為快速小碎步、拖把步、平衡性差等癥狀。眾多學者利用PD患者與正常人的語音和步態(tài)特征差異,使用智能算法,開展了大量基于語音和步態(tài)數(shù)據(jù)的PD輔助診斷研究。例如,Little等[7]利用模式識別方法,對基于語音障礙的PD診斷進行分析,并建立了首個PD語音障礙數(shù)據(jù)集;Wroge[8]等使用深度神經(jīng)網(wǎng)絡監(jiān)督分類算法,結(jié)合語音數(shù)據(jù),完成PD的智能診斷,峰值準確率為85%;朱家英[9]等提出了基于多尺度特征和動態(tài)注意力機制的多模態(tài)循環(huán)融合模型,實現(xiàn)了對PD患者的識別與檢測。
而在實際研究中發(fā)現(xiàn),用于PD輔助檢測的語音數(shù)據(jù)中,包含共振峰頻率、音調(diào)、重音等可唯一識別個體的聲紋特征[10-11]。同時,步態(tài)數(shù)據(jù)中也包含了步頻、步長、步態(tài)周期、膝蓋彎曲角度等可以唯一識別特定個體的運動學特征和姿勢特征[12-13]。而在已有的相關(guān)研究中,眾多學者往往忽略了對PD患者隱私安全的保護,極易在數(shù)據(jù)傳輸過程中發(fā)生隱私泄露,且很難實現(xiàn)PD的多模態(tài)輔助診斷準確性與隱私安全的動態(tài)平衡。為此,本文設計了一種魯棒性高、成本低且操作便捷的基于多頭注意力機制[14-15]的帕金森病多模態(tài)安全遠程診療模型,通過語音和步態(tài)兩模態(tài)數(shù)據(jù)特征的提取和識別,使PD診斷結(jié)果更加精準,也更具臨床參考價值。同時引入基于余弦混沌的差分隱私噪聲擾動方法,實現(xiàn)了對PD數(shù)據(jù)傳輸過程的安全保護,為PD早期遠程輔助診斷和PD診斷臨床決策支持提供了支撐。本文主要創(chuàng)新和貢獻如下:
1)針對傳統(tǒng)PD檢測模型訓練和測試數(shù)據(jù)存在的特征固定、模態(tài)單一問題,提出了基于多頭注意力機制的兩模態(tài)特征融合與識別模型,避免了單一模態(tài)數(shù)據(jù)噪聲干擾、數(shù)據(jù)規(guī)模小導致的檢測識別準確度低等問題,實現(xiàn)了基于兩模態(tài)數(shù)據(jù)特征的PD智能檢測。
2)針對現(xiàn)有PD智能檢測識別研究多忽略數(shù)據(jù)主體隱私安全的問題,設計了一種基于余弦混沌的差分隱私噪聲擾動方式,通過擾動隨機拆分的數(shù)據(jù)編號,保證數(shù)據(jù)傳輸至系統(tǒng)智能檢測識別模塊的傳輸過程安全性,實現(xiàn)了PD檢測準確率和隱私安全的動態(tài)平衡。
3)設計了基于多頭注意力機制的多模態(tài)特征融合方法,在特征融合階段,通過挖掘PD語音特征與步態(tài)數(shù)據(jù)特征的內(nèi)在相關(guān)性,提高了模型的疾病表征能力,并具有較好的多模態(tài)特征融合擴展性,可滿足更高模態(tài)特征融合與識別需求。
基于多頭注意力機制的多模態(tài)帕金森病安全檢測系統(tǒng)整體框架如圖1所示。
圖2 基于多頭注意力機制的多模態(tài)PD安全檢測系統(tǒng)技術(shù)框架
系統(tǒng)主要由3部分組成,第一層為數(shù)據(jù)采集層,主要借助語音錄入設備(如智能手機、樹莓派、錄音設備等)和步態(tài)數(shù)據(jù)采集設備(如攝像機、運動相機、智能平板等)來完成受試者語音數(shù)據(jù)和步態(tài)數(shù)據(jù)的采集,其中語音數(shù)據(jù)應確保為一段連續(xù)不間斷的語音數(shù)據(jù),便于更好記錄受試者音色、音調(diào)等聲紋特征的微小變化;步態(tài)數(shù)據(jù)應為連續(xù)不間斷的視頻數(shù)據(jù),記錄受試者完整的行走周期信息,以便于分析受試者步長、步頻、步態(tài)等步態(tài)特征。第二層為數(shù)據(jù)處理和傳輸層,該層主要將采集后的數(shù)據(jù)進行清洗和處理,并使用基于余弦混沌的數(shù)據(jù)隨機拆分編號加噪方式,打亂數(shù)據(jù)順序,保證兩模態(tài)數(shù)據(jù)上傳過程安全。第三層為PD智能診斷層,接收到上傳的數(shù)據(jù)后,進行數(shù)據(jù)編號逆向降噪,得到完整的兩模態(tài)語音和步態(tài)數(shù)據(jù)特征,并將降噪和特征提取后的語音聲紋特征和步態(tài)特征作為輸入數(shù)據(jù),使用融合多頭注意力機制的卷積神經(jīng)網(wǎng)絡完成帕金森病的安全檢測。
為確?;诙囝^注意力機制的帕金森病多模態(tài)安全遠程檢測系統(tǒng)能夠高效、精準且安全的實現(xiàn)PD遠程輔助檢測,為醫(yī)生診斷PD提供臨床決策支持,該系統(tǒng)設計應實現(xiàn)以下幾個目標。
1)魯棒性:指的是系統(tǒng)應能有效處理各種異常數(shù)據(jù),如設備故障、信號干擾等,避免因個別異常數(shù)據(jù)導致系統(tǒng)崩潰或數(shù)據(jù)丟失;同時應保證網(wǎng)絡、容錯及恢復的魯棒性,確保系統(tǒng)在網(wǎng)絡故障、通信延遲等情況下,仍能保持多模態(tài)診療數(shù)據(jù)傳輸?shù)姆€(wěn)定性和可靠性。在本研究中,要求系統(tǒng)提供更全面和準確地診斷信息,能夠通過多模態(tài)數(shù)據(jù)融合降低單一數(shù)據(jù)源的誤差,同時具有故障檢測和恢復機制,當檢測到異?;蝈e誤時,系統(tǒng)能夠自動調(diào)整或切換到備用方案,確保服務的連續(xù)性和穩(wěn)定性,從而提高系統(tǒng)魯棒性。
2)安全性:指的是系統(tǒng)應采用嚴格的數(shù)據(jù)加密和訪問控制機制,保證患者數(shù)據(jù)傳輸和存儲過程的機密性和完整性;同時融合多因素身份驗證和細粒度授權(quán)機制,保證只有經(jīng)過授權(quán)的人員能夠訪問敏感數(shù)據(jù)或執(zhí)行相關(guān)操作。在本系統(tǒng)中用于遠程診斷PD的語音、步態(tài)等多模態(tài)數(shù)據(jù)中包含患者大量的隱私信息,在數(shù)據(jù)采集完成后,經(jīng)過安全處理后上傳智能輔助診斷模塊;同時系統(tǒng)的應用需要建立明確的數(shù)據(jù)安全、網(wǎng)絡保護與訪問控制方案,保證PD多模態(tài)遠程診療系統(tǒng)的硬件設備的物理安全,確保系統(tǒng)使用全流程可追溯和審計,避免出現(xiàn)隱私泄露,確保系統(tǒng)以及患者隱私安全性。
3)準確性:指的是系統(tǒng)在識別和判斷疾病時的準確程度,是評估系統(tǒng)性能的重要評估指標之一。在該系統(tǒng)中,利用多頭注意力機制,能夠自動提取識別測試人員上傳的與帕金森病相關(guān)的多模態(tài)特征,減少人為因素和主觀判斷對診斷結(jié)果的影響。同時借助深度學習技術(shù),在借助大量訓練數(shù)據(jù)進行模型訓練的基礎上,迭代和優(yōu)化PD遠程輔助檢測算法模型,并通過臨床驗證完成系統(tǒng)的多輪更新和優(yōu)化。
4)可擴展性:指的是系統(tǒng)在面對新型疾病和數(shù)據(jù)時,能夠適應并快速進行自適應的擴展和改進,以適應新的需求。在本研究中,系統(tǒng)設計采用模塊化方法,確保數(shù)據(jù)收集、處理、分析以及可視化板塊的相互獨立,保證各模塊能夠獨立運行;同時系統(tǒng)應具備計算資源的動態(tài)分配和彈性配置能力,并滿足持續(xù)開發(fā)、功能更新與迭代的擴展能力,滿足多模態(tài)與跨模態(tài)檢測PD的需求。
5)易用性:指的是產(chǎn)品、系統(tǒng)或服務對用戶而言的易于理解、學習和操作程度。它包括界面設計的友好程度、操作的直觀性以及用戶完成任務的效率和滿意度。在本文章,系統(tǒng)的設計應簡單易用,方便測試人員、技術(shù)人員和醫(yī)務人員的使用。同時界面設計簡單大方,操作流程簡單易懂,并提供豐富的交互反饋和引導功能,能夠為醫(yī)生臨床診斷PD提供決策支持。
該系統(tǒng)設計主要通過識別早期PD患者在語音和步態(tài)特征上異于常人的表現(xiàn)或障礙,來實現(xiàn)早期PD的安全智能檢測。為提高PD智能檢測精確度,降低單一模態(tài)數(shù)據(jù)輔助檢測存在的噪聲干擾、數(shù)據(jù)稀疏問題影響,使用語音、步態(tài)兩模態(tài)數(shù)據(jù)輔助檢測早期PD。為保證數(shù)據(jù)傳輸過程安全性,將采集的數(shù)據(jù)進行隨機分組和編號,并使用基于余弦混沌的差分噪聲添加方式,擾動數(shù)據(jù)編號,防止數(shù)據(jù)攻擊和重組導致的數(shù)據(jù)隱私披露。數(shù)據(jù)上傳后,分別進行語音和步態(tài)數(shù)據(jù)特征提取,并使用多頭注意力機制完成兩模態(tài)數(shù)據(jù)特征融合,特征融合后作為輸入數(shù)據(jù)輸入PD智能檢測模型中,最終完成PD的智能檢測。系統(tǒng)關(guān)鍵技術(shù)及算法模型設計如下。
2.1.1 多頭注意力機制
多頭注意力機制(MHA,multi-head attention)是神經(jīng)網(wǎng)絡中的一種注意力機制。MHA能夠使診斷算法模型在處理輸入數(shù)據(jù)時從多個視角上關(guān)注不同模態(tài)數(shù)據(jù)的特征子集,幫助更加全面地理解和聚焦于疾病診斷的關(guān)鍵特征信息。通過MHA的應用,可以有效提升模型整合生理信號、文本、圖像、視頻等數(shù)據(jù)特征的能力,進一步提高復雜疾病的診斷準確性。目前MHA已廣泛應用于腫瘤、神經(jīng)系統(tǒng)疾病、心血管疾病等的輔助診斷和研究中,并取得了較好的研究效果。
2.1.2 差分隱私
差分隱私保護通過對數(shù)據(jù)加噪掩蓋原始數(shù)據(jù)的真實值,確保攻擊人員無法結(jié)合背景知識等推斷出相關(guān)數(shù)據(jù),從而達到隱私保護的目的。研究人員可以根據(jù)研究場景和需求自適應的設計噪聲添加方式,以達到最大化準確率和安全性的目標。差分隱私的數(shù)學定義如下:
對于任意相鄰的數(shù)據(jù)集D,D′∈Z,給定一個隨機算法f:Z|→R,和任意輸出結(jié)果S?R,則定義以下不等式:
(1)
若不等式(1)成立,則成算法f滿足差分隱私定義[16]。其中ε為隱私預算,表示可以提供的隨機化算法的保護級別,當ε越小時,表示隱私保護強度越強,即要求添加的噪聲越大;反之ε越大,表示隱私保護強度越小,即要求添加的噪聲越小。ξ為一個非零實數(shù),通常是一個很小的數(shù)值,表示不滿足上述不等式的概率。
由于早期PD患者在音調(diào)、音量、語速以及音質(zhì)等語音特征異于正常人的表現(xiàn)[17-18],目前更多的是借助單一模態(tài)的語音信號開展PD智能輔助診斷研究。但由于語音信號易受到語音采集設備、外部環(huán)境噪音等干擾,導致基于單模態(tài)語音信號識別PD的輔助診斷結(jié)果存在不穩(wěn)定和誤差較大等局限。因此,為提升PD智能輔助診斷準確率,借助多模態(tài)數(shù)據(jù)開展PD智能輔助診斷是可行之路。
在現(xiàn)有研究中,使用卷積神經(jīng)網(wǎng)絡(CNN,convolutional neural networks)在全連接層進行雙峰數(shù)據(jù)融合,來檢測和識別早期PD是一種常見的方法[19]。但這種融合方法不利于多模態(tài)數(shù)據(jù)特征間的相關(guān)性信息挖掘和使用。為解決此問題,提出了一種融合多頭注意力機制的MHA-CNN,來獲取語音、步態(tài)等多模態(tài)數(shù)據(jù)間的相關(guān)信息權(quán)重,以更好的提取和融合高維特征表示。
在多頭注意力機制中,引入多個注意力頭,將輸入的語音和步態(tài)數(shù)據(jù)分成多份,每個注意力頭獨立地學習并關(guān)注不同的語義信息,有效增強模型的表達能力與性能?;诙囝^注意力機制的多模態(tài)PD智能檢測識別模型設計如下。
假設輸入2-dimension模態(tài)為模型的輸入數(shù)據(jù)。在MHA-CNN完成特征提取后,使用{X1,X2}分別表示語音和步態(tài)數(shù)據(jù),使用{d1,d2}分別表示語音和步態(tài)數(shù)據(jù)嵌入,可得到:
(2)
(3)
在concat層將語音和步態(tài)數(shù)據(jù)特征向量進行拼接:
(4)
在全連接層,將嵌入的語音和步態(tài)數(shù)據(jù)進行融合,定義dconcat和Fconcat:
dconcat=dS+dG
(5)
Fconcat=WconcatFconcat+b
(6)
其中:Fconcat∈RN*d concat。
在多頭注意力機制中,每個注意力頭獨立地學習并關(guān)注不同的語義信息,通過計算查詢向量和鍵向量的相似度來獲得注意力權(quán)重值,進而根據(jù)權(quán)重對值向量進行加權(quán)求和,得到最終的輸出表示。
定義語音信號與步態(tài)數(shù)據(jù)間的相似度關(guān)系為r,不同PD患者語音和步態(tài)數(shù)據(jù)間的r通過計算公式可表示為:
(7)
使用softmax函數(shù)計算語音和步態(tài)數(shù)據(jù)兩模態(tài)特征權(quán)重值為:
(8)
其中:Q、K、V的可表示為:
Q=[Q1,Q2,…,QN]∈RN*dconcat
(9)
K=[K1,K2,…,KN]∈RN*dconcat
(10)
V=[V1,V2,…,VN]∈RN*dconcat
(11)
研究中使用多頭注意力機制改進CNN網(wǎng)絡,增強MHA-CNN模型關(guān)注語音和步態(tài)兩模態(tài)的能力,使分區(qū)不同的頭相互集中,同時通過將輸入特性劃分為單獨的分區(qū)來為其添加子空間,便于從語音和步態(tài)兩模態(tài)數(shù)據(jù)特征子空間學習到更多不同信息。其中基于兩模態(tài)數(shù)據(jù)的頭部注意力度計算公式為:
(12)
經(jīng)過獨立計算頭部注意力,將結(jié)果輸出后連接,用來獲取所有子空間的特征信息,并反饋到線性投影中獲得最終的兩模態(tài)特征融合模型維度,計算公式如下:
Multiheadfusion=Concat(head1,head2,…,headh)W0
(13)
兩模態(tài)數(shù)據(jù)特征提取融合后,進一步使用多層感知機MLP[20]按照標記的PD患者語音和步態(tài)數(shù)據(jù)特征進行分類,并返回預測結(jié)果。整體過程如下:
算法1:基于MHA的兩模態(tài)數(shù)據(jù)融合模型
輸入:數(shù)據(jù)集D={(XS∈RN*dS,XG∈RN*dG),Y},注意力頭數(shù)為H,學習率為η
輸出:PD檢測識別結(jié)果Dr
初始化模型參數(shù)W,b
for each roundt=1,2,…,ndo
Step1:兩模態(tài)特征提取
從XS和XG中分別提取特征fS和fG
將提取后的特征連接FC=fS+fG
Step2:多頭注意力模塊
forh∈[H]:
計算每個頭注意力輸出值:
end for
連接所有頭部注意力輸出值
y=[y1,y2,…,yH]
Step3:PD診斷識別
Dr=MLP(y)
returnDr
end for
考慮到用于智能輔助診斷PD的語音和步態(tài)數(shù)據(jù)特征包含識別數(shù)據(jù)主體的大量隱私信息,為保護數(shù)據(jù)主體隱私安全,系統(tǒng)設計過程中融合了一種基于余弦混沌的差分隱私噪聲擾動機制。
在語音和步態(tài)數(shù)據(jù)采集完成后,測試人員將數(shù)據(jù)上傳至系統(tǒng),系統(tǒng)接收數(shù)據(jù)上傳指令后,首先進行兩模態(tài)數(shù)據(jù)的處理和噪聲擾動,保證相關(guān)數(shù)據(jù)傳輸至系統(tǒng)輔助診斷模塊的過程安全性,具體過程如下。
根據(jù)帕金森病智能檢測所需的目標特征,對原始數(shù)據(jù)進行初步處理、標記和矩陣化,其中語音數(shù)據(jù)使用聲譜矩陣的形式表示,行表示時間,列表示頻率,矩陣中每個元素表示相應時間頻率下的信號強度,通過此形式將語音信號轉(zhuǎn)換為數(shù)值矩陣;對于步態(tài)數(shù)據(jù),用類似的方式表示,將每一步的行走數(shù)據(jù)表示為一個矩陣,其中行表示不同的特征,如步長、步幅、頻率等,列表示不同時間點的數(shù)據(jù),通過此形式將步態(tài)數(shù)據(jù)轉(zhuǎn)化為數(shù)值矩陣。語音和步態(tài)數(shù)據(jù)形式轉(zhuǎn)換完成后,通過整合得到兩模態(tài)特征矩陣C=[a,b,…,k],若將原始數(shù)據(jù)直接上傳到系統(tǒng)中,則存在隱私披露風險。對此,首先將C處理成(k+2)×n的矩陣形式,其中矩陣第一行的所有數(shù)字為數(shù)據(jù)拆分后每列數(shù)據(jù)的編號,最后一行為干擾行,假設干擾初始值為δ,結(jié)果如公式(15);其次引入差分隱私擾動機制,對第一行數(shù)據(jù)編號進行加噪處理,為避免添加隨機噪聲而導致初始數(shù)據(jù)無法還原的問題,使用基于余弦混沌的噪聲添加形式,其中余弦函數(shù)值域為[-1,1],為避免不同序號輸入值x計算出相同的噪聲值fnoise,定義fnoise的計算公式為:
fnoise={1…1}n→cosx
(14)
其中:x∈(nπ~(n+1)π],{1…1}n→cosx表示在噪聲值y前添加n個1,例如當序號值為1時,1∈[0,π],則fnoise=cos1=0.540 3。
(15)
在上述基礎上,將隨機拆分后的每列數(shù)據(jù)上傳,系統(tǒng)根據(jù)上述加噪方法逆向去掉噪聲干擾,得到恢復后的原始語音和步態(tài)數(shù)據(jù)后進行PD的檢測和識別。其中隨機拆分的數(shù)據(jù)編號的降噪恢復過程是基于余弦混沌的噪聲擾動的逆過程,見公式(16)。
(16)
整體過程如下所示:
算法2:基于余弦混沌的差分隱私保護算法
階段1:數(shù)據(jù)分解加噪過程
輸入:語音和步態(tài)特征矩陣M,待傳輸矩陣數(shù)n
輸出:n列PD兩模態(tài)數(shù)據(jù)矩陣
Step1:數(shù)據(jù)拆分
Step2:序號加噪
Step3:矩陣分解
階段2:數(shù)據(jù)合并減噪過程
Step1:數(shù)據(jù)矩陣合并
Step2:序號降噪
Step3:數(shù)據(jù)恢復
系統(tǒng)設計完成后,為了驗證和優(yōu)化基于多頭注意力機制的PD智能輔助診斷模型性能,進一步進行了測試和驗證。
實驗中使用來自mPower研究中的兩模態(tài)語音和步態(tài)數(shù)據(jù)集。該數(shù)據(jù)集包括65 022個獨特的任務,包括5 826個個體受試者,其中每條數(shù)據(jù)中均包含10秒的語音樣本。步態(tài)數(shù)據(jù)集存儲為JavaScript對象表示法(JSON)文件。在本實驗中,PD智能檢測模型的輸入數(shù)據(jù)為處理和融合后的語音和步態(tài)特征數(shù)據(jù)。
本實驗在浪潮服務器中運行,使用的庫和編程語言分別為Pytorch1.10.1和Python3.7.0。實驗的硬件環(huán)境為64位Intel(R) Xeon(R) Sliver 4210R CPU@2.40 GHz處理器和32 GB RAM模擬環(huán)境來訓練和測試MHA-CNN。在模型訓練中,我們將實驗數(shù)據(jù)按照8∶1∶1的比例分為訓練集、驗證集和測試集。
在本節(jié)中,分別使用準確率、F1-score、精確度和召回率[21-22]作為模型性能的評估指標。其中模型精度和召回率的計算公式為:
(17)
(18)
模型準確率的計算公式如下:
(19)
其中:TP表示PD被正確識別的樣本數(shù)量,F(xiàn)P表示被誤報的非PD樣本數(shù)量,TN表示非PD被正確識別的樣本數(shù)量,F(xiàn)N為被漏報的PD樣本數(shù)量。
(20)
其中:F1-score是精度和召回率的加權(quán)求和平均值,精確度表示所有PD陽性樣本中被準確預測為陽性樣本的百分比,召回率表示所有PD陽性樣本中被正確預測為陽性樣本的檢出率。
為測試和驗證MHA-CNN模型的性能,本節(jié)進行了兩模態(tài)消融實驗和模型性能對比實驗,分別從精確度、準確率、召回率、損失值、F1-score等5個評估指標系統(tǒng)評估了MHA-CNN性能,具體實驗結(jié)果如下。
3.4.1 兩模態(tài)消融實驗
圖3是MHA-CNN在訓練集中的訓練結(jié)果。如圖3(a~b)分別為模型AP曲線圖和ROC曲線圖,通過對比,添加多頭注意力機制后的MHA-CNN模型AP曲線與ROC曲線下面積均大于未添加注意力的曲線,表明MHA-CNN模型性能更好;如圖3(c),隨著迭代輪次的增加,添加注意力的模型準確率快速上升,并趨于穩(wěn)定,其中峰值準確率約為0.99;如圖3(d)所示,隨著模型訓練輪數(shù)的增加,添加注意力的模型損失值下降速度更快,并快速收斂,損失值約為0.32,性能均優(yōu)于未添加注意力機制的模型。
圖3 MHA-CNN兩模態(tài)消融實驗結(jié)果
3.4.2 模型性能對比實驗
為進一步驗證MHA-CNN模型性能,研究中對MHA-CNN模型與傳統(tǒng)的LWF模型的性能進行了對比,對比實驗結(jié)果如圖4所示。
圖4 模型性能對比實驗結(jié)果
圖4(a~d)顯示了MHA-CNN和LWF在測試集中的運行結(jié)果。MHA-CNN的Accuracy、Precision、Recall和F1-score分別為0.913、0.908、0.904和0.906,要明顯高于LWF的0.643、0.50、0.321和0.391,在基于兩模態(tài)數(shù)據(jù)的PD智能輔助診斷效果層面要明顯優(yōu)于LWF模型。圖3(e)表明,隨著測試次數(shù)的增加,MHA-CNN的準確率快速上升并收斂。實驗結(jié)果表明,基于多頭注意力機制的帕金森病多模態(tài)遠程檢測系統(tǒng)能夠滿足PD大規(guī)模早期安全篩查要求。
本文設計了一種基于多頭注意力機制的帕金森病多模態(tài)安全遠程輔助檢測系統(tǒng)。研究中通過在卷積神經(jīng)網(wǎng)絡CNN后融合多頭注意力機制,提高了卷積神經(jīng)網(wǎng)絡算法模型的多模態(tài)數(shù)據(jù)特征提取、融合和識別能力。同時考慮到PD患者語音和步態(tài)數(shù)據(jù)特征所包含的能夠唯一識別數(shù)據(jù)主體的隱私信息,研究中使用了一種基于余弦混沌的差分隱私保護噪聲擾動方式,在數(shù)據(jù)傳輸前將語音和步態(tài)數(shù)據(jù)隨機拆分并編號,通過向編號中添加噪聲的形式,保證數(shù)據(jù)傳輸過程的安全性。為了驗證MHA-CNN模型的性能,本文進行了兩模態(tài)消融實驗和對比實驗,仿真實驗結(jié)果表明,MHA-CNN的準確率、精度等高于0.9,且模型的準確率和損失隨著訓練和測試的輪次增加,均快速收斂并趨于穩(wěn)定。實驗結(jié)果達到了PD檢測識別的預期目標,在提高PD遠程診療準確性和穩(wěn)定性的同時,保證了PD數(shù)據(jù)的隱私安全性。
在后續(xù)研究中,將進一步融合用于PD臨床檢驗的文本數(shù)據(jù)等,開展更高模態(tài)的PD智能輔助檢測研究,持續(xù)提高PD早期檢測準確率。同時,開展PD輔助檢測過程的安全性研究,確保PD多模態(tài)遠程檢測過程的安全性,不斷提升PD輔助診療結(jié)果對于PD臨床診療的決策支持作用和價值。