朱旭,劉靜,董澤萍,仇大偉
山東中醫(yī)藥大學智能與信息工程學院,山東濟南市250355
手勢在非語言交流中起著重要作用[1]。傳統(tǒng)采用攝像機和光學運動捕捉設備描繪人體運動軌跡,進而識別手勢動作[2];表面肌電圖(surface electromyography,sEMG)信號為包括手勢在內(nèi)的運動意圖識別提供了另一種解決方案[3]。sEMG 是一種通過放置在人體皮膚表面的肌電電極獲取的生物電信號,與人的行為意圖直接相關,即使對那些肢體肌肉功能下降、無法控制肌肉收縮過程的患者,仍然可以通過采集特定肌肉的sEMG映射手勢動作意圖[4]。
近年來,sEMG 被廣泛應用于假肢控制、醫(yī)療器械、人機交互等領域[5]。利用人工智能算法分析從殘肢采集的sEMG,可以更好幫助殘疾人獨立完成一些日常交互。由于信息豐富、對人體無創(chuàng)、采集設備易獲得,基于sEMG 識別手勢動作逐漸成為研究熱點[6-8]。
基于sEMG 手勢動作意圖識別的核心是準確區(qū)分不同手勢的sEMG 信號。采用合適的肌電設備和預處理方法可以有效提高手勢識別率,但更為重要的還是分類器的選擇[9]。傳統(tǒng)機器學習模型在該領域已經(jīng)得到成熟應用,把經(jīng)過提取的信號特征作為模型的輸入,但過于復雜的特征集會導致sEMG 信息丟失[10]。常用的傳統(tǒng)機器學習模型包括線性判別分析(linear discriminant analysis,LDA)、人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)、支持向量機(support vector machine,SVM)、K 最鄰近法(k-nearest neighbor,KNN)以及樸素貝葉斯(naive Bayes,NB)等。深度學習模型是機器學習的一個特殊分支,有別于傳統(tǒng)機器學習依賴于人工提取特征,能把原始sEMG 信號作為模型輸入,并且允許特征提取和模型構(gòu)建同時進行[11]。常用的深度學習模型包括卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、長期短期記憶(long short-term memory,LSTM)、時序卷積網(wǎng)絡(temporal convolutional network,TCN)、門循環(huán)單元(gate recurrent unit,GRU)以及深度置信網(wǎng)絡(deep belief network,DBN)等。
準確可靠的手勢分類精度可以為患者提供良好的人機交互基礎,在研究中獲得不錯的意圖識別效果,主要體現(xiàn)在sEMG 信號的采集設備、預處理方法以及分類模型的改進。
計算機檢索PubMed、Web of Science、中國知網(wǎng)、萬方數(shù)據(jù)庫建庫至2021 年12 月31 日公開發(fā)表的中、英文文獻。
中文檢索式:(表面肌電OR 表面肌電圖OR 表面肌電信號)AND 手勢
英文檢索式:(surface electromyography OR sEMG OR surface electromyography signal) AND gesture
納入標準:①研究對象的肌電動作為手勢動作;②研究類型為手勢分類研究。
排除標準:①重復發(fā)表;②學位論文;③無法獲取全文。
由2 名熟悉sEMG 和人工智能算法的研究人員獨立進行文獻篩選和評估,剔除重復文獻,閱讀標題、摘要和全文,篩選符合要求的文獻。使用制定好的表格提取數(shù)據(jù),包括作者、發(fā)表時間、受試者、手勢數(shù)、分類模型和結(jié)論。
初步檢索獲取735 篇文獻,最終納入文獻25篇[12-36],其中英文23 篇[12-31,34-36],中文2 篇[32-33]。文獻篩選流程見圖1。納入文獻的基本特征見表1。
表1 納入文獻的一般情況
圖1 文獻篩選流程圖
2.1.1 采集
基于sEMG 信號的手勢識別精度受輸入數(shù)據(jù)的質(zhì)量和數(shù)量影響。sEMG 數(shù)據(jù)集根據(jù)所采用的電極密度分為兩類:稀疏多通道sEMG 數(shù)據(jù)集和高密度sEMG數(shù)據(jù)集。
稀疏多通道sEMG 數(shù)據(jù)集通過在人體皮膚表面的不同例置放置若干個肌電電極進行采集,通常需要研究者采取精確的解剖定位策略[37]。Wu等[12]提出一種基于方差分析和BPNN 的手勢識別方案,實現(xiàn)基于4 個通道肌電數(shù)據(jù)集的高精度手勢識別,與sEMG 信號特征數(shù)相比,測量位置數(shù)量變化對識別結(jié)果影響更大。Naik 等[13]發(fā)現(xiàn),截肢患者使用少量肌電傳感器能極大地改善假體的可控性。由于受試者能正常使用的肌肉位置很難統(tǒng)一歸納,手勢動作意圖識別研究中的電極數(shù)量并不是越多越好,在少量電極的基礎上得到更高的手勢識別正確率也是研究追求的目標。
高密度sEMG 數(shù)據(jù)集利用密集排列的二維電極陣列,從皮膚某一個限定區(qū)域進行采集。此類數(shù)據(jù)集允許在時間和空間域?qū)EMG 進行分析和建模[38-39]。Du等[14]提出一個高密度sEMG 的基準數(shù)據(jù)集,并采用DBN 與稀疏多通道sEMG 數(shù)據(jù)集進行比較,手勢識別率提升27.4%。Chen 等[15]認為,3D-CNN 比2D-CNN能更好識別高密度sEMG 數(shù)據(jù)集,但模型處理時間增加。高密度sEMG 數(shù)據(jù)集增加了采集的數(shù)據(jù)量,具有較高的識別效率和控制質(zhì)量,但也會帶來額外的計算需求。
2.1.2 預處理
可靠的預處理方法對分類模型提取有用信息起到至關重要的作用,是手勢識別過程中不可缺少的步驟。
由于sEMG 頻率范圍較低,難免受到噪聲干擾,有必要進行去噪處理。sEMG 頻率在20~500 Hz 最為合適[16,18-20,23-24,31,36]。Jie 等[24]采用20 Hz 巴特沃斯高通濾波器和50 Hz 陷波濾波器處理原始信號,獲得更為平滑的sEMG 信號。李沿宏等[33]對sEMG 信號中的正負電壓進行整流處理,然后采用卡爾曼濾波器對濾波去噪。
為了加快訓練速度,提高預測準確性,通常需要檢測出sEMG 中與手勢動作對應的肌肉活動區(qū)域,并去除非活動區(qū)域的sEMG,即數(shù)據(jù)分割[40]。在手勢識別領域,最優(yōu)滑動窗口長度可以保證在適當?shù)匮舆t下分類誤差最小。窗口過長會導致識別系統(tǒng)處理延遲過長,窗口過短則可能導致沒有足夠的信息用于手勢分類[41]。Triwiyanto 等[26]采用100 ms決策窗口和200 ms滑動窗口,獲得最好的sEMG 灰度圖像。李沿宏等[33]發(fā)現(xiàn),滑動窗口過小會導致手勢識別精度下降;而隨著滑動窗口增大,手勢識別精度增大,但處理時間延長,受限于實時性要求,最終將滑動窗口定義為200 ms。
原始sEMG 雖然呈周期性變化,但振幅的變化非常雜亂。通過整流濾波和窗口分割等處理,會得到更為平滑的sEMG 信號,為后續(xù)構(gòu)建手勢動作意圖識別的映射模型奠定良好基礎。
傳統(tǒng)機器學習模型用于手勢識別,通常需要從sEMG 中提取特征作為模型的輸入。Duan 等[16]基于3個通道的sEMG 信號對9 種手勢進行分類,從提取均方根比(root mean square ratio,RMSR)等特征,采用LDA 分類器,平均手勢識別率91.7%。Zhang 等[17]提出一種實時手勢識別模型,從中提取5 個時域特征,輸入ANN分類器,最高識別準確率98.7%。
僅靠著單個時頻域特征識別多種手勢,效果往往不理想。Saeed 等[18]從sEMG 數(shù)據(jù)集中提取平均絕對值、斜率符號變化數(shù)、過零點率以及波形長度等時域特征,分別將單一特征和組合特征作為ANN、LDA分類器的輸入,結(jié)果顯示組合特征手勢識別率更高。
手勢識別率與特征選擇直接相關。除常見的時域、頻域和時頻域特征,許多研究者從其他維度對sEMG 中的有效信息進行提取。為減少多個手勢的識別錯誤率,Tang 等[19]提出一種增強魯棒性的能量比特征和一種減少多通道sEMG 產(chǎn)生冗余信息的一致性特征,通過分類器證明所提出特征的有效性。Xue 等[20]采用CCA從多個受試者相同手勢產(chǎn)生的sEMG信號提取固有相關性,采用OT 減少來自數(shù)據(jù)集的變換特征矩陣之間的分布差異,結(jié)果顯示手勢識別率提升8.49%。Sun 等[21]認為,GFM 模型分解特征因子對提高肌電手勢分類的準確率有積極作用。
通常訓練集數(shù)據(jù)量越多,分類器訓練效果越好。為了得到更多sEMG 信號,采集肌電信號的通道通常達到8 個甚至更多,這就引發(fā)數(shù)據(jù)維數(shù)過高的問題。為了減少高維特征帶來的弊端,保持sEMG 信號的全局特征,研究者有必要使用降維算法對特征進行選擇。Cao等[22]設計一種低采樣率、高維數(shù)的特征組合,采用PSO 進行特征自動選擇,這種計算組合簡單快速,能有效獲取sEMG 主要特征,解決高維和冗余問題。Junior 等[23]對組合特征選擇算法和維數(shù)約簡算法進行比較,認為通過數(shù)據(jù)投影,可以將數(shù)據(jù)變換到一個新的維度空間,減少特征數(shù)量的同時提高手勢識別率。Jie等[24]提出一種結(jié)合PSO 的KNN 雙階段分類器,只需要少量的特征提取計算,就可以達到多個特征組合的手勢識別率。
基于傳統(tǒng)機器學習的手勢動作意圖識別方法已經(jīng)有成熟的研究流程,可以在手勢動作分類較少的sEMG 數(shù)據(jù)集上得到較高識別正確率。但傳統(tǒng)機器學習的識別方法對于特征選取和分類器的選擇仍有一定依賴性[25]。對于分類器來說,傳統(tǒng)機器學習方法形式固定,泛化性較差,對超參數(shù)的設置較為依賴,不易達到較高的識別準確率。
考慮到傳統(tǒng)機器學習模型受sEMG 信號特征提取方法的影響,很難區(qū)分相似手勢之間的細微差異。近年來,研究人員轉(zhuǎn)而選擇可以從數(shù)據(jù)中自動學習高級語義特征的深度學習模型。隨著大型sEMG 數(shù)據(jù)集的出現(xiàn)和肌電采集器的最新發(fā)展,深度學習在手勢意圖識別領域顯示了廣闊前景。Triwiyanto 等[26]提出一種CNN手勢分類模型,并給出模型的最佳超參數(shù),證明深度學習模型中直接使用sEMG 輸入會優(yōu)于特征組合。Chen 等[27]提出一種緊湊的CNN 手勢識別模型,在減少模型參數(shù)量的同時,提高手勢識別精度。Sharif 等[28]對不同數(shù)據(jù)集進行定量實驗,結(jié)果顯示在數(shù)據(jù)量較小的數(shù)據(jù)集上,CNN 算法能提供與SVM 算法相似的手勢識別率;而在數(shù)據(jù)量大的數(shù)據(jù)集上,CNN算法可以實現(xiàn)更高手勢識別精度。Zhai 等[29]提出一種可以自校準的CNN分類模型,解決sEMG信號非平穩(wěn)特性給手勢分類帶來的負面影響,相對SVM 分類器,對正常人的手勢識別率提升10.18%,對截肢者的手勢識別率提升2.99%,提示深度學習模型可以通過補償sEMG信號的連續(xù)漂移,提高手勢識別率。
基于圖像輸入的深度學習模型已有成熟的應用。一些學者使用sEMG 振幅到像素的映射方法,將sEMG 信號轉(zhuǎn)換成相應的灰度圖像,輸入深度學習模型進行手勢意圖識別。Cheng 等[30]提出一種基于CNN的sEMG 手勢識別模型,利用深度學習模型對sEMG圖像、sEMG 特征圖像和sEMG 組合特征圖像進行訓練和分析,使用一維卷積核作為深度抽象特征提取器,降低抽象特征中隱藏冗余信息的可能性,間接提高手勢識別的準確性。Asif等[31]通過觀察多層CNN 對幾個手部動作sEMG 分類性能變化,認為單一網(wǎng)絡會明顯偏好某些動作,并非對所有動作都有類似的分類性能。許留凱等[32]將能量核相圖處理成灰度圖像,再結(jié)合CNN 做手勢識別,在精度和計算效率上都有明顯優(yōu)勢。
將sEMG 信號直接轉(zhuǎn)換為二維灰度圖像,可以有效提升手勢識別準確率,但也會造成時序信息丟失。李沿宏等[33]提出一種融合注意力機制的多流卷積肌電手勢識別網(wǎng)絡模型,顯著提高端到端多手勢識別準確率。Nasri 等[34]用離線數(shù)據(jù)集對GRU 手勢識別模型進行訓練,再對多個受試者進行現(xiàn)場實驗,該系統(tǒng)能區(qū)分大約80%訓練手勢,可以用于手勢識別系統(tǒng)。Zhang 等[35]利用RNN 模型從sEMG 信號中學習并預測手勢,結(jié)果表明,輸入數(shù)據(jù)的時間窗越大,該模型給出的瞬時預測精度越高。Yu 等[36]將DBN 肌電手勢分類模型應用于中國手語識別領域,表明帶有時序信息的網(wǎng)絡生成特征比人工特征包含更全面的信息。
深度學習模型不必對sEMG 進行人工特征提取,節(jié)省了大量預處理時間。隨著sEMG 數(shù)據(jù)量增大,深度學習模型的分類性能會越來越好,而傳統(tǒng)機器學習方法性能表現(xiàn)卻趨于平緩甚至下降。深度學習模型在sEMG 手勢中的應用已經(jīng)實現(xiàn)了端到端的識別框架,強大的數(shù)據(jù)擬合能力也優(yōu)于傳統(tǒng)機器學習模型。
手部殘疾給患者生活帶來沉重負擔,嚴重影響生活質(zhì)量。實現(xiàn)假手的自然控制對提高截肢患者的生活質(zhì)量至關重要。近年來,基于sEMG 的手勢動作意圖識別技術發(fā)展迅速,但大多局限于提高離線分類和實驗室在線測試的準確性,還沒有實現(xiàn)商業(yè)化。
在手勢識別前期,先進的sEMG 采集設備和預處理方法可以減少外界環(huán)境、肌肉疲勞、電極偏移等因素的影響,減少噪聲,增加sEMG 的平穩(wěn)性,將原始信號轉(zhuǎn)換成適合特征提取和輸入的有用信息。
在手勢識別后期,能獲得更高分類精度的sEMG手勢分類模型是許多學者的研究重點。傳統(tǒng)的機器學習模型處理sEMG 數(shù)據(jù)有局限性,不能有效對瞬時、有噪和高維數(shù)據(jù)進行處理。隨著大規(guī)模sEMG 數(shù)據(jù)集的出現(xiàn)和深度學習算法的最新發(fā)展,深度學習模型在基于sEMG手勢動作意圖識別領域展現(xiàn)出光明前景。
基于sEMG 的手勢動作意圖識別對智能假手的發(fā)展有重要意義。然而,受個體差異、分類模型的實時性和設備的穩(wěn)定性等復雜因素限制,以及sEMG 的高度變異性、公開數(shù)據(jù)集的缺乏、硬件資源的限制以及臨床評估條件的缺失,嚴重影響基于sEMG 的手勢動作意圖識別技術的發(fā)展。此外,手的自然運動是多個自由度獨立且連續(xù)完成的,現(xiàn)有技術只能進行有限手勢的離散分類,無法做到準確、快速、實時識別。未來還需進一步提高改善。
利益沖突聲明:所有作者聲明不存在利益沖突。