盛 翔 , 鄭書河 , 王 鑫 , 聶子言 , 段文鑫
(1.福建農(nóng)林大學機電工程學院,福建 福州 350000;2.福建省現(xiàn)代農(nóng)業(yè)裝備高校工程研究中心,福建 福州 350000)
在過去20 年里,民用無人機發(fā)展迅速,市場規(guī)模逐年遞增。有研究顯示,僅在2018—2021 年間,全球無人機市場規(guī)模由141 億元增長至256 億元[1]。現(xiàn)如今全球無人機相關(guān)的法律法規(guī)和培訓過程標準尚在摸索建設(shè)過程中,傳統(tǒng)的教學評價主要采用的是過程評價指標[2]和行為評價指標[3]。然而,這兩種績效表現(xiàn)評估方法不能提供個體在學習過程中的心理認知信息。現(xiàn)已有部分研究將腦力認知負荷的識別應用于多種學習工作環(huán)境當中,例如學生在線學習[4]和網(wǎng)頁瀏覽[5]。Abhishek 和Suma 使用腦電圖(Electroencephalogram, EEG)來量化電腦游戲玩家的壓力[6]。
使用人工神經(jīng)網(wǎng)絡(luò)(ANN)對EEG 運動圖像進行分類的平均準確率為81%[7]。長短時記憶(Long short-term memory, LSTM)/RNN 是深度神經(jīng)網(wǎng)絡(luò)的一種,已經(jīng)在與順序數(shù)據(jù)相關(guān)領(lǐng)域廣泛使用[8]。近年來,LSTM 已應用于情緒識別[9]、預測句子語義相關(guān)性[10]等各個領(lǐng)域,但在心理生理信號方面展開的研究較少。對于心理生理信號,Yildirim[11]提出了一種名為DBLSTM-WS 的深度雙向LSTM 網(wǎng)絡(luò)小波序列的新模型,用于對心電圖(electrocardiogram)信號分類,此模型具有99.39%的高識別率。雙向長短時記憶網(wǎng)絡(luò)(Bidirectional long short-term memory)現(xiàn)多用于語義和文本特征的情緒預測方向,如Zhou 等[12]提出了一種結(jié)合word2vec 模型和堆疊雙向長短期記憶(Stacked Bi-LSTM)模型的情感分析方法。
傳統(tǒng)無人機培訓領(lǐng)域的認知評價研究主要集中在軍用無人機領(lǐng)域,但是軍用無人機與民用無人機在駕駛員數(shù)量、操控難度、任務分配等多方面存在巨大差異,因此已有研究結(jié)果不能沿用至現(xiàn)有民用小型無人機領(lǐng)域。本研究主要包括兩個目的:1)探究使用基于認知能力與腦電信號對民用小型無人機操控者能力等級劃分的可能性;2)探究創(chuàng)新算法對其等級能力劃分的準確度。
LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變體,與經(jīng)典的單向LSTM 相比,該網(wǎng)絡(luò)在每個時間步驟上,輸入序列會同時通過兩個獨立的LSTM 網(wǎng)絡(luò),一個按照正向順序處理序列,另一個按照逆向處理,這樣可同時捕獲EEG序列早期和晚期的動態(tài)信息[13]。
Bi-LSTM 網(wǎng)絡(luò)如圖1 所示,雙向LSTM 神經(jīng)網(wǎng)絡(luò)的主體結(jié)構(gòu)包含前向?qū)雍秃笙驅(qū)痈饕粋€,其中,(h_t)→是前向?qū)拥碾[藏輸出序列,利用時間指標1 到t-1 的EEG 特征樣本計算得出;而(h_t)←是后向?qū)拥碾[藏輸出,計算從t+1到結(jié)束的EEG特征樣本得出。
圖1 Bi-LSTM網(wǎng)絡(luò)
LSTM 單元結(jié)構(gòu)包括三個門的記憶單元:遺忘門、輸入門、輸出門。LSTM 單元關(guān)系結(jié)構(gòu)如圖2 所示,xt是當前單元輸入,ht-1是前一個隱藏狀態(tài),ct-1是前一個細胞輸出狀態(tài)。ft為遺忘門,負責扔掉信息;it為輸入門,負責存儲信息并更新細胞狀態(tài);ot為輸出門,負責輸出當前信息并決定是否傳遞給下一個細胞單元。
圖2 LSTM單元關(guān)系結(jié)構(gòu)
遺忘門、輸入門、輸出門的輸出如公式(1)至公式(3)所示。當前LSTM 單元的輸出ct和當前隱藏狀態(tài)ht可根據(jù)公式(4)至公式(6)計算得出。
其中,?為元素乘法算子;W#為隱含層的自更新權(quán)重;b#為偏置向量。σ(·)和tanh(·)分別為sigmoid和雙曲正切函數(shù)。
雙向LSTM 在單向的LSTM 模型的基礎(chǔ)上做出改動,整個單元的ht輸出計算見公式(7)。
在本研究中,使用的是EMOTIVE EPOC Flex便攜式頭戴式腦電采集設(shè)備,具有32 個通道。該裝置以128 Hz 的采樣率記錄信號,電極安裝基于國際10-20 系統(tǒng)排布。本次實驗將11 名受試者作為實驗對象,對每個受試者至少進行了10個試次。
考慮到實驗安全性,實驗在DJI Flight Simulator模擬器中進行,該模擬器仿真度較高。無人機型號為“DJI Mavic 3 Air”。此款軟件可以較為真實地模擬現(xiàn)實中操控無人機的場景,受試者在隧道穿越關(guān)卡中通過手柄控制無人機穿過分布在隧道路徑中隨機位置的圓環(huán)以此獲得分數(shù),關(guān)卡有90 s 的倒計時,其中漏掉一個環(huán)會被系統(tǒng)扣除5 s,時間耗完或出現(xiàn)炸機情況會終止操作并記錄最終得分。實驗場景和模擬器中的操作畫面如圖3 所示。
圖3 實驗場景與模擬器畫面
由于受試者完成此項任務的能力水平各不相同,為此推導了一個績效指標對受試者能力表現(xiàn)進行衡量,根據(jù)最后計算得出的績效分數(shù)由低到高將受試者能力水平劃分為三個等級:基礎(chǔ)(0~4 分)、中級(4~6分)、高級(>6 分)。受試者的表現(xiàn)統(tǒng)計數(shù)據(jù)與能力評級如表1 所示。推導式(8)中,獎勵分數(shù)部分包括:受試者穿過圓環(huán)的平均得分、穿過圓環(huán)的平均數(shù)量;懲罰部分包括:漏環(huán)次數(shù)總和、炸機總次數(shù)。
表1 11名受試者的表現(xiàn)統(tǒng)計數(shù)據(jù)與能力評級
實驗整體框架如圖4 所示,首先對EEG 信號進行目測檢查,手動去除被EMG 和EOG 污染的記錄。為了濾除噪聲和去除偽跡,使用線性相位FIR 濾波器進行截止頻率為0.16 Hz 的高通濾波和截止頻率為45 Hz 的低通濾波。此外,為了消除市電工頻干擾進行50 Hz 的凹陷濾波。
圖4 實驗整體框架
通過獨立成分分析法(Independent Component Analysis, ICA)將EEG 信號分解為獨立的腦源,該方法能夠分離實驗中的眼睛活動,包括水平眼動、垂直眼動,也可以去除心臟和肌肉偽影,接著選擇全腦平均作為重參考標準。
為了對預處理過的腦電信號進行分類,從實驗數(shù)據(jù)中提取了功率譜密度(Power Spectrum Density,PSD)作為特征。PSD 是一種頻域分析方法,用于描述信號在不同頻率上的能量分布,可以從中了解腦電信號的頻譜特性和頻率成分。在腦電的頻譜分析中,通常計算一段時間內(nèi)記錄的腦電信號在以下幾個特定頻段或節(jié)律內(nèi)的功率:delta(0.5 Hz~4 Hz)、theta(4 Hz~8 Hz)、alpha(8 Hz~13 Hz)、beta(13 Hz~30 Hz)、gamma(30 Hz~80 Hz)。本文計算PSD 是通過MATLAB 中的PWELCH 函數(shù)實現(xiàn),采用窗口法來估計信號的功率譜密度。
Bi-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)包括:雙向LSTM 層、全連接層、LSTM 層、隨機失活(Dropout)層、批歸一化(Batch Normalization)層,模型完整結(jié)構(gòu)如表2所示。隨機失活層是一種在深度學習中常用的正則化技術(shù),用于減少過擬合的影響。批歸一化旨在加速神經(jīng)網(wǎng)絡(luò)的訓練過程并提高模型的泛化能力。
為評估提出的模型性能和泛化能力,進行了一次三折交叉驗證實驗,其中PSD 特征數(shù)據(jù)集的70%作為訓練集,20%和10%分別作為驗證集和測試集。在每折的訓練過程中監(jiān)測的指標為:訓練準確率和驗證準確率。圖5 展示了三折交叉驗證訓練曲線,觀察到三折的訓練和驗證準確率都快速增加,表明模型能以較快的速度學習有用的信息。隨后大約在50個epochs 后達到收斂狀態(tài),準確率逐漸改善至80%左右。
值得注意的是,在Fold2 的圖線上,訓練至50 個epochs 時準確率出現(xiàn)了下降,隨后開始迅速上升至93.6%左右,出現(xiàn)此類現(xiàn)象的原因是受到數(shù)據(jù)中存在的噪聲和子數(shù)據(jù)集分配的影響。在Fold3 的訓練曲線上,可以看出驗證準確率趨于穩(wěn)定,也未出現(xiàn)過擬合的現(xiàn)象,準確率達到最優(yōu)??傮w上,本文提出的模型在三折上展現(xiàn)了穩(wěn)定的學習動態(tài),并隨著時間持續(xù)改善。
模型(歸一化)混淆矩陣如圖6 所示,混淆矩陣列舉了592、1 368 和777 個數(shù)據(jù)作為高級、基礎(chǔ)和中級類別的真陽性。圖6(b)是本研究提出的Bi-LSTM 模型的歸一化混淆矩陣,對三個類別的分類精度分別為0.95、0.99 和0.96,對三個類別的分類誤差分別低至為0、0.08、0.02。
圖6 模型(歸一化)混淆矩陣
本文另外對比了ANN 模型以及LSTM 模型、GRU 模型,結(jié)果如表3 所示。結(jié)果表明,Bi-LSTM 模型在三折上驗證準確率達87.67%。使用測試集衡量分類結(jié)果的測試精度、靈敏度和特異性,Bi-LSTM 模型測試準確率比ANN 模型高出約16%,靈敏度和特異性整體表現(xiàn)也比ANN、LSTM 和GRU 模型突出,分別達到90%和92%。由此可見,本文提出的Bi-LSTM 模型利用腦電信號對能力水平等級進行多分類具有較高的可行性。
表3 四個模型分類在三折上的平均表現(xiàn)
針對無人機模擬器操作能力水平等級分類問題,課題組提出了一種10 層的深度循環(huán)神經(jīng)網(wǎng)絡(luò)。通過提取PSD 作為特征值,將其作為Bi-LSTM 模型的輸入進行三折交叉驗證訓練和測試。結(jié)果證明了所提方法的有效性,模型最大分類準確率為98%,特異性為92%,敏感性則為90%,反映出本文的研究能為工程實踐教育領(lǐng)域認知能力評價提供一定的參考價值。
該方法可用于設(shè)計能夠根據(jù)用戶技能水平自適應其功能的實時未來系統(tǒng)。未來研究可增加受試者數(shù)目,來檢驗本研究提出的新方法在樣本均衡以及模型泛化能力方面的穩(wěn)健性。