趙 海, 陳佳偉, 施 瀚, 王 相
(東北大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 遼寧 沈陽 110169)
人體活動識別是通過各種傳感器采集人體行為數(shù)據(jù),并利用計算機(jī)技術(shù)對其進(jìn)行分析來理解人體各種行為活動的過程,它在老人監(jiān)護(hù)[1]、健康監(jiān)測[2]、娛樂和運動等多個方面都有著良好的應(yīng)用前景.隨著智能手機(jī)、智能手表等電子設(shè)備的普及,利用這些隨身攜帶的電子設(shè)備來識別人體活動成為研究熱點.范長軍等[3]利用智能手機(jī)和手環(huán)組成一個體域網(wǎng)并基于此設(shè)計了一套在線人體識別系統(tǒng),殷曉玲等[4]提出了一種利用智能手機(jī)內(nèi)置的傳感器來識別人體運動狀態(tài)的方案,Fu等[5]則設(shè)計了一種無線傳感器節(jié)點來解決用戶活動個性化識別的問題.
機(jī)器學(xué)習(xí)訓(xùn)練過程的前提是數(shù)據(jù)獨立同分布,然而每個人的數(shù)據(jù)分布是不一致的,個體之間行為活動的差異導(dǎo)致傳統(tǒng)模型的識別精度不高[6].遷移學(xué)習(xí)常被用來解決在不同任務(wù)域中進(jìn)行知識遷移的問題,它可以良好地解決由于數(shù)據(jù)分布不一致而導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)失效的問題.遷移學(xué)習(xí)已經(jīng)被證明在很多方向都有著良好表現(xiàn),如Hou等[7]利用遷移學(xué)習(xí)實現(xiàn)了跨領(lǐng)域的語音識別,彭雨荷等[8]提出了一種基于遷移學(xué)習(xí)的異常流量檢測方法.研究人員開始將人體活動識別和遷移學(xué)習(xí)相結(jié)合來解決識別精度不高的問題.Elnaz等[9]利用生成對抗網(wǎng)絡(luò)在人體活動識別領(lǐng)域進(jìn)行遷移學(xué)習(xí),在超過66%的實驗中優(yōu)于其他方法.Niu等[10]構(gòu)建了一個在智能家居場景下優(yōu)于基準(zhǔn)方法的多源遷移學(xué)習(xí)的人體活動識別模型.
如何降低不同任務(wù)域之間的分布差異是遷移學(xué)習(xí)要解決的關(guān)鍵問題[11].最近的研究工作已經(jīng)探索出兩種不同的思路:1)特征匹配,它主要通過特征變化的方式,將兩個不同分布的數(shù)據(jù)集映射到同一個高維空間,在這個高維空間中,它們之間的數(shù)據(jù)分布差異被縮小[12];2)實例加權(quán),這種方式的主要思想是通過不斷地對一個任務(wù)域中的實例數(shù)據(jù)進(jìn)行加權(quán),直到它們之間的數(shù)據(jù)分布差異被縮小[13-14].
大多數(shù)的遷移學(xué)習(xí)算法都是基于上面的兩種思路,然而無論是基于特征匹配的遷移學(xué)習(xí)算法還是基于實例加權(quán)的遷移學(xué)習(xí)算法,都忽視了噪聲樣本對數(shù)據(jù)分布的影響.噪聲樣本是指在數(shù)據(jù)采集的過程中產(chǎn)生較大偏差或被錯誤分類而導(dǎo)致遷移效果下降的樣本.在人體活動識別領(lǐng)域常利用可穿戴傳感器采集人的運動信號,在采集過程中必然會產(chǎn)生噪聲樣本,而不論是基于哪種思路,都沒有考慮將噪聲樣本從數(shù)據(jù)集中剔除.存在噪聲樣本,不但會影響最終的遷移效果,還會影響對活動識別的準(zhǔn)確性.
本文在傳統(tǒng)算法的基礎(chǔ)上,增加了對噪聲樣本的篩選過程,引入馬氏距離作為衡量噪聲樣本的標(biāo)準(zhǔn),提出了一種應(yīng)用于人體活動識別的遷移學(xué)習(xí)算法T-WMD.并將該算法應(yīng)用于兩個真實世界人體活動識別數(shù)據(jù)集上,結(jié)果表明本文提出的算法可以有效地提高人體活動識別的準(zhǔn)確率,優(yōu)于其他對比算法.
本文基于可遷移環(huán)境的人體識別場景進(jìn)行詳細(xì)的問題定義,考慮到噪聲樣本對遷移效果的影響,本文要解決的問題是如何利用已知的標(biāo)簽信息來對源域中的樣本進(jìn)行篩選,從而剔除噪聲樣本,并提高遷移效果,文中常用符號如表1所示.
表1 符號及說明Table 1 Notations and descriptions
本文的目標(biāo)是:1)基于特征匹配的方法減小源域和目標(biāo)域之間的分布差異;2)通過樣本選擇的方式篩選并剔除噪聲樣本,提高遷移性能.
特征匹配方法是通過特征變換的方式互相遷移,來減少源域和目標(biāo)域之間的差異,或者將源域和目標(biāo)域的數(shù)據(jù)特征變換到統(tǒng)一的特征空間中,然后利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類識別.本文引入遷移成分分析[14](transfer component analysis,TCA),是基于特征匹配思想的經(jīng)典遷移算法.TCA假設(shè)存在一個特征映射?,使得映射后數(shù)據(jù)分布P(?(xs))≈P(?(xt)).值得一提的是,TCA假設(shè)如果邊緣分布接近,那么兩個領(lǐng)域的條件分布也會接近,即條件分布P(ys|?(xs))≈P(ys|?(xt)).
具體而言,TCA利用最大均值差異(maximum mean discrepancy, MMD)來計算源域和目標(biāo)域映射后的距離:
(1)
其中,n1和n2分別為源域和目標(biāo)域的樣本個數(shù).
將式(1)展開,引入核矩陣
(2)
其中,K=[?(xi)T?(xj)].
以及MMD矩陣L,它的每個元素的計算方式為
(3)
將矩陣K進(jìn)行分解:
(4)
(5)
MMD(xs,xt)=tr((KWWTK)L)=tr(WTKLKW) .
(6)
為了減小源域和目標(biāo)域之間的分布差異,即MMD距離,TCA將優(yōu)化目標(biāo)定義為
(7)
s.t.WTKHKW=Im.
最后,解決式(7)的拉格朗日對偶問題:
(8)
得到的矩陣W就是映射并降維后的樣本,它的解為(KLK+μI)-1KHK的前m個特征向量,其中m≤n1+n2-1.
距離是用來衡量兩個數(shù)據(jù)域之間差異的基礎(chǔ)手段,常用的距離度量方法有很多,例如歐氏距離、最大均值差異和馬氏距離[15]等.本文所提出的算法使用的是馬氏距離,由印度統(tǒng)計學(xué)家Mahalanobis提出,是基于樣本分布的距離.它是一種有效計算兩個未知樣本集的相似度的方法,與歐氏距離相比,它考慮到各種特性之間的聯(lián)系并且與尺度無關(guān).在計算樣本大、特征多的人體運動數(shù)據(jù)時,簡單的計算方式可以大幅度減少計算時間,提高算法運行效率.
(9)
其中:μ為樣本分布的均值;S是樣本分布的斜方差矩陣.
本文提出基于加權(quán)馬氏距離的遷移學(xué)習(xí)算法T-WMD.傳統(tǒng)的算法在進(jìn)行遷移學(xué)習(xí)時,只考慮縮小源域和目標(biāo)域之間的距離,沒有考慮噪聲樣本對遷移效果的影響,T-WMD算法在傳統(tǒng)算法的基礎(chǔ)上加入了篩選噪聲樣本的步驟.
T-WMD算法首先利用TCA將源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集進(jìn)行特征映射和降維,從而達(dá)到縮小源域和目標(biāo)域之間數(shù)據(jù)邊緣分布差異的目的,然后利用本文提出的基于馬氏距離的樣本篩選算法WMD對源域樣本進(jìn)行噪聲樣本的篩選,這樣做的好處有:1)可以縮小源域和目標(biāo)域之間的條件分布差異;2)將噪聲樣本篩選出來,從而提升遷移效果和識別準(zhǔn)確率.算法具體流程如圖1所示.
圖1 T-WMD算法流程圖Fig.1 Flow diagram of T-WMD
噪聲樣本是影響遷移學(xué)習(xí)效果和識別準(zhǔn)確率的原因之一,本文所提出的WMD算法通過計算源域數(shù)據(jù)Ds和帶標(biāo)簽的目標(biāo)域DL之間的馬氏距離來對源域中的樣本進(jìn)行篩選.
首先,計算DL各類樣本的均值μc:
(10)
其中:μc是DL中第c類樣本的均值;nc是第c類樣本的總數(shù);xLi是DL中第c類的第i個樣本.
其次,計算DL中各類樣本的協(xié)方差矩陣Sc:
(11)
其中,xLm是DL中樣本的第m個特征.
然后,計算Ds中的樣本到DL中各類的馬氏距離:
(12)
其中:xi表示源域Ds中的第i個樣本;yi表示樣本xi的標(biāo)簽;α是本文引入的權(quán)重因子.
最后,當(dāng)xi對DL中各類馬氏距離計算完成后,判斷和xi距離最近的類的標(biāo)簽與yi是否相同,如果相同則保留這個樣本,否則刪除.
本算法在馬氏距離算法的基礎(chǔ)上,根據(jù)生理信號采集過程中易產(chǎn)生噪聲樣本的特點引入了權(quán)重因子α.
由于人行為的不確定性,在使用可穿戴傳感器針對各種不同動作進(jìn)行生理信號采集的過程中,可能會采集到不屬于同一類的噪聲信號,也有可能導(dǎo)致本屬于同一動作的部分信號相較于其他信號產(chǎn)生較大的差異,這兩部分信號都有可能對最后的遷移效果和識別分類的準(zhǔn)確率造成影響.
為了剔除出不屬于同一類的噪聲信號,同時篩選出產(chǎn)生較大偏差的信號,本算法引入權(quán)重因子α.在計算Ds中的樣本對DL中各類樣本的馬氏距離時,如果兩者屬于同一類,則利用式(13)進(jìn)行計算:
(13)
其中,α∈(-1,1].當(dāng)α→-1時,會使樣本xi對同類的計算的馬氏距離減少,從而保留下產(chǎn)生較大偏差的同類樣本.當(dāng)α→1,會使樣本xi對同類的計算的馬氏距離增加,從而保留下與目標(biāo)域距離最近的同類樣本.算法流程見算法1.
算法1 WMD
輸入:
過程:
1.計算DL中各類的均值μc;
2.計算DL中各類的協(xié)方差矩陣Sc;
3.forDs中的每個樣本xido:
forDL中每個標(biāo)簽cdo:
根據(jù)式(12)計算Ds中的樣本xi到DL中c類的馬氏距離;
判斷距離xi最近的類標(biāo)簽與yi是否相同,相同則保留xi,不同則刪除xi.
4. end
5.end
輸出:
樣本選擇后的源域數(shù)據(jù)集Ds.
T-WMD算法的基本流程是:首先利用TCA算法將源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集同時使用核函數(shù)映射到高維希爾伯特空間,再進(jìn)行降維操作,來縮小邊緣分布差異.然后使用本文提出的樣本選擇算法WMD對映射和降維后的源域數(shù)據(jù)進(jìn)行噪聲樣本的篩選,來縮小條件分布差異.最后使用處理好的源域數(shù)據(jù)訓(xùn)練分類器,將目標(biāo)域數(shù)據(jù)送入分類器中得到分類結(jié)果.算法流程見算法2.
算法2 T-WMD
輸入:
過程:
1.投影后的Ds,DL和DU= TCA(Ds,Dt,m);
2.樣本選擇后的Ds= WMD(Ds,DL,α);
3.把樣本選擇后的Ds作為訓(xùn)練集輸入到分類器f中進(jìn)行訓(xùn)練;
4.使用分類器f對投影后的DU進(jìn)行分類;
輸出:
無標(biāo)簽?zāi)繕?biāo)域DU的標(biāo)簽.
本文提出的算法主要由4個步驟組成:第一步投影和降維的時間復(fù)雜度為O(N),第二步樣本選擇的時間復(fù)雜度為O(MN),第三步訓(xùn)練分類器和第四步使用分類器進(jìn)行分類的時間復(fù)雜度均為O(N).所以T-WMD算法的時間復(fù)雜度為O(3N+MN)≈O(MN),其中M為標(biāo)簽個數(shù),N為樣本個數(shù).
為了驗證T-WMD算法的有效性,本文使用了兩個真實世界的人體活動識別數(shù)據(jù)集來進(jìn)行實驗.它們是PAMAP2數(shù)據(jù)集[16]和mHealth數(shù)據(jù)集[17-18],分別來自德國人工智能研究中心和格拉納達(dá)大學(xué).
PAMAP2數(shù)據(jù)集包含18種不同體育活動的數(shù)據(jù)(步行、騎自行車、踢足球等).數(shù)據(jù)集選取9位受試者,令他們佩戴3個慣性測量單元和心率檢測器.在進(jìn)行信號采集過程中,要求受試者遵循12種不同活動的協(xié)議.數(shù)據(jù)文件包含54行,每行有一個時間戳、一個活動標(biāo)簽和52個原始感官數(shù)據(jù)屬性.
mHealth數(shù)據(jù)集包含了12種不同的體育活動數(shù)據(jù).數(shù)據(jù)集采集了10名不同身材的志愿者在體育鍛煉時的身體運動和生命體征記錄.mHealth將傳感器放置在實驗對象的胸部、右手腕和左腳踝,來測量身體各個部位在運動時的加速度、轉(zhuǎn)彎速率和磁場方向.除此之外,放置在胸部的傳感器還提供2導(dǎo)聯(lián)的心電測量.
本實驗從兩個數(shù)據(jù)集中選取了坐、躺、走四類生活中常見的人體活動樣本,在這些樣本中選取了在x、y、z三個方向上的胸部、手臂和腳踝的加速度以及手臂、腳踝的角速度和磁場強度共計21維數(shù)據(jù).將這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并對每一維數(shù)據(jù)進(jìn)行了特征提取工作,提取的特征包括平均值、方差、極差、偏度和峰度等時域特征、前5個最高峰值以及對應(yīng)的頻率和11個自相關(guān)系數(shù)共計546維特征.本實驗所使用的處理后的數(shù)據(jù)集信息如表2所示.
表2 數(shù)據(jù)集說明Table 2 Description of data set
本實驗選擇的對比算法包括基于特征匹配的遷移算法TCA[14]、基于實例加權(quán)的遷移算法TJM[11]、基于聯(lián)合分布自適應(yīng)的遷移算法BDA[19]和JDA[20],為了突出算法性能的比較結(jié)果,本文選擇KNN(K=1)作為基礎(chǔ)分類器.
本文提出的算法需要設(shè)置兩個超參數(shù),維度m和權(quán)重因子α,這兩個參數(shù)均為經(jīng)驗參數(shù),本文將在3.4節(jié)中對經(jīng)驗參數(shù)進(jìn)行參數(shù)敏感性分析,以便確定α最佳的取值范圍.
實驗的具體流程:首先對PAMPA2和mHealth數(shù)據(jù)集進(jìn)行特征提取和標(biāo)準(zhǔn)化處理,然后使用KNN,TCA,TJM,BDA和T-WMD算法對構(gòu)建的遷移學(xué)習(xí)任務(wù)進(jìn)行實驗,得到實驗結(jié)果并分析.
本實驗以分類準(zhǔn)確率作為評價指標(biāo),將PAMPA2和mHealth數(shù)據(jù)集分別作為源域和目標(biāo)域構(gòu)建了兩組遷移任務(wù),實驗結(jié)果如表3所示.
表3 對比算法與本文算法的準(zhǔn)確率Table 3 The accuracy between the proposed algorithm and the contrast algorithm %
由實驗結(jié)果可以發(fā)現(xiàn),本文提出的算法在兩次實驗中都獲得了較高的準(zhǔn)確率,分別為76.04%和67.64%.與未采用遷移學(xué)習(xí)的傳統(tǒng)機(jī)器學(xué)習(xí)算法KNN(假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)滿足獨立同分布IID條件)相比,準(zhǔn)確率高出了3.12%和4.71%;與其他遷移學(xué)習(xí)算法相比,準(zhǔn)確率較最高的算法高出1.46%和2.49%,較最低的算法高出23.33%和4.93%.
TCA算法是基于特征匹配的遷移學(xué)習(xí)算法,假設(shè)通過拉近源域和目標(biāo)域之間的邊緣分布來使條件分布接近.TCA沒有考慮樣本的因素,這使得當(dāng)該算法應(yīng)用在生理信號這種具有噪聲樣本的數(shù)據(jù)集時,遷移效果不好.
TJM算法是對TCA的改進(jìn),進(jìn)一步考慮到樣本對遷移效果的影響,通過有限次的循環(huán)來給樣本進(jìn)行加權(quán).但是循環(huán)的次數(shù)會根據(jù)數(shù)據(jù)集的不同而變化,要找到最優(yōu)的循環(huán)次數(shù)可能要耗費大量的時間,而且僅僅加權(quán)并不能完全剔除噪聲樣本對遷移效果的影響.在本實驗中TJM的遷移效果不好,其原因是TJM算法是對所有樣本進(jìn)行加權(quán),但并沒有考慮有噪聲樣本的數(shù)據(jù)集的情況,在有噪聲樣本的數(shù)據(jù)集中,這種做法可能加大了噪聲樣本的影響,導(dǎo)致遷移效果下降.
JDA算法是從分布自適應(yīng)的角度提出的遷移學(xué)習(xí)算法,BDA算法是對JDA算法的提升.兩者均沒有完全剔除噪聲樣本對遷移學(xué)習(xí)效果的影響.對于生理信號這類容易產(chǎn)生噪聲的數(shù)據(jù)集來說,遷移效果不好.
相較于其他對比算法,本文提出的算法考慮了特征和樣本兩個維度,利用部分有標(biāo)簽的目標(biāo)域,對源域中的樣本進(jìn)行篩選,剔除噪聲樣本,提升了遷移效果.
在本文提出的算法中,需要提前設(shè)置權(quán)重因子α.權(quán)重因子α的值會對剔除噪聲樣本的數(shù)量產(chǎn)生影響.本文按照TCA和JDA等算法原文中的設(shè)置,統(tǒng)一設(shè)置m為30,在兩組遷移任務(wù)上,使用遍歷的方式在[-1,1]范圍內(nèi)查找α的最優(yōu)取值范圍.圖2展示了在維度m為30時,兩次實驗中權(quán)重因子對分類準(zhǔn)確率的影響.
圖2 權(quán)重因子對準(zhǔn)確率的影響Fig.2 The influence of weighting factor on accuracy
由圖2可以發(fā)現(xiàn),不同的權(quán)重因子會影響分類準(zhǔn)確率,在這兩組遷移任務(wù)上,當(dāng)α→-1時,被刪除的噪聲樣本數(shù)量減少,噪聲樣本的存在影響著遷移效果,導(dǎo)致準(zhǔn)確率下降;而當(dāng)α→ 1時,被刪除的噪聲樣本數(shù)量增多,當(dāng)α過大時還會影響正常的樣本,導(dǎo)致準(zhǔn)確率下降.因此,從圖2中可以得到,α的最優(yōu)取值范圍應(yīng)該在[-0.75, 0.5],在這個區(qū)間中選取α可以達(dá)到最高的準(zhǔn)確率,且不同的α對準(zhǔn)確率的影響不是很大.
本文針對生理信號中噪聲樣本會影響遷移效果的問題,通過利用部分有標(biāo)簽的目標(biāo)域來對源域樣本進(jìn)行篩選,剔除噪聲樣本,提出了T-WMD算法,該算法同時考慮特征和樣本兩個維度.并在兩個公開的活動識別數(shù)據(jù)集上進(jìn)行了實驗,同時與其他5種算法進(jìn)行對比.實驗結(jié)果表明,本文提出的方法可以有效地提高活動識別的準(zhǔn)確率,提升遷移效果,優(yōu)于其他對比算法.
本文提出的算法還有不足之處.在T-WMD算法中,需要指定權(quán)重因子的值,但目前只能使用遍歷的方式找到權(quán)重因子最優(yōu)的取值范圍,如何確定最佳的α值,找出與α有關(guān)的因素,這是未來要解決的問題.