何敏 彭嵐倩 劉宏立 胡久松
摘 要:提出了一種基于改進隱馬爾科夫模型的用戶行為識別方法.采用遺傳算法用于優(yōu)化隱馬爾科夫模型的初始參數(shù),將混沌算子代替遺傳算法中高斯變異算子,以避免傳統(tǒng)遺傳算法在收斂過程中的停滯和早熟問題,并有效解決傳統(tǒng)隱馬爾科夫模型中Baum-Welch算法對初始參數(shù)敏感的問題.此外,采用UCI中ADLs數(shù)據(jù)對用戶行為進行識別,實驗結(jié)果表明該方法具有很高的識別率和可靠性.
關(guān)鍵詞:隱馬爾科夫模型;遺傳算法;Baum-Welch算法;用戶行為識別
中圖分類號:TP391 文獻標志碼:A
Abstract:An improved Hidden Markov Models (HMM) was proposed to recognize the user's behavior. In order to improve the learning efficiency of Baum-Welch algorithm in HMM, and to solve the problem of initial sensitivity, the improved GA s used to optimize the initial parameters of HMM, in which the Chaos operator is utilized to avoid the problem of stagnation and premature convergence of the traditional GA in the convergence process. Finally, the experiment results based on ADLs data in UCI show the algorithm's availability and reliability for user's behavior recognition.
Key words:Hidden Markov Models; Genetic algorithm; Baum-Welch algorithm; users behavior recognition
隨著機器學習算法和人工智能的進步,智能家居領(lǐng)域在中國興起了浪潮.利用室內(nèi)布置的智能家居傳感器,以無線傳感技術(shù)采集并記錄用戶在日常生活中的行為數(shù)據(jù),因相似數(shù)據(jù)中隱含了用戶的某種行為模式,通過記錄的數(shù)據(jù)對用戶生活習慣建模就可以實現(xiàn)用戶行為識別[1-2].用戶行為識別技術(shù)在運動識別、健康監(jiān)測、跌倒監(jiān)測等多個領(lǐng)域得到了研究和應(yīng)用[3-7],如文獻[3]中介紹了一種基于智能手機傳感器的用戶行為識別系統(tǒng);文獻[4]介紹了使用可穿戴式設(shè)備的慣性傳感器來識別人類活動的系統(tǒng);文獻[5]中將用戶日常行為識別技術(shù)應(yīng)用到用戶健康監(jiān)測;文獻[6]對記錄的活動序列進行分析,分析結(jié)果應(yīng)用到慣性導(dǎo)航領(lǐng)域;文獻[7]基于智能移動設(shè)備對用戶行為記錄的數(shù)據(jù)實現(xiàn)了用戶行為跟蹤;文獻[8]利用極速學習機ELM分類器對移動用戶行為進行識別,提出一種位置無關(guān)的多模型移動用戶行為識別方法;文獻[9]結(jié)合L(2,1)范數(shù)稀疏特征選擇和超法向量提出了一種新的深度圖像序列行為識別方法,并利用線性分類器Liblinear進行分類;文獻[10]針對目前行為識別通用模型對步行、上樓、下樓等易混淆行為識別準確率較低的情況,提出了一種基于小波分解及決策樹分類器的行為識別通用模型;文獻[11]對近年來提出的基于不同深度學習框架的人體行為識別新進展進行了逐一介紹和總結(jié)分析.
用戶行為識別技術(shù)的關(guān)鍵是找到能精確體現(xiàn)人體行為邏輯順序的關(guān)系模型,但可直接觀測到的傳感器狀態(tài)與隱藏用戶行為狀態(tài)之間不具有一一對應(yīng)的關(guān)系.隱馬爾科夫模型HMM(Hidden Markov Model)具有雙隨機過程的特性[12],能夠很好地描述兩種狀態(tài)的隱含關(guān)系;再者,HMM具有完善的數(shù)學模型和理論基礎(chǔ),能很好地分析時序事件,且已在協(xié)議異常檢測、手寫識別、股票預(yù)測和DNA序列識別、動作識別[12-14]等方面大量應(yīng)用.
本文采用HMM對用戶日常行為進行建模.HMM模型的矩陣參數(shù)辨識是用戶行為識別的重點,傳統(tǒng)的Baum-Welch算法任意選取初始參數(shù)來重估,能夠使迭代向著正確的方向發(fā)展,且收斂速度快,但是由于Baum-Welch迭代算法是根據(jù)梯度下降的方式進行局部優(yōu)化,致使參數(shù)在迭代估計的過程中易陷入局部最優(yōu)而影響最終值[15-18].為解決上述問題,本文將遺傳算法引入到HMM的Baum-Welch算法的訓(xùn)練當中,利用遺傳算法全局尋優(yōu)的優(yōu)點,有效避免了Baum-Welch算法對初值的敏感.
1 相關(guān)理論及算法介紹
1.1 隱馬爾科夫模型HMM
HMM模型包含兩個隨機過程,即觀測狀態(tài)和隱藏狀態(tài),并利用參數(shù)表示隨機過程的統(tǒng)計特性.HMM描述的是概率統(tǒng)計下的狀態(tài)轉(zhuǎn)移模型,應(yīng)用馬爾科夫假設(shè)對連續(xù)時刻之間的相關(guān)性建模,依賴于以下兩個獨立條件.
HMM模型需要解決三個問題,即模型原始矩陣參數(shù)值設(shè)定、可觀測狀態(tài)序列概率及最可能出現(xiàn)的隱藏狀態(tài)序列[17].
1.2 基于GA的HMM模型優(yōu)化算法
在HMM訓(xùn)練過程中,Baum-Welch算法對隨機選定的初始矩陣參數(shù)會產(chǎn)生較大的差異,使結(jié)果陷入局部最優(yōu),影響建模準確性.由Holland教授提出遺傳算法把自然界中“優(yōu)勝劣汰,適者生存”的思想引入?yún)?shù)優(yōu)化算法中,并通過選擇、交叉和變異對個體進行選擇,保留適應(yīng)度值好的個體,淘汰適應(yīng)度值差的個體,反復(fù)循環(huán),就得到了進化得好的種群[18-19].本文結(jié)合遺傳算法全局搜索的優(yōu)點[20-21],將經(jīng)過遺傳算法優(yōu)化后的結(jié)果當作HMM的矩陣初始參數(shù),從而解決Baum-Welch訓(xùn)練算法對初始參數(shù)隨機選擇造成的敏感問題.但使用傳統(tǒng)的遺傳算子,又會容易被進化過程當中產(chǎn)生的“超級個體”困住,無法使其余染色體得到同樣的進化,丟失了優(yōu)秀的染色體,使得進化停滯.針對這一問題,本文對最易產(chǎn)生超級個體的變異算子進行改進,采用混沌算子進行變異操作,以普遍提高進化結(jié)果的質(zhì)量.算法詳細步驟如下:
1)染色體編碼
為保證遺傳算法在產(chǎn)生新個體的同時能滿足這一條件,需要對每一代新個體的參數(shù)進行歸一化處理,把HMM三個矩陣的各個參數(shù)作為染色體的各個基因,圖1給出了兩個隱藏含狀態(tài)時的編碼示意圖.
2)適應(yīng)度函數(shù)
適應(yīng)度函數(shù)的選擇是評選個體的重要參數(shù),由于求解的問題不同,表達式也會有不同,聯(lián)系HMM的學習算法特性,對于給定的觀測狀態(tài)序列,找到使條件概率P(O|L)最大的HMM參數(shù),基于此特性,把log(P(O|L))作為適應(yīng)度函數(shù)[15],從而保證結(jié)果的最優(yōu)化.
3)選擇算子
選擇操作通過對適應(yīng)度函數(shù)的評估,使適應(yīng)度好、生命力強的個體遺傳到下一代,選擇算子(通常為基于適應(yīng)度的函數(shù))是對整個種群執(zhí)行優(yōu)勝劣汰的操作,是為了避免有用遺傳信息在群體進化過程中被遺失,提高全局收斂性和計算效率.本文采用輪盤賭法選擇算子,挑選出適應(yīng)度高的個體.
4)交叉算子
在自然界中,兩個染色體通過交換彼此之間的信息,從而完成種群繁衍更新,提升算法的全局搜索能力.傳統(tǒng)的一點交叉,會丟失許多優(yōu)秀基因,致使個體多樣性減少.由于存在上述問題,本文選用算術(shù)交叉算子,算術(shù)交叉是指兩個染色體的基因通過選擇系數(shù)進行組合,從而產(chǎn)生新后代,算術(shù)交叉過程如下:
5)改進變異算子
變異有助于新個體的產(chǎn)生.普通的變異一般采用基于高斯分布的隨機數(shù)字進化,由于高斯函數(shù)的分布通常有長而扁平的尾巴,遠離中心軸距離較遠的個體變異概率較低,相較之下混沌算子的變異概率在橫坐標0附近對應(yīng)的縱坐標的概率是最高,具備了高斯分布的特性,且在遠離中心點的地方也有較高的概率,產(chǎn)生的后代跟父代差異更大,基于上述考慮,本文采用文獻[18]中提到的混沌映射算子用于變異操作,得到映射模型:
2 基于改進HMM模型的用戶行為識別
由于人體行為產(chǎn)生的信號時序性較強,且隱馬爾科夫模型的輸入數(shù)據(jù)通常是一維數(shù)據(jù).因此,在用于用戶行為識別時,將門磁等傳感器采集的數(shù)據(jù)通過預(yù)處理轉(zhuǎn)換為一維向量進行訓(xùn)練.圖2中列出了傳感器和用戶行為關(guān)系的HMM模型.
本文采用前述的基于改進HMM模型方法對用戶日常行為識別,具體流程圖如圖3所示.
首先對訓(xùn)練數(shù)據(jù)進行預(yù)處理,將訓(xùn)練數(shù)據(jù)集中的時刻統(tǒng)一劃分為26個時段,使數(shù)據(jù)集構(gòu)成的數(shù)據(jù)長度一致,對數(shù)據(jù)存儲提供了方便.預(yù)處理之后將訓(xùn)練數(shù)據(jù)作為觀測數(shù)據(jù),在HMM訓(xùn)練過程中,把經(jīng)過遺傳算法優(yōu)化后的結(jié)果當作HMM的矩陣初始參數(shù),引入Baum-Welch算法中學習,得到重估后的概率矩陣參數(shù),基于概率矩陣參數(shù)構(gòu)建模型庫.將待識別的測試數(shù)據(jù)采用前向算法,計算HMM模型庫中l(wèi)og(P(O|L))的值,從各個HMM對應(yīng)的前向概率對數(shù)值中選取最大的值所對應(yīng)的HMM模型作為該測試數(shù)據(jù)對應(yīng)的模型.利用前向概率找到了合適的模型,最后用Viterbi算法解碼,動態(tài)尋找最佳路徑,得到觀測數(shù)據(jù)對應(yīng)的隱狀態(tài),即用戶行為.
3 實驗結(jié)果及分析
為驗證上述方法的有效性,本文采用UCI數(shù)據(jù)集中ADLs[22](Activities of Daily Living)數(shù)據(jù)作為對象進行實驗.數(shù)據(jù)集中記錄了兩組數(shù)據(jù),分別是12種傳感器和10種用戶生活習慣,通過在門、沙發(fā)、床、櫥柜、冰箱和廁所沖水箱等地方放置相應(yīng)的傳感器采集數(shù)據(jù),數(shù)據(jù)集總共記錄了35天的生活數(shù)據(jù),按比例5∶2分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù).并且對結(jié)合改進GA的BW算法、結(jié)合傳統(tǒng)GA的BW算法[23]、經(jīng)典BW算法[24]三者的標準方差進行比較,并計算識別率.從圖4仿真結(jié)果圖中可以看出結(jié)合改進GA的BW算法產(chǎn)生的結(jié)果明顯優(yōu)于結(jié)合傳統(tǒng)GA的BW算法.
為了比較三種算法在訓(xùn)練隱馬爾科夫模型參數(shù)的收斂性,采用標準誤差進行結(jié)果對比:
抽取一個樣本觀察在BW迭代過程中轉(zhuǎn)移概率矩陣得到的標準誤差如圖5所示.可以看出三種算法中,經(jīng)典BW算法[24]的標準誤差接近0.24左右才收斂,傳統(tǒng)GA結(jié)合BW算法[23]的標準誤差接近0.2左右收斂,改進GA經(jīng)過BW迭代后的標準誤差接近0.14時收斂,改進GA得到的初始值經(jīng)過BW迭代后提高了全局搜索能力,避免了對初始值敏感這一問題.
圖6為改進后的遺傳算法跟傳統(tǒng)的遺傳算法[23]的適應(yīng)度值的比較,(a)圖中給出的是改進GA的最佳適應(yīng)度和平均適應(yīng)度值,從圖中可以看出兩者之間趨向一致且最佳適應(yīng)度值跟平均適應(yīng)度值差距不大,染色體之間的適應(yīng)度值均比較高,沒有進化的超級個體,實現(xiàn)了全局優(yōu)化,而(b)圖中在第6代最佳適應(yīng)度值出現(xiàn)了突增,且后面代數(shù)平均適應(yīng)度值增長緩慢,說明該算法產(chǎn)生了超級個體,適應(yīng)度值遠遠超過其他染色體,循環(huán)一直不能跳出該值,陷入了局部優(yōu)化.綜合以上分析,改進的GA實現(xiàn)了全局優(yōu)化,更加準確地訓(xùn)練出HMM模型,提高了系統(tǒng)的質(zhì)量,從而驗證了改進的遺傳算法的穩(wěn)定性和有效性.
4 結(jié) 論
針對傳統(tǒng)HMM模型中Baum-Welch算法易受初始參數(shù)影響的問題,本文提出了一種基于改進HMM的魯棒用戶行為識別方法,將A,B,π三個矩陣的各個參數(shù)作為染色體的基因,對其進行全局搜索優(yōu)化.為保證模型的穩(wěn)定性,本文利用改進的遺傳算法,將混沌變異算子代替?zhèn)鹘y(tǒng)高斯算子應(yīng)用到遺傳算法中,用改進后的算法得到的結(jié)果作為BW算法的初始參數(shù),隨后建立HMM模型庫,為用戶行為匹配提供了途徑,之后用Viterbi算法解出對應(yīng)的用戶行為,最后用UCI數(shù)據(jù)集中的ADLs數(shù)據(jù)進行實驗,對經(jīng)典BW、傳統(tǒng)GA+BW和改進GA+BW三種算法在迭代過程中矩陣參數(shù)的標準方差進行比較,并對算法的最佳適應(yīng)度和平均適應(yīng)度值進行對比,結(jié)果表明本文提出的方法在識別準確率、標準誤差上都要優(yōu)于另外兩種算法,在適應(yīng)度上也能看出彌補了傳統(tǒng)遺傳算法的缺點,從而驗證了算法的有效性和可靠性.
參考文獻
[1] LI M, LIN H. Design and implementation of smart home control systems based on wireless sensor networks and power line communications[J]. IEEE Transactions on Industrial Electronics, 2015,62(7):4430-4442.
[2] ORDEZ F J, ENGLEBIENNE G, TOLEDO P D, et al. In-home activity recognition: Bayesian inference for hidden Markov models[J]. IEEE Pervasive Computing, 2014,13(3):67-75.
[3] HOSEINI-TABATABAEI S A, GLUHAK A, TAFAZOLLI R. A survey on smart phone-based systems for opportunistic user context recognition[J]. ACM Computing Surveys(CSUR), 2013,45(3):1-33.
[4] BULLING A, BLANKE U, SCHIELE B. A tutorial on human activity recognition using body-worn inertial sensors[J]. ACM Computing Surveys(CSUR), 2014,46(3):57-76.
[5] CHIANG J H, YANG P C, TU H. Pattern analysis in daily physical activity data for personal health management[J]. Journal Pervasive and Mobile Computing, 2014,13(4):13-25.
[6] ZHOU B, LI Q, MAO Q, et al. Activity sequence-based indoor pedestrian localization using smart phones[J]. IEEE Transactions on Human-Machine Systems, 2015,45(5):562-574.
[7] MARTIN H, BERNARDOS A M, IGLESIAS J, et al. Activity logging using lightweight classification techniques in mobile devices[J]. Personal and Ubiquitous Computing, 2013,17(4):675-695.
[8] 王忠民,韓帥,宋輝.一種位置無關(guān)的多模型移動用戶行為識別方法[J].計算機應(yīng)用研究,2017,34(4):1060-1062,1066.
WANG Z M, HAN S, SONG H. A location-independent multi-model mobile user behavior recognition method[J]. Application Research of Computers,2017,34(4):1060-1062,1066.(In Chinese)
[9] 宋相法,張延鋒,鄭逢斌.基于L(2,1)范數(shù)稀疏特征選擇和超法向量的深度圖像序列行為識別[J].計算機科學,2017,44(2):306-308,323.
SONG X F, ZHANG Y F, ZHENG F B. Activity recognition from depth image sequences based on L(2,1) norm sparse feature selection and super normal vector[J]. Computer Science, 2017,44(2):306-308,323.(In Chinese)
[10]賀炎,王斌,王忠民.小波分解在移動用戶行為識別中的應(yīng)用[J].北京郵電大學學報,2016,39(4):67-70.
HE Y, WANG B, WANG Z M. Application of wavelet decomposition in mobile user behavior recognition[J]. Journal of Beijing University of Posts and Telecom, 2016,39(4):67-70.(In Chinese)
[11]朱煜,趙江坤,王逸寧,等.基于深度學習的人體行為識別算法綜述[J].自動化學報,2016,42(6):848-857.
ZHU Y, ZHAO J K, WANG Y N, et al. Summarization of human behavior recognition algorithm based on deep learning[J]. Journal of Automation, 2016,42(6):848-857.(In Chinese)
[12]王昌海,張建忠,徐敬東,等.基于HMM的動作識別結(jié)果可信度計算方法[J].通信學報,2016,37(5):143-151.
WANG C H, ZHANG J Z, XU J D, et al. Identifying the confidence level of activity recognition via HMM[J]. Journal on Communications, 2016,37(5):143-151.(In Chinese)
[13]HASSAN M R, NATH B. Stock market forecasting using Hidden Markov Model: a new approach[C]//International Conference on Intelligent Systems Design and Applications. 2005:192-196.
[14]溫加睿,劉麗娜,芮玲,等.基于自學習特征與HMM的人體動作識別[J].系統(tǒng)仿真學報,2015,27(8):1782-1789,1795.
WEN J R, LIU L N, RUI L, et al. Human action recognition based on self-learning feature and HMM[J]. Journal of System Simulation, 2015,27(8):1782-1789,1795.(In Chinese)
[15]ALEMDAR H, KASTEREN T L M V, NIESSEN M E, et al. A unified model for human behavior modeling using a hierarchy with a variable number of states[J]. International Conference on Pattern Recognition,2014,29(2):3804-3809.
[16]PATTERSON D J, FOX D, KAUTZ H, et al. Fine-grained activity recognition by aggregating abstract object usage[C]//IEEE International symposium on Wearable Computers. 2005:44-51.
[17]CRANDALL A S, COOK D J. Using a Hidden Markov Model for resident identification[C]//Sixth International Conference on Intelligent Environments. IEEE Xplore, 2010:74-79.
[18]YANG L J, CHEN T L. Application of chaos in genetic algorithms[J]. Journal of Communications in Theoretical Physics, 2002,38(8):168-172.
[19]HALALAI R, LEMNARU C, POTOLEA R. Distributed community detection in social networks with genetic algorithms [C]// IEEE International Conference on Intelligent Computer Communication and Processing. 2010:35-41.
[20]LIAO L, FOX D, KAUTZ H. Location-based activity recognition using relational Markov networks [C]// International Joint Conference on Artificial Intelligence. 2005:773-778.
[21]劉振軍,楊迪雄.面向工程全局優(yōu)化的混沌優(yōu)化算法研究進展[J].計算力學學報,2016,33(3):269-286.
LIU Z J, YANG D X. Research advances of chaos optimization algorithms for engineering global optimization[J]. Journal of Computational Mechanics, 2016,33(3):269-286.(In Chinese)
[22]ORDONEZ F J, De TOLEDO P, SANCHIS A. Activity recognition using hybrid generative/discriminative models on home environments using binary sensors [DB/OL]. Sensors. https://archive.ics.uci.edu/ml/datasets/Activities+of+Daily+Living+(ADLs)+Recognition+Using+Binary+Sensors, 2013-13,5460-5477/2017-5.
[23]吳剛,邱煜晶,王國仁,等.基于隱爾可夫模型和遺傳算法的地圖匹配算法[J].東北大學學報(自然科學版),2017,38(4):472-475.
WU G, QIU Y J, WANG G R, et al. Map matching algorithm based on Hidden Markov model and Gennetic algorithm[J]. Journal of Northeastern University(Natural Science), 2017,38(4):472-475.(In Chinese)
[24]BILMES J A. A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian Mixture and Hidden Markov models[M]. U.C. Berkeley: International Computer Science Institute, 1998:120-126.