網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150302.1106.008.html
基于語(yǔ)義分層的行為推理框架
聶慧饒,陶霖密
(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)
摘要:人類行為理解是實(shí)現(xiàn)“人本計(jì)算”模式的基礎(chǔ),其本質(zhì)在于獲取行為的語(yǔ)義,即由動(dòng)作特征推導(dǎo)人體的行為,需要跨越兩者之間的語(yǔ)義鴻溝;為此提出了環(huán)境上下文進(jìn)行隱式建模的方法,并基于此提出了語(yǔ)義分層的行為推理框架,該框架使用了從模糊語(yǔ)義到確定語(yǔ)義的漸近式推理。 根據(jù)知識(shí)將特征合理地分為多個(gè)層次,系統(tǒng)則根據(jù)當(dāng)前狀態(tài)去提取所需要的特征,推理當(dāng)前可能的候選行為集;并由該候選行為集指導(dǎo)處理模塊,更新特征集并進(jìn)行新一輪的推理,反復(fù)迭代至推理完成。 應(yīng)用提出的環(huán)境建模方法和漸近推理框架可以有效地實(shí)現(xiàn)行為理解。 使用隱式環(huán)境方法可以提高行為理解的準(zhǔn)確率;漸近式推理框架可以避免傳統(tǒng)推理方法無(wú)差別地提取所有特征,從而提升了推理效率。
關(guān)鍵詞:行為理解;特征行為關(guān)系;環(huán)境上下文;語(yǔ)義分層;分層推理框架
DOI:10.3969/j.issn.1673-4785.201407009
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A
收稿日期:2014-07-04. 網(wǎng)絡(luò)出版日期:2015-03-02.
基金項(xiàng)目:國(guó)家“863”計(jì)劃資助項(xiàng)目(2012AA011602);國(guó)家自然科學(xué)基金資助項(xiàng)目(61272232).
作者簡(jiǎn)介:
中文引用格式:聶慧饒,陶霖密. 基于語(yǔ)義分層的行為推理框架[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(2): 178-186.
英文引用格式:NIE Huirao, TAO Linmi. Inference framework for activity recognition based on multiple semantic layers[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 178-186.
Inference framework for activity recognition
based on multiple semantic layers
NIE Huirao, TAO Linmi
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
Abstract:Human activity recognition is the core of the implementation of human-centered computing(HCC), whose nature is to acquire activities′ semanteme. The basic problem is the semantic gap between observable actions and human activities. They should be bridged by environment context based inference. In this paper, a method is proposed to model the environment context implicitly. Further, a novel semanteme multilayered activity inference framework was presented, which divided the inferring process into 2 stages. One stage used to acquire fuzzy semanteme and another one to acquire accurate semanteme. The feature set was divided into different subsets according to knowledge. The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set. Update the features set and infer it, the process continues until the inference is completed. The modeling method and progressive inference framework proposed could handle the activity-recognition problem well. Implicitly modeling the environment context could improve the accuracy of activity recognition. The progressive framework can improve the efficiency by avoiding extracting all features indistinguishably, whose validity was proven in the data set.
Keywords:activity recognition; feature activity relation; environment context; semantic layer; multilayer inference framework
通信作者:聶慧饒. E-mail:sangoblin@yeah.net.
Pantic等[1]提出了“人本計(jì)算”(human-centered computing,HCC)的概念;這種模式被認(rèn)為是未來(lái)的計(jì)算模式,在該模式當(dāng)中,計(jì)算被隱藏在居住空間的后臺(tái),而其計(jì)算結(jié)果則在日常生活當(dāng)中與人交織在一起。與過(guò)去“以計(jì)算機(jī)為中心”的計(jì)算模式相比,HCC使用了更接近人類交互方式的方法,如理解人類的行為和情感等,從而取代傳統(tǒng)的鍵盤和鼠標(biāo)輸入;人類得以從過(guò)去僵化的輸入環(huán)境當(dāng)中解放出來(lái),而使用更加貼近其天性的自然方式與計(jì)算機(jī)進(jìn)行交互。
HCC的研究重點(diǎn)在于使計(jì)算設(shè)備與傳感設(shè)備進(jìn)行協(xié)同工作以便主動(dòng)感知場(chǎng)景中的用戶信息,分析用戶需求并完成相關(guān)任務(wù)[2]。因此,利用計(jì)算設(shè)備和傳感器協(xié)同工作以理解人類的行為是HCC的核心組成部分。針對(duì)傳統(tǒng)行為理解系統(tǒng)無(wú)差別提取場(chǎng)景當(dāng)中所有特征的弊病,本文對(duì)行為所搭載的語(yǔ)義進(jìn)行分層,并相應(yīng)地對(duì)場(chǎng)景中的特征進(jìn)行了分類,從而提出了一個(gè)由粗至精的逐步獲取行為語(yǔ)義的推理框架。
1研究現(xiàn)狀
行為理解是計(jì)算機(jī)視覺(jué)領(lǐng)域的傳統(tǒng)問(wèn)題[3],其推理方式可以大致分為基于規(guī)則的推理和基于學(xué)習(xí)的推理[4]?;谝?guī)則是指研究者根據(jù)自己對(duì)行為邏輯的認(rèn)識(shí),并利用邏輯推理的方法對(duì)行為進(jìn)行理解。該方法通常包含以下步驟:1)將所有可能的需要理解的行為囊括到模型庫(kù)當(dāng)中,并利用邏輯形式對(duì)這些行為進(jìn)行定義和描述;2)整理所獲得的傳感信息,并將其轉(zhuǎn)換為邏輯術(shù)語(yǔ)和公式;3)根據(jù)上一步當(dāng)中的術(shù)語(yǔ)和公式,進(jìn)行包括演繹、歸納和推斷等的邏輯推理,以便于根據(jù)所觀察的信息尋找最匹配的行為或者行為集(模型庫(kù)的子集)[5-7]。
基于學(xué)習(xí)的推理則又可進(jìn)一步細(xì)分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。其中無(wú)監(jiān)督的學(xué)習(xí)指的是從未進(jìn)行人工標(biāo)注的數(shù)據(jù)當(dāng)中直接建立起模型對(duì)行為進(jìn)行判別,其通用原則是根據(jù)系統(tǒng)當(dāng)前的狀態(tài)并結(jié)合對(duì)系統(tǒng)的觀察對(duì)系統(tǒng)的狀態(tài)進(jìn)行隨時(shí)更新,模型中每個(gè)動(dòng)作可能發(fā)生的概率均是由人工進(jìn)行賦予的;無(wú)監(jiān)督學(xué)習(xí)的過(guò)程通常有:1)采集原始傳感數(shù)據(jù)(未被標(biāo)注)[8];2)處理未標(biāo)注的數(shù)據(jù)并將其轉(zhuǎn)換成相應(yīng)特征;3)采用聚類等手段建立起判別模型[9-10]。與無(wú)監(jiān)督的學(xué)習(xí)相比,有監(jiān)督的學(xué)習(xí)必須基于已經(jīng)標(biāo)注的數(shù)據(jù)(通常是人工標(biāo)注),而后根據(jù)數(shù)據(jù)和行為集建立起合理的推理模型,并通過(guò)標(biāo)注數(shù)據(jù)訓(xùn)練出模型的參數(shù)。當(dāng)前通過(guò)有監(jiān)督的學(xué)習(xí)得到推理模型參數(shù)的方法是最為常見(jiàn)的,并且研究者們也在此方面總結(jié)了很多有效的算法和模型,如隱馬爾可夫模型[11-13]、貝葉斯網(wǎng)絡(luò)[14]、條件隨機(jī)場(chǎng)[15]、最近鄰法[16]等。
但是當(dāng)前的推理方法當(dāng)中均未考慮對(duì)行為的語(yǔ)義進(jìn)行分層,并根據(jù)需要從環(huán)境當(dāng)中提取特征,而是盡可能多地從環(huán)境當(dāng)中提取特征后進(jìn)行行為推理。
2環(huán)境上下文模型
對(duì)行為進(jìn)行推理時(shí),若能引入人所處的環(huán)境上下文,則可以提高推理結(jié)果的精度。不少研究者在開(kāi)展他們的工作時(shí)也引入了環(huán)境上下文的概念,但是他們通常是根據(jù)本體論將環(huán)境上下文顯式地建立在了模型當(dāng)中[17-18],該方法的缺點(diǎn)是:1)模型的可擴(kuò)展性差,一旦環(huán)境有更改,需要重新建立一套模型;2)難以將時(shí)間上下文同時(shí)引入到模型當(dāng)中。本文當(dāng)中為了使環(huán)境上下文便于計(jì)算,未將其作為顯式的模型節(jié)點(diǎn),而是將其作為隱式的觀測(cè)特征用于輔助行為的推理。
2.1特征的屬性
當(dāng)前的相關(guān)工作大都采用了分層模型來(lái)表示行為,并將行為定義成了語(yǔ)義的攜帶者[19-21];行為通常都是為了滿足用戶需求而發(fā)生的一系列動(dòng)作。伴隨著行為的發(fā)生,通常可以觀測(cè)到與該行為相關(guān)的特征。而行為理解需要處理的問(wèn)題就是根據(jù)所觀測(cè)的特征還原出用戶的行為。
特征作為樣本的表現(xiàn)形式,可以用于將一個(gè)樣本與其他樣本進(jìn)行區(qū)分,例如,發(fā)生吃飯行為時(shí),手中的餐具可以作為用來(lái)表征該行為的重要特征。因此,特征可以視作對(duì)樣本的某種屬性的觀測(cè)。理論上,若能獲取正確表達(dá)某個(gè)樣本的完整的特征集,則可以以極高的置信度識(shí)別該樣本。但是在基于視覺(jué)的處理方法當(dāng)中,系統(tǒng)可以從視頻圖像中提取出大量不同的特征,如顏色直方圖、SIFT特征、HOG特征等,而且基于視覺(jué)特征進(jìn)行分類得到的結(jié)果通常具有不確定性。因此,當(dāng)樣本集的規(guī)模變得很大時(shí),即面臨著組合爆炸的問(wèn)題,特征的規(guī)模會(huì)增長(zhǎng)得比樣本更快,很難一次性將視頻中所有的特征悉數(shù)提取出來(lái)。
在本文當(dāng)中,根據(jù)特征是否被行為集中的所有元素共享將其分為:公有特征和私有特征,其中公有特征屬于某個(gè)行為集中的所有行為,即所有行為發(fā)生時(shí)該類特征都可被觀測(cè)(但是特征值不同);私有特征則是某個(gè)行為所特有,通??梢杂糜谧C明或者證偽該行為是否發(fā)生。顯然公有特征集和私有特征集的選取依賴于特定的應(yīng)用場(chǎng)景,并且可以根據(jù)應(yīng)用需要對(duì)行為集進(jìn)行多層次的分層,從而實(shí)現(xiàn)推理層次更加豐富的推理過(guò)程。
2.2可計(jì)算的環(huán)境上下文
顯然所有的行為發(fā)生都伴隨著環(huán)境上下文,因此環(huán)境上下文應(yīng)該屬于公有特征。環(huán)境上下文是一個(gè)很抽象的概念,為了能將其予以形式化的表達(dá),需要考慮用戶在室內(nèi)的交互方式以及交互對(duì)象;通常用戶在室內(nèi)的交互對(duì)象主要是各色家電以及家具,而用戶的交互方式又由他當(dāng)前的交互對(duì)象所決定,例如,用戶處在臥室當(dāng)中,則其可能在與床進(jìn)行交互,交互方式則是用戶躺在床上。而這些家具或者家電與特定行為的發(fā)生具有很強(qiáng)的關(guān)聯(lián),比如餐桌附近吃飯發(fā)生的概率很高;于是可以將它們的中心作為某些行為發(fā)生的概率中心,而隨著人體逐漸的遠(yuǎn)離該行為發(fā)生的概率會(huì)逐漸衰減。
因此,可以將家具和家電等潛在交互對(duì)象的位置予以標(biāo)定(如圖1所示,圖中的圓形和方形分別代表了室內(nèi)的餐桌、冰箱等交互對(duì)象),并結(jié)合人體的當(dāng)前位置作為觀測(cè)的特征;在實(shí)現(xiàn)時(shí),通常使用人體位置與各個(gè)交互對(duì)象間的坐標(biāo)差值(或基于差值的非線性變換)作為觀測(cè)特征,而不是使用人體到交互對(duì)象中心的歐氏距離,以考慮交互對(duì)象的形狀對(duì)于行為發(fā)生的概率衰減的影響。
圖1 室內(nèi)家具布置標(biāo)定示意圖 Fig.1 Calibration of the indoor layout of the furniture
3分層的語(yǔ)義推理及實(shí)現(xiàn)
3.1分層的語(yǔ)義推理
前文當(dāng)中根據(jù)特征是否被行為集中的所有元素所共享將其分成了公有特征和私有特征2類。行為是具確定語(yǔ)義的,但是在觀測(cè)到屬于某個(gè)行為的所有特征前,尤其若其私有特征尚未被觀測(cè),則該行為的確定語(yǔ)義將無(wú)法被推斷,其所攜帶的語(yǔ)義將變得模糊不清,從而該行為的確定語(yǔ)義將退化成為模糊語(yǔ)義。圖2中所示,用戶分別發(fā)生了2個(gè)行為,即喝水和喝飲料;這2個(gè)行為的公有特征即為手中持有物品,且在手部在向面部運(yùn)動(dòng),而喝水的私有特征則是手中物品為水杯,喝飲料的私有特征為手中物品為飲料。顯然這2個(gè)行為的公有特征是幾乎一致的,區(qū)分它們的關(guān)鍵因素在于這2個(gè)行為不同的私有特征;但是公有特征的觀測(cè)可以排除用戶發(fā)生看電視等其他行為。
圖2(a)對(duì)喝水和喝飲料的私有特征進(jìn)行了模糊化處理(即不再觀測(cè)這2個(gè)行為的私有特征)后,喝水和喝飲料均退化成為語(yǔ)義模糊不清的動(dòng)作,該動(dòng)作表明人手中有物品且在向面部運(yùn)動(dòng)。從中可以看出,行為的公有特征即表達(dá)了行為的模糊語(yǔ)義,而輔以相應(yīng)的私有特征后行為的語(yǔ)義才能被確定。
圖2 由粗至精的推理過(guò)程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic
因此,提出了一個(gè)從模糊語(yǔ)義逐漸到確定語(yǔ)義的推理框架,即首先根據(jù)觀察到的公有特征篩選出符合當(dāng)前模糊語(yǔ)義的候選行為集合cA,然后根據(jù)cA中的成員做證據(jù)廣播,即去觀測(cè)該成員的相應(yīng)私有特征,并最終得到當(dāng)前用戶的行為或者行為集Acurr(用戶可以同時(shí)發(fā)生多個(gè)行為)。事實(shí)上人的推理過(guò)程也并非一次完成的,人們總是會(huì)根據(jù)當(dāng)前觀測(cè)的特征對(duì)即將發(fā)生的行為作出初步的判斷,而后根據(jù)初步判斷的結(jié)果去尋找可以證明或者證偽初步判斷的新的特征。例如,甲向乙伸出手時(shí),乙初步判斷甲想要同乙握手或者攻擊乙,此時(shí)乙開(kāi)始尋找額外的特征,若甲的手向乙的運(yùn)動(dòng)而去,則甲想要同乙握手,反之則是要攻擊乙。
3.2基于單幀的推理方法
基于單幀的推理方法,即在推理時(shí)只使用當(dāng)前視頻幀所觀測(cè)的特征進(jìn)行行為理解,其優(yōu)點(diǎn)在于推理方式相對(duì)簡(jiǎn)單,計(jì)算量較小,可以快速地完成,而其缺點(diǎn)在于不使用時(shí)間上下文,從而對(duì)于噪聲的抗性較差?;趩螏耐评矸椒ㄓ羞壿嫽貧w、支持向量機(jī)以及決策樹(shù)等。本文實(shí)現(xiàn)時(shí)使用了邏輯回歸模型作為實(shí)現(xiàn)單幀推理的方法,可以方便地得到對(duì)齊到(0,1)的概率值,也便于處理同一時(shí)刻下多個(gè)不同行為的發(fā)生。
圖3 分層推理流程圖 Fig.3 Flow chart of multilayer inference
3.3基于時(shí)間序列的推理方法
基于時(shí)間序列的推理方法主要有隱馬爾可夫模型和動(dòng)態(tài)貝葉斯網(wǎng)等,由于隱馬爾可夫模型的訓(xùn)練算法和測(cè)試算法都極為成熟,本文當(dāng)中采用了隱馬爾可夫作為基于時(shí)間序列的推理方法。隱馬爾可夫模型的優(yōu)勢(shì)在于推理時(shí)使用了時(shí)間序列,充分地利用了上下文信息,但是其訓(xùn)練較邏輯回歸復(fù)雜,無(wú)法利用過(guò)多的時(shí)間幀(否則會(huì)因聯(lián)合概率較小而無(wú)法予以計(jì)算)。并且隱馬爾可夫的訓(xùn)練數(shù)據(jù)使用了相同標(biāo)簽下的幀序列,即訓(xùn)練時(shí)所用的同一序列的幀對(duì)應(yīng)的行為是相同的,而在實(shí)際過(guò)程中,同一個(gè)序列下的不同幀可能會(huì)出現(xiàn)不同的行為。
此外,當(dāng)前的隱馬爾可夫訓(xùn)練算法大都只針對(duì)一個(gè)離散觀測(cè)量或者一個(gè)連續(xù)的隨機(jī)向量的應(yīng)用場(chǎng)景,而的觀測(cè)值中同時(shí)存在著多個(gè)離散觀測(cè)量和連續(xù)觀測(cè)量。直觀的做法是將多個(gè)離散觀測(cè)量聚合成為一個(gè)單獨(dú)的離散觀測(cè)量,但是這種做法會(huì)使模型的參數(shù)迅速增加,例如,若在HMM當(dāng)中選取5個(gè)隱狀態(tài),同時(shí)有10個(gè)離散觀測(cè)量,每個(gè)離散觀測(cè)量對(duì)應(yīng)2個(gè)不同的取值,則觀測(cè)矩陣的參數(shù)個(gè)數(shù)為5×210=5120,但是若引入樸素貝葉斯假設(shè),即觀測(cè)量之間是相互獨(dú)立的,那么觀測(cè)矩陣的總參數(shù)量則降為5×2×10=100,實(shí)際中特征維度可能會(huì)更高,若不采用樸素貝葉斯假設(shè),則由于訓(xùn)練樣本個(gè)數(shù)較少,很難得到對(duì)模型參數(shù)合理的估計(jì)。因此,的在訓(xùn)練HMM模型時(shí)對(duì)于多維離散觀測(cè)值引入了樸素貝葉斯假設(shè)。
4實(shí)驗(yàn)驗(yàn)證
4.1實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境的設(shè)置主要用于模擬人體在室內(nèi)的日常行為場(chǎng)景,在該場(chǎng)景當(dāng)中,需要識(shí)別出吃飯、看電視、吃水果、喝飲料、看書、喝水、使用電腦等7種不同的行為。視頻數(shù)據(jù)的采集工作由分布在屋內(nèi)的4套AV800綜合采集卡以及4個(gè)CCD攝像機(jī)完成,其中集體分辨率最高可以達(dá)到720×576,幀率可以達(dá)到25f/s。此外,采集卡的硬件壓縮功能可以直接輸出壓縮格式的視頻流。
實(shí)驗(yàn)環(huán)境當(dāng)中配備了圓桌、電視、冰箱、書架、辦公桌、茶幾等家具,以及水果、飲料、食品等日常生活用品,前方提及的攝像機(jī)布置在房間的4個(gè)角落當(dāng)中,分別連接至數(shù)據(jù)采集服務(wù)器當(dāng)中以捕獲場(chǎng)景當(dāng)中發(fā)生的人體行為。實(shí)驗(yàn)環(huán)境布置如圖4所示,其平面圖如圖1所示。
圖4 不同視角下的實(shí)驗(yàn)環(huán)境 Fig.4 Experiment environments under different views
4.2實(shí)驗(yàn)數(shù)據(jù)集
在該數(shù)據(jù)集當(dāng)中,共需要識(shí)別吃飯、看電視、吃水果、喝飲料、看書、喝水、使用電腦等7種不同的行為。該數(shù)據(jù)集共有225551幀行為圖像。
針對(duì)該行為集,使用了2層的推理框架對(duì)其進(jìn)行推理;定義公有特征集為{人體的姿勢(shì),人體的朝向,人體的位置},其中人體的姿勢(shì)有2個(gè)觀測(cè)值,分別為站著和坐著,人體的朝向被離散成8個(gè)數(shù)值,人體的位置則由文獻(xiàn)[22]中介紹的算法求出。針對(duì)不同的行為,分別定義了附著于其上的私有特征,具體內(nèi)容如表1所示。
由于本文側(cè)重于推理方式及效率的研究,對(duì)于如何通過(guò)對(duì)視頻進(jìn)行圖像處理以獲取所需的特征并沒(méi)有進(jìn)行深入探討,本文中除了人體位置外的其他特征均是通過(guò)人工予以標(biāo)注。事實(shí)上,若今后針對(duì)相應(yīng)特征的視覺(jué)算法成熟后可以方便地集成到本文所提出的推理框架當(dāng)中。
表1 不同行為的私有特征
4.3實(shí)驗(yàn)結(jié)果
本文分別使用了基于邏輯回歸和HMM的推理方式實(shí)現(xiàn)。在本節(jié)當(dāng)中,針對(duì)這2種實(shí)現(xiàn),均對(duì)比了未使用分層推理和使用分層推理的正確率。
4.3.1基于邏輯回歸的實(shí)驗(yàn)結(jié)果
使用未分層的推理實(shí)現(xiàn)時(shí),將所有的特征直接用于訓(xùn)練得到特征-行為權(quán)重,此時(shí)針對(duì)7個(gè)不同的行為,均可以得到一組特征與行為的權(quán)重關(guān)系;此7組特征-行為權(quán)重可以用邏輯回歸訓(xùn)練出的1個(gè)模型予以表示。而分層推理實(shí)現(xiàn),則是先針對(duì)所有的行為使用公有特征訓(xùn)練得到特征-行為權(quán)重,其后針對(duì)每個(gè)行為,結(jié)合公有特征及私有特征,訓(xùn)練出相應(yīng)的特征-行為權(quán)重,即分層推理實(shí)現(xiàn)時(shí),最終得到1個(gè)描述公有特征與行為關(guān)系的模型以及7個(gè)描述私有特征和行為的模型。
使用環(huán)境上下文特征時(shí),本文使用了三階多項(xiàng)式來(lái)擬合行為概率同人體與家具相對(duì)位置的關(guān)系;由于研究的行為共涉及到6個(gè)不同的家具,故環(huán)境上下文總共包含36維的數(shù)據(jù),故公有特征向量總維度為38維,全部特征向量的維度為45維。其中在未分層的推理當(dāng)中引入環(huán)境上下文后,推理準(zhǔn)確率得到了提高,在不使用環(huán)境上下文時(shí)準(zhǔn)確率為83.4%,使用環(huán)境上下文時(shí),準(zhǔn)確率為85.20%。
表2中選取了部分特征在不同的推理層次當(dāng)中對(duì)于看書的影響。從中可以看出:1)分層推理時(shí)不同層次時(shí)同一特征的權(quán)重并不相同,并且在第2層推理時(shí),公有特征對(duì)行為的影響變?nèi)?,這與直觀感覺(jué)相符,即公有特征在判斷模糊語(yǔ)義時(shí)可以起到很強(qiáng)的作用,但是在進(jìn)行確定語(yǔ)義的判斷時(shí)則不會(huì)起到較強(qiáng)的作用;2)私有特征對(duì)相應(yīng)行為的影響很大,這也充分證明了實(shí)驗(yàn)中對(duì)特征的分層是比較合理的。
表2特征在不同層數(shù)對(duì)看書的影響
Table 2The influence of features on reading in different inference layers
特征第1層對(duì)看書的權(quán)重第2層對(duì)看書的權(quán)重身體姿勢(shì)0.2732600.141081身體朝向0.2663180.115331手觸碰書N/C1.743567
表3中所示為基于邏輯回歸的不同層次推理的實(shí)驗(yàn)結(jié)果。從中可以得出以下結(jié)論:1)兩者的推理精度接近,但是實(shí)用時(shí)分層的推理可以不用提取環(huán)境當(dāng)中的所有特征,因此可以有效地節(jié)省系統(tǒng)效率;2)單層推理的模型總參數(shù)量為7×45=315個(gè),而雙層推理模型總參數(shù)量為7×38+7×39=539,雙層推理的總參數(shù)雖然更多,但是單個(gè)模型的參數(shù)量卻在減少,在待識(shí)別行為集變大,且訓(xùn)練樣本不足的情況下,可以有效地降低過(guò)擬合的可能性;3)在公有特征和私有特征劃分合理的情況下,若有新的行為加入,只需要重新訓(xùn)練公有特征與各個(gè)行為對(duì)應(yīng)的權(quán)重,以及該行為的私有特征對(duì)應(yīng)的權(quán)重即可,擴(kuò)展代價(jià)較小。
表3不同層數(shù)的推理比較
Table 3The comparison of inference with different layers
推理層數(shù)準(zhǔn)確率/%模型數(shù)量參數(shù)數(shù)量185.201315285.618539
4.3.2基于HMM實(shí)驗(yàn)結(jié)果
在HMM實(shí)現(xiàn)當(dāng)中,對(duì)人體位置和家具位置進(jìn)行離散化處理,以使其符合觀測(cè)模型。未分層的HMM推理即在觀測(cè)時(shí)使用全部的特征值進(jìn)行觀測(cè)序列的似然值計(jì)算,而分層的推理則首先使用公有特征對(duì)觀測(cè)序列進(jìn)行似然值計(jì)算,對(duì)于過(guò)閾值的行為種類再結(jié)合其私有特征進(jìn)行新一輪的似然值計(jì)算,得到最終結(jié)果。識(shí)別當(dāng)中,其隱結(jié)點(diǎn)可能具有語(yǔ)義特征,但若是應(yīng)用在視覺(jué)領(lǐng)域,則是極有可能代表一些未知的中間狀態(tài),只有最后的分類結(jié)果才是有語(yǔ)義的[23]。因此,在實(shí)驗(yàn)當(dāng)中針對(duì)不同的序列長(zhǎng)度均在不同的HMM當(dāng)中需要注意的主要有2個(gè)參數(shù):所取的觀測(cè)幀數(shù)和隱結(jié)點(diǎn)數(shù)目。HMM若是應(yīng)用在語(yǔ)音隱結(jié)點(diǎn)數(shù)目下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中分別選取了5幀、10幀、15幀以及20幀,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同長(zhǎng)度序列在不同的隱結(jié)點(diǎn)數(shù)目下得到的各個(gè)行為的準(zhǔn)確率 Fig.5 Inference accuracy of different sequences under different numbers of hidden nodes
從圖5中可以看出在序列幀數(shù)選擇較少時(shí),節(jié)點(diǎn)數(shù)目對(duì)識(shí)別結(jié)果幾乎沒(méi)有影響,而且整體識(shí)別準(zhǔn)確率相對(duì)較低,這是因?yàn)榭梢允褂玫臍v史信息不夠充分。而在序列幀數(shù)較多時(shí),隱結(jié)點(diǎn)數(shù)目取為幀數(shù)的一半左右為宜。對(duì)于幀數(shù)為20的序列,2層推理和1層推理的實(shí)驗(yàn)結(jié)果如圖6所示。而隱結(jié)點(diǎn)數(shù)目為8的條件下(該條件下準(zhǔn)確率相對(duì)較高)的實(shí)驗(yàn)結(jié)果如表4所示。
圖6 2層HMM 和1層HMM的實(shí)驗(yàn)結(jié)果對(duì)比 Fig.6 The comparison of 2-layer HMM and 1-layer HMM
可以得到類似于單幀推理的結(jié)論,并且還應(yīng)該注意到對(duì)于某些行為,分層后的推理準(zhǔn)確率會(huì)有所上升,這是因?yàn)榉謱油评砟P彤?dāng)中不同層次下相同特征可以有不同的權(quán)重(不同層次下的HMM模型的觀測(cè)概率可以不同),該行為對(duì)應(yīng)的私有特征可以更好地發(fā)揮作用,而在未分層推理時(shí),其對(duì)應(yīng)的私有特征的作用可能被其他所影響。
表420幀8個(gè)隱節(jié)點(diǎn)下的各行為的準(zhǔn)確率以及總體準(zhǔn)確率
Table 4Inference accuracy of different activities under the configuration of 20 frames and 8 hidden nodes
行為2層準(zhǔn)確率/%1層準(zhǔn)確率/%吃飯81.2782.18看電視62.4862.66吃水果66.5467.82喝飲料84.7090.99看書64.6467.22喝水66.5468.41使用電腦74.3276.06總體74.3276.06
5結(jié)束語(yǔ)
本文將環(huán)境上下文作為公有特征用于行為理解,從而實(shí)現(xiàn)了環(huán)境上下文的可計(jì)算性,并可以對(duì)環(huán)境信息進(jìn)行更加精確的描述。此外,本文將行為推理的過(guò)程分為了獲取模糊語(yǔ)義和確定語(yǔ)義2個(gè)階段;系統(tǒng)在推理過(guò)程中,根據(jù)當(dāng)前觀測(cè)的公有特征進(jìn)行判斷,篩選出模糊語(yǔ)義滿足條件的候選行為集;如此迭代,直到依據(jù)候選行為集中的行為,觀測(cè)其私有特征,并做出最為精確的判斷并確定當(dāng)前的語(yǔ)義。該框架避免了傳統(tǒng)算法未對(duì)語(yǔ)義分層而提取環(huán)境中所有特征的弊病,可以有效地提升系統(tǒng)性能,已經(jīng)在基于真實(shí)場(chǎng)景的數(shù)據(jù)集中得到了初步驗(yàn)證。
參考文獻(xiàn):
[1]PANTIC M, PENTLAND A, NIJHOLT A, et al. Human computing and machine understanding of human behavior: a survey[C]//Proceedings of ACM International Conference on Multimodal Interfaces. Banff, Canada, 2006: 260-266.
[2]石為人, 周彬, 許磊. 普適計(jì)算: 人本計(jì)算[J]. 計(jì)算機(jī)應(yīng)用, 2005, 25(7) : 1479-1484.
SHI Weiren, ZHOU Bin, XU Lei. Pervasive computing: human-centered computing[J]. Computer Applications, 2005, 25(7) : 1479-1484.
[3]陶霖密, 楊卓寧, 王國(guó)建. 行為理解的認(rèn)知方法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2014, 19(2) : 167-174.
TAO Linmi, YANG Zhuoning, WANG Guojian. Cognitive reasoning method for behavior understanding[J]. Computer Applications, 2014, 19(2) : 167-174.
[4]SHARIAT S, PAVLOVIC V. A new adaptive segmental matching measure for human activity recognition[C]//Proceedings of IEEE International Conference on Computer Vision. Sydney, 2013: 3583-3590.
[5]BOUCHARD B, GIROUX S, BOUZOUANE A. A smart home agent for plan recognition of cognitively-impaired patients[J]. Journal of Computers, 2006, 1(5) : 53-62.
[6]CHEN L, NUGENT C D, MULVENNA M, et al. A logical framework for behavior reasoning and assistance in a smart home[J]. International Journal of Assistive Robotics and Mechatronics, 2008, 9(4) : 20-34.
[7]THOMSON G, TERZIS S, NIXON P. Situation determination with reusable situation specifications[C]//Proceedings of IEEE International Conference on Pervasive Computing and Communications Workshops. Pisa, Italy, 2006: 620-623.
[8]ISHIMARU S, UEMA Y, KUNZE K, et al. Smarter eyewear: using commercial EOG glasses for activity recognition[C]//Proceedings of ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct Publication. [S.l.], 2014: 239-242.
[9]HUNH T, SCHIELE B. Unsupervised discovery of structure in activity data using multiple eigenspaces[C]//Proceedings of Second International Workshop on Location-and Context-Awareness. Dublin, Ireland, 2006: 151-167.
[10]LIAO L, FOX D, KAUTZ H. Extracting places and activities from GPS traces using hierarchical conditional random fields[J]. The International Journal of Robotics Research, 2007, 26(1) : 119-134.
[11]WARD J A, LUKOWICZ P, TROSTER G, et al. Activity recognition of assembly tasks using body-worn microphones and accelerometers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10) : 1553-1567.
[12]LIU C D, CHUNG Y N, CHUNG P C. An interaction-embedded HMM framework for human behavior understanding: with nursing environments as examples[J]. IEEE Transactions on Information Technology in Biomedicine, 2010, 14(5) : 1236-1246.
[13]SINGLA G, COOK D J, SCHMITTER-EDGECOMBE M. Recognizing independent and joint activities among multiple residents in smart environments[J]. Journal of Ambient Intelligence and Humanized Computing, 2010, 1(1) : 57-63.
[14]WANG S, PENTNEY W, POPESCU A M, et al. Common sense based joint training of human activity recognizers[C]//Proceedings of IJCAI. Hyderabad, India, 2007: 2237-2242.
[15]SMINCHISESCU C, KANAUJIA A, METAXAS D. Conditional models for contextual human motion recognition[J]. Computer Vision and Image Understanding, 2006, 104(2): 210-220.
[16]LEE S W, MASE K. Activity and location recognition using wearable sensors[J]. IEEE Pervasive Computing, 2002, 1(3) : 24-32.
[17]WANG G, JIANG J, SHI M. A context model for collaborative environment[C]//Proceedings of IEEE International Conference on Computer Supported Cooperative Work in Design. Nanjing, China, 2006: 1-6.
[18]LI M. Ontology-based Context information modeling for smart space[C]//Proceedings of IEEE International Conference on Cognitive Informatics and Cognitive Computing. Banff, Canada, 2011: 278-283.
[19]MOESLUND T B, HILTON A, KRüGER V. A survey of advances in vision-based human motion capture and analysis[J]. Computer Vision and Image Understanding, 2006, 104(2) : 90-126.
[20]AGGARWAL J K, PARK S. Human motion: modeling and recognition of actions and interactions[C]//Proceedings of IEEE International Symposium on 3D Data Processing, Visualization and Transmission. Thessaloniki, Greece, 2004. 640-647.
[21]GONZàLEZ J, VARONA J, ROCA F X, et al. aSpaces: Action spaces for recognition and synthesis of human actions[C]//Proceedings of Articulated Motion and Deformable Objects. Palma de Mallorca, Spain, 2002: 189-200.
[22]SUN L, DI H, TAO L, et al. A robust approach for person localization in multi-camera environment[C]//Proceedings of IEEE International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 4036-4039.
[23]LUO Y, WU T D, HWANG J N. Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J]. Computer Vision and Image Understanding, 2003, 92(2) : 196-216.
聶慧饒,男,1990年生,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、行為理解。
陶霖密,男,1962年生,副教授,主要研究方向?yàn)槿藱C(jī)交互、計(jì)算機(jī)視覺(jué)與模式識(shí)別等。承擔(dān)的項(xiàng)目有國(guó)家重點(diǎn)基金情感計(jì)算,以及與IBM、INTEL、SIEMENS的國(guó)際合作基金等重要項(xiàng)目。發(fā)表論文多篇。
2015世界機(jī)器人大會(huì)
World Robot Conference 2015(WRC 2015)
為貫徹落實(shí)習(xí)總書記在2014年兩院院士大會(huì)上的講話精神,積極推動(dòng)創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,實(shí)現(xiàn)我國(guó)機(jī)器人技術(shù)與產(chǎn)業(yè)的跨越發(fā)展,中國(guó)科學(xué)技術(shù)協(xié)會(huì)、工業(yè)和信息化部將于2015年11月在北京國(guó)家會(huì)議中心共同舉辦主題為“協(xié)同融合發(fā)展,引領(lǐng)智能社會(huì)”的2015世界機(jī)器人大會(huì)。
2015世界機(jī)器人大會(huì)將由3項(xiàng)內(nèi)容組成,分別是:2015世界機(jī)器人論壇(World Forum on Robot 2015,WFR2015)、2015世界機(jī)器人博覽會(huì)(World Robot Exhibition 2015,WRE 2015)和2015國(guó)際青少年機(jī)器人邀請(qǐng)賽(World Adolescent Robot Contest 2015,WARC 2015)。
本次大會(huì)將為政府、科研機(jī)構(gòu)、行業(yè)協(xié)會(huì)和和企業(yè)提供一個(gè)高端的交流平臺(tái),共同探討、展示全球機(jī)器人的發(fā)展現(xiàn)狀與趨勢(shì),研究機(jī)器人技術(shù)創(chuàng)新與產(chǎn)業(yè)化現(xiàn)狀以及給我國(guó)制造業(yè)發(fā)展帶來(lái)的機(jī)遇和挑戰(zhàn)等,對(duì)促進(jìn)我國(guó)機(jī)器人產(chǎn)業(yè)發(fā)展,推動(dòng)制造業(yè)轉(zhuǎn)型升級(jí)具有重要意義。
Website: http://www.cie-info.org.cn/index/tztg/201535/1425539003413_1.html