張 靜,郭晶云,劉安安,高 贊,蘇育挺,張 哲
(1.天津大學(xué)電子信息工程學(xué)院,天津 300072;2.天津理工大學(xué)計(jì)算機(jī)與通訊工程學(xué)院,天津 300191;3.美國(guó)微軟公司,華盛頓 98052)
基于結(jié)構(gòu)化約束的多視角人體檢測(cè)方法
張 靜1,郭晶云1,劉安安1,高 贊2,蘇育挺1,張 哲3
(1.天津大學(xué)電子信息工程學(xué)院,天津 300072;2.天津理工大學(xué)計(jì)算機(jī)與通訊工程學(xué)院,天津 300191;3.美國(guó)微軟公司,華盛頓 98052)
針對(duì)單視角下信息量不足以及多視角不同視角間信息關(guān)聯(lián)困難的問(wèn)題,提出了基于結(jié)構(gòu)化約束的多視角人體檢測(cè)方法.首先通過(guò)基于塊的人體檢測(cè)模型獲取人體局部塊信息;然后采用空間仿射變換將不同視角下重疊區(qū)域通過(guò)變換矩陣的映射關(guān)系關(guān)聯(lián)起來(lái);最后針對(duì)仿射變換后的區(qū)域因遮擋或者存在多目標(biāo)導(dǎo)致多視角目標(biāo)關(guān)聯(lián)困難的問(wèn)題,利用人體局部顯著塊間的結(jié)構(gòu)化約束為多視角目標(biāo)匹配構(gòu)造最大后驗(yàn)概率模型,通過(guò)最優(yōu)求解獲取多視角目標(biāo)匹配結(jié)果.實(shí)驗(yàn)結(jié)果表明,該方法能夠利用多視角信息來(lái)有效彌補(bǔ)單視角下人體檢測(cè)中出現(xiàn)的遮擋問(wèn)題,顯著提高了人體檢測(cè)效果.
多視角;結(jié)構(gòu)化約束;仿射變換;最大后驗(yàn)概率;目標(biāo)匹配
多媒體技術(shù)已經(jīng)有多年的發(fā)展歷史,隨著聲音、視頻、圖像壓縮等基礎(chǔ)技術(shù)的日益成熟并進(jìn)入市場(chǎng),計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)領(lǐng)域也逐漸走入人們視野.人體檢測(cè)是計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),也是人機(jī)交互、智能監(jiān)控等領(lǐng)域的基礎(chǔ),人體檢測(cè)的效果對(duì)這些領(lǐng)域的應(yīng)用具有非常重要的意義.
傳統(tǒng)人體檢測(cè)方法主要是單視角下目標(biāo)檢測(cè)方法[1-7],通常是利用單一視角采集視頻中人體區(qū)域特征進(jìn)行模型學(xué)習(xí),從而實(shí)現(xiàn)目標(biāo)檢測(cè).該方法的優(yōu)點(diǎn)在于通過(guò)單一視角信息即可檢測(cè)人體目標(biāo),然而由于人體非剛體運(yùn)動(dòng)的復(fù)雜性,以及單視角信息的局限性,使該類(lèi)方法的檢測(cè)模型在視角變化時(shí)往往性能較低.為了克服單視角信息的不足,多傳感器融合的方法被一些學(xué)者所應(yīng)用[8-9].Zhang等[8]提出了一種多傳感器融合的目標(biāo)檢測(cè)方法,其優(yōu)點(diǎn)在于通過(guò)激光掃描的方式獲取感興趣區(qū)域,從而輔助提高目標(biāo)檢測(cè)的準(zhǔn)確率.然而,這種方式依賴(lài)于外界附加設(shè)備,不適于目前廣泛使用的視頻監(jiān)控網(wǎng)絡(luò).針對(duì)該問(wèn)題,多視角信息融合的目標(biāo)檢測(cè)方法逐漸成為當(dāng)前研究熱點(diǎn)[10-12].Kim 等[11]提出通過(guò)將兩個(gè)視角的人體位置信息映射到水平面來(lái)獲取位置信息,從而利用多視角信息實(shí)現(xiàn)目標(biāo)檢測(cè).該方法無(wú)需復(fù)雜的3D場(chǎng)景重定標(biāo)和建模,然而由于這種方法是通過(guò)視角間的信息間接獲取水平面位置信息,因此往往存在位置偏差,從而導(dǎo)致單一視角下被檢測(cè)目標(biāo)區(qū)域與其他目標(biāo)區(qū)域重疊,無(wú)法將被檢測(cè)區(qū)域與其他目標(biāo)區(qū)域區(qū)分開(kāi)來(lái).
針對(duì)上述問(wèn)題,本文提出了基于結(jié)構(gòu)化約束的多視角人體檢測(cè)方法.首先,獲取運(yùn)動(dòng)前景,在前景區(qū)域采用基于塊的人體檢測(cè)模型及人體 8個(gè)局部顯著塊信息;其次,采用空間仿射變換將不同視角下重疊區(qū)域通過(guò)變換矩陣的映射關(guān)系關(guān)聯(lián)起來(lái),這樣利用仿射變換可以將一個(gè)視角下檢測(cè)到的人體映射到未檢測(cè)人體的視角上,達(dá)到信息互補(bǔ)的效果;最后,針對(duì)仿射變換后的區(qū)域因遮擋或者存在多目標(biāo)導(dǎo)致多視角目標(biāo)關(guān)聯(lián)困難這一問(wèn)題,利用人體局部顯著塊間的結(jié)構(gòu)化約束為多視角目標(biāo)匹配構(gòu)造最大后驗(yàn)概率模型,通過(guò)最優(yōu)求解獲取多視角目標(biāo)匹配結(jié)果.實(shí)驗(yàn)結(jié)果表明,采用本方法能夠有效利用多視角信息來(lái)提高檢測(cè)準(zhǔn)確率.
為了得到多視角下人體檢測(cè)以及關(guān)聯(lián)信息,首先要得到單視角下人體檢測(cè)信息.對(duì)于不同視角下人體信息的關(guān)聯(lián),分兩種情況進(jìn)行描述:①在未出現(xiàn)遮擋以及多目標(biāo)的情況下,采用空間仿射變換來(lái)解決目標(biāo)關(guān)聯(lián);②對(duì)于遮擋或者多目標(biāo)距離很近的情況,利用基于塊的檢測(cè)模型,在此基礎(chǔ)上利用得到的人體顯著塊信息獲取目標(biāo)最佳匹配.單視角人體檢測(cè)以及多視角間信息關(guān)聯(lián)具體描述如下.
(1) 單視角下人體檢測(cè)和人體分塊區(qū)域的提取.為了降低背景區(qū)域?qū)θ梭w檢測(cè)的干擾以及提高人體檢測(cè)速度,首先對(duì)每個(gè)視角進(jìn)行背景建模[13],并通過(guò)與前景相減求差來(lái)獲取前景人體運(yùn)動(dòng)區(qū)域.在獲取前景區(qū)域后,采用基于塊的人體檢測(cè)模型[14]進(jìn)行人體檢測(cè),獲取人體的 8個(gè)局部顯著區(qū)域,為多視角間目標(biāo)關(guān)聯(lián)提供更多信息.
(2) 基于空間仿射變換的多視角人體區(qū)域關(guān)聯(lián).通過(guò)兩兩相鄰視角下標(biāo)定點(diǎn)的設(shè)置和仿射變換矩陣[15]的計(jì)算獲取多視角間關(guān)聯(lián)信息,從而實(shí)現(xiàn)某一視角上的點(diǎn)與其他視角間的空間對(duì)應(yīng)關(guān)系.
(3) 基于結(jié)構(gòu)化約束的多視角人體檢測(cè).圖 1所示為4個(gè)視角下的人體檢測(cè)信息,藍(lán)色區(qū)域?yàn)闄z測(cè)到的人體,紅色區(qū)域?yàn)橛成涞玫降娜梭w區(qū)域,粉色虛線框?yàn)殛P(guān)聯(lián)候選區(qū)域.空間仿射變換進(jìn)行視角間映射時(shí)通常會(huì)遇到兩種情況:①直接關(guān)聯(lián),對(duì)應(yīng)區(qū)域范圍內(nèi)只有一個(gè)目標(biāo),可以進(jìn)行直接關(guān)聯(lián)(如圖 1紅框標(biāo)記);②關(guān)聯(lián)候選,對(duì)應(yīng)區(qū)域內(nèi)可能存在目標(biāo)遮擋或者多目標(biāo)距離很近(如圖 1紫色虛標(biāo)記).針對(duì)上述兩種情況僅通過(guò)仿射變換往往會(huì)造成多目標(biāo)關(guān)聯(lián)錯(cuò)誤,因此將前景區(qū)域包含多人的情況選作“關(guān)聯(lián)候選區(qū)域”,通過(guò)第 1.2節(jié)所提出的基于結(jié)構(gòu)化約束的多視角人體檢測(cè)實(shí)現(xiàn)最優(yōu)匹配.
下文詳細(xì)介紹了該方法的兩個(gè)核心部分——基于塊的人體檢測(cè)模型和基于結(jié)構(gòu)化約束(人體分塊約束)的多視角目標(biāo)關(guān)聯(lián)方法.
1.1 基于塊的人體檢測(cè)模型
基于分塊信息的目標(biāo)檢測(cè)模型[14]能夠綜合利用目標(biāo)局部顯著性特征進(jìn)行各部分檢測(cè),在此基礎(chǔ)上形成對(duì)目標(biāo)檢測(cè)的最終判決,從而提高目標(biāo)檢測(cè)的魯棒性.
針對(duì)人體檢測(cè)問(wèn)題,所構(gòu)造的基于分塊信息的目標(biāo)檢測(cè)模型由 1個(gè)全局檢測(cè)子和 8個(gè)肢體分塊檢測(cè)子(分別對(duì)應(yīng)人體的雙臂、雙腿、雙腳、頭及其他共 8個(gè)區(qū)域)聯(lián)合構(gòu)成.利用該模型,在圖像中檢測(cè)得到的該區(qū)域包含人體的似然為
該模型學(xué)習(xí)和推斷具體方法參見(jiàn)文獻(xiàn)[14].利用式(1)的檢測(cè)模型對(duì)圖像進(jìn)行遍歷檢測(cè),獲取每個(gè)位置包含人體的似然,然后通過(guò)閾值限制檢測(cè)圖像中所包含的人體位置.
圖1 4個(gè)視角下的人體檢測(cè)信息Fig.1 Human detection information in 4 views
圖2所示為基于該模型的檢測(cè)結(jié)果樣例,棕色為最終檢測(cè)標(biāo)記出的人體信息,其他8種顏色分別表示所檢測(cè)出的各個(gè)塊對(duì)應(yīng)信息.此外,該幅圖中人體區(qū)域均無(wú)法通過(guò)經(jīng)典的基于分塊梯度直方圖特征和支持向量機(jī)模型的人體檢測(cè)經(jīng)典方法[16]進(jìn)行準(zhǔn)確檢測(cè),其原因在于該圖像采集攝像頭與人體運(yùn)動(dòng)平面有較大傾角.因此,通過(guò)對(duì)比可見(jiàn),基于分塊信息的目標(biāo)檢測(cè)模型通過(guò)人體分塊信息的融合對(duì)視角變化具有更強(qiáng)的魯棒性.
圖2 基于分塊信息的目標(biāo)檢測(cè)結(jié)果實(shí)例Fig.2 Instance of human detection by part-based information
1.2 基于人體分塊約束的多視角目標(biāo)關(guān)聯(lián)
多視角目標(biāo)檢測(cè)的主要問(wèn)題是由于空間仿射變換映射位置偏移以及視角不同導(dǎo)致的目標(biāo)區(qū)域與其他人體區(qū)域的遮擋.因此,在獲取多視角人體檢測(cè)及分塊信息后,關(guān)鍵問(wèn)題在于各視角獨(dú)立檢測(cè)所得目標(biāo)的多視角關(guān)聯(lián).
1.2.1 目標(biāo)函數(shù)的構(gòu)建
假設(shè) H中每個(gè)塊信息都相互獨(dú)立,則上述最優(yōu)化問(wèn)題可以轉(zhuǎn)化為
式(4)中2個(gè)重要因子分析如下.
(2) 對(duì)于兩兩視角下人體塊信息關(guān)聯(lián),ih包含 2個(gè)塊區(qū)域和,因此基于馬爾科夫性,P ( hi)可表示為
通過(guò)式(3)~(7),式(3)所示最大后驗(yàn)概率問(wèn)題可以轉(zhuǎn)化為
1.2.2 目標(biāo)函數(shù)求解
該最優(yōu)化問(wèn)題可以通過(guò)線性規(guī)劃來(lái)求解:假設(shè)M 為人體塊信息的數(shù)目,包括塊匹配的每種可能情況,是對(duì)能夠進(jìn)行匹配的塊信息在空間上的限制.β和C可以通過(guò)如下方式獲得.
人體的塊檢測(cè)信息與對(duì)應(yīng)的人體塊區(qū)域空間分布有一定空間限制,這樣如果A視角塊1jt與B視角塊2jt之間的空間距離超過(guò)一定限制,可以認(rèn)為這種狀態(tài)轉(zhuǎn)移不成立.C和β可以定義為
在獲取A視角M個(gè)塊信息與B視角M個(gè)塊信息可能的對(duì)應(yīng)關(guān)系后,最優(yōu)化問(wèn)題就轉(zhuǎn)換成在塊信息不沖突情況下尋求所有塊匹配似然的最大化問(wèn)題,上述問(wèn)題也就轉(zhuǎn)化為線性規(guī)劃問(wèn)題,即
通過(guò)上述人體匹配算法,能夠在視角變換以及人體區(qū)域信息差異較大的情況下,通過(guò)利用人體顯著塊信息的最優(yōu)匹配獲取遮擋或者多目標(biāo)人體情況下的最佳目標(biāo)關(guān)聯(lián).
為了評(píng)測(cè)所提出方法的性能,根據(jù)實(shí)驗(yàn)需求,筆者采集并構(gòu)建了多視角信息融合的目標(biāo)檢測(cè)數(shù)據(jù)集.該數(shù)據(jù)集在室內(nèi) 4個(gè)視角環(huán)境下進(jìn)行采集,視頻序列分別包含3個(gè)人和5個(gè)人兩種難度(分別為331幀和394幀),一共標(biāo)記了2,254個(gè)人體,包含非遮擋和局部遮擋情況.由于要檢驗(yàn)映射效果,遮擋條件情況下的人體也要標(biāo)注,這樣才能統(tǒng)計(jì)映射后的檢測(cè)效果提高情況.
為了證明該方法的優(yōu)越性,筆者用兩種有代表性的多視角人體檢測(cè)方法作為比較實(shí)驗(yàn).
(1) 基于多視角空間位置信息融合方法[11].通過(guò)人工標(biāo)定位置信息來(lái)達(dá)到視角間映射效果.先將地面進(jìn)行分塊,每一塊有一個(gè)標(biāo)號(hào),這樣不同視角下的信息就會(huì)對(duì)應(yīng)起來(lái).然而在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),由于網(wǎng)格的遠(yuǎn)近會(huì)發(fā)生尺度變化,這種粗粒度映射方法對(duì)定位的精確度會(huì)產(chǎn)生很大的影響.因此,實(shí)驗(yàn)中筆者改進(jìn)了該方法,采用能夠精確定位位置信息的仿射變換來(lái)進(jìn)行視角映射,因?yàn)榉律渥儞Q建立的對(duì)應(yīng)關(guān)系是像素級(jí)的,這樣就可以找出不同視角的精確對(duì)應(yīng)關(guān)系,達(dá)到更好的視角映射效果.
(2) 基于概率化分布圖(probabilistic occupancy map,POM)方法[17].筆者基于概率化分布圖構(gòu)建理論分別構(gòu)建各視角人體區(qū)域的后驗(yàn)概率分布來(lái)實(shí)現(xiàn)多視角信息融合.
為了證明多視角信息有助于提高目標(biāo)檢測(cè)性能,筆者設(shè)計(jì)了兩組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.
(1) 融合前.僅采用目標(biāo)檢測(cè)模型對(duì)單一視角視頻進(jìn)行目標(biāo)檢測(cè),然后統(tǒng)計(jì)查全率和查準(zhǔn)率進(jìn)行性能評(píng)價(jià).如果檢測(cè)模型定位的人體區(qū)域與人工標(biāo)注的真實(shí)人體區(qū)域重合度大于50%,則認(rèn)為該檢測(cè)模型能夠正確定位人體區(qū)域.對(duì)于基于多視角空間位置信息融合方法[11]和基于概率化分布圖方法[17],筆者采用了標(biāo)準(zhǔn)的單視角下目標(biāo)檢測(cè)方法[16].對(duì)于本文提出方法,采用了第1.1節(jié)介紹的基于塊的人體檢測(cè)模型[14].
(2) 融合后.采用不同多視角信息融合方式進(jìn)行多視角人體檢測(cè),并采用查全率和查準(zhǔn)率進(jìn)行性能評(píng)價(jià).當(dāng)且僅當(dāng)同一個(gè)人體在不同視角下定位區(qū)域與各視角下真實(shí)位置重合度高于50%時(shí),認(rèn)為該方法能夠正確檢測(cè)目標(biāo)區(qū)域.
表1 實(shí)驗(yàn)結(jié)果比較Tab.1 Comparison of experimental results
對(duì)表1中的實(shí)驗(yàn)結(jié)果分析如下.
(1) 對(duì)融合前(單視角)人體檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),由于所構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集具有顯著的視角變化以及目標(biāo)間遮擋,因此采用標(biāo)準(zhǔn)的單視角下目標(biāo)檢測(cè)方法[16]進(jìn)行目標(biāo)檢測(cè)效果不佳,查全率和查準(zhǔn)率僅能分別達(dá)到0.65和0.86.相對(duì)而言,基于塊的目標(biāo)檢測(cè)模型能夠綜合利用人體各顯著塊區(qū)域特征進(jìn)行人體定位,因此有利于克服遮擋造成的檢測(cè)困難,因此查全率和查準(zhǔn)率均提高約10%.
(2) 引入多視角信息,可以利用目標(biāo)在不同視角下信息彌補(bǔ)單視角下由于顯著視角變化造成的目標(biāo)漏檢,因此 3類(lèi)方法融合后的查全率均有顯著提高,但是查準(zhǔn)率均有所下降.比較而言,本文所提出方法能夠在顯著提高查全率(提高 17%)的情況下保持較高查準(zhǔn)率(僅下降5%).
(3) 基于多視角空間位置信息融合方法[11]實(shí)驗(yàn)結(jié)果分析.從融合后結(jié)果可以看到,由于多視角信息的引入,在某個(gè)視角未檢測(cè)到的對(duì)象可以通過(guò)其他視角對(duì)該對(duì)象的檢測(cè)和空間映射關(guān)系進(jìn)行恢復(fù),因此查全率有所提高.但是因?yàn)榛诜律渥儞Q的方法在空間對(duì)應(yīng)問(wèn)題上往往受到多個(gè)相互遮擋的目標(biāo)的干擾,從而導(dǎo)致目標(biāo)檢測(cè)準(zhǔn)確率的顯著下降.
(4) 基于概率化分布圖方法[17]實(shí)驗(yàn)結(jié)果分析,相對(duì)于基于多視角空間位置信息融合方法,該方法直接利用空間仿射變換進(jìn)行多視角目標(biāo)關(guān)聯(lián),計(jì)算各視角下目標(biāo)在不同位置出現(xiàn)的概率,從而實(shí)現(xiàn)更為靈活的多視角關(guān)聯(lián),有利于進(jìn)一步避免單視角下漏檢,因此能夠進(jìn)一步提高查全率(0.83).與基于多視角空間位置信息融合方法一樣,該方法不能很好地解決遮擋目標(biāo)的相互干擾,因此目標(biāo)檢測(cè)查準(zhǔn)率較低(0.66).
(5) 本文所提出方法實(shí)驗(yàn)結(jié)果分析.首先,本文提出方法避免了前兩種方法對(duì)于空間位置信息的依賴(lài),直接采用目標(biāo)區(qū)域的視覺(jué)特征進(jìn)行多視角關(guān)聯(lián),從而實(shí)現(xiàn)多視角信息的融合,因此該方法能夠進(jìn)一步提高查全率(0.92).其次,該方法將多視角下目標(biāo)匹配轉(zhuǎn)化為基于人體塊區(qū)域結(jié)構(gòu)化約束的最大后驗(yàn)概率問(wèn)題,通過(guò)最優(yōu)求解獲取多視角目標(biāo)匹配結(jié)果,因此能夠有效解決多目標(biāo)遮擋帶來(lái)的檢測(cè)困難.但是,實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)多目標(biāo)遮擋區(qū)域較大時(shí),基于塊的檢測(cè)模型無(wú)法獲取有效的人體局部塊視覺(jué)特征,導(dǎo)致多視角塊特征相似度計(jì)算得不準(zhǔn)確,因此準(zhǔn)確率有所下降.通過(guò)表 1可知,該方法可以在顯著提高查全率的同時(shí)保持較高的查準(zhǔn)率(0.90),如圖 3所示(橢圓標(biāo)記的為采用文獻(xiàn)[16]方法的檢測(cè)結(jié)果,矩形框標(biāo)記的為采用本文方法的檢測(cè)結(jié)果).
通過(guò)上述分析和比較可見(jiàn),基于結(jié)構(gòu)化約束的多視角人體檢測(cè)方法能夠有效利用多視角信息實(shí)現(xiàn)更準(zhǔn)確和魯棒的目標(biāo)檢測(cè).
圖3 基于分塊信息的目標(biāo)檢測(cè)模型和本文提出方法的檢測(cè)結(jié)果Fig.3 Results of model based on part-based human detection and proposed method
本文提出了基于結(jié)構(gòu)化約束的多視角人體檢測(cè)方法.該方法通過(guò)基于塊的人體檢測(cè)模型獲取人體局部塊信息,然后采用空間仿射變換將不同視角下重疊區(qū)域通過(guò)變換矩陣的映射關(guān)系關(guān)聯(lián)起來(lái),最后針對(duì)仿射變換后的區(qū)域因遮擋或者存在多目標(biāo)導(dǎo)致多視角目標(biāo)關(guān)聯(lián)困難這一問(wèn)題,利用人體局部顯著塊間的結(jié)構(gòu)化約束為多視角目標(biāo)匹配構(gòu)造最大后驗(yàn)概率模型,通過(guò)最優(yōu)求解獲取多視角目標(biāo)匹配結(jié)果.比較實(shí)驗(yàn)結(jié)果表明,本方法能夠有效利用多視角信息來(lái)彌補(bǔ)單視角下人體檢測(cè)中出現(xiàn)的漏檢和遮擋問(wèn)題,顯著提高人體檢測(cè)效果.
參考文獻(xiàn):
[1] Rossi M,Bozzoli A. Tracking and counting moving people[C]// IEEE International Conference on Image Processing. Austin,USA,1994:212-216.
[2] Cucchiara R,Grana C,Piccardi M,et al. Detecting moving objects,ghosts,and shadows in video streams[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI),2003,25(10):1337-1342.
[3] Yoon Sang Min,Kim Hyunwoo. Real-time multiple people detection using skin color,motion and appearance information[C]// 13th IEEE International Workshop on Robot and Human Interactive Communication. Kurashiki,Okayama,Japan,2004:331-334.
[4] Dalal N,Triggs B,Schmid C. Human detection using oriented histograms of flow and appearance[C]// European Conference on Computer Vision(ECCV). Graz,Austria,2006:7-13.
[5] Cucchiara R,Grana C,Piccardi M,et al. Using boosted features for the detection of people in 2D range data[C]// 2007 IEEE International Conference on Robotics and Automation. Beijing,China,2007:3402-3407.
[6] Chakraborty Bhaskar,Rudovic Ognjen,Gonz`alez Jordi. View-invariant human-body detection with extension to human action recognition using component-wise HMM of body parts[C]// 8th IEEE International Conference on Automatic Face and Gesture Recognition. Amsterdam,the Netherlands,2008:1-6.
[7] García-Martínálvaro,Hauptmann Alex,José M Martinez. People detection based on appearance and motion models[C]// 8th IEEE International Conference on Advanced Video and Signal-Based Surveillance(AVSS). Klagenfurt,Austria,2011:256-260.
[8] Zhang Zhengzhi,Kodagoda K R S. Multi-sensor approach for people detection[C]// Proceedings of the 2005 International Conference on Intelligent Sensors,Sensor Networks and Information Processing Conference. Melbourne,Australia,2005:355-360.
[9] Ros J,Mekhnacha K. Multi-sensor human tracking with the Bayesian occupancy filter[C]//16th International Conference on Digital Signal Processing.Santorini,Greece,2009:1-8.
[10] Dockstader S,Tekalp A M. Multiple camera tracking of interacting and occluded human motion[J]. Proceedings of the IEEE,2001,89(10):1441-1455.
[11] Kim Kyungnam,Davis L S. Multi-camera tracking and segmentation of occluded people on ground plane using search-guided particle filtering[C]// ECCV'06 Proceedings of the 9th European Conference on Computer Vision. San Diego,USA,2006:98-109.
[12] Zeng Chengbin,Ma Huadong. Human detection using multi-camera and 3D scene knowledge[C]//18th IEEE International Conference on Image Processing. Brussels,Belgium,2011:1793-1796.
[13] Kim Kyungnam,Chalidabhongse T H,Harwood D,et al. Real-time foreground background segmentation using codebook model[J]. Real-Time Imaging,2005,11(3):172-185.
[14] Felzenszwalb P F,Girshick R B,McAllester D,et al. Object detection with discriminatively trained part based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI),2010,32(8):1627-1645.
[15] Ghali S. Introduction to Geometric Computing[M]. London:Springer Verlag,2008.
[16] Dalal Navneet,Triggs B. Histograms of oriented gradients for human detection[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR). San Diego,USA,2005,32(9):886-893.
[17] Fleuret F,Berclaz J,Lengagne J,et al. Multicamera people tracking with a probabilistic occupancy map[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI),2008,30(2):267-282.
(責(zé)任編輯:金順愛(ài))
Multi-View Body Structure-Constrainted Human Detection Method
Zhang Jing1,Guo Jingyun1,Liu An′an1,Gao Zan2,Su Yuting1,Zhang Zhe3
(1. School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China;2. School of Computer and Communication Engineering,Tianjin University of Technology,Tianjin 300191,China;3. Microsoft,WA 98052,USA)
To solve the problems of lack of information in single-view and the difficulty in information correspondence in different views,a multi-view body structure-constrainted human detection method was proposed. First,part-based human detection model is implemented to obtain the information on human body part. Then leverage spatial affine transform to correlate the overlapping regions in different views. Finally,to overcome the challenge of object corresponding in multi-view environment caused by partial occlusion and multiple target existence in neighborhood,the model of maximum a posterior(MAP)is developed for multi-view object matching by taking advantage of the body structure constraints. The multi-view object matching result can be achieved by optimizing the objective function of the modal.The experimental results show that the proposed method can improve human detection by efficiently using multi-view cues to avoid partial occlusion in single-view.
multi-view;structural-constraint;affine transform;maximum a posterior(MAP);object matching
TP391.4
:A
:0493-2137(2014)09-0753-06
10.11784/tdxbz201305040
2013-05-18;
2013-08-18.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61100124,21106095,61202168,61170239);天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計(jì)劃資助項(xiàng)目(10JCYBJC25500).
張 靜(1972— ),女,博士,副教授,zhangjing@tju.edu.cn.
劉安安,anan0422@gmail.com.
時(shí)間:2014-01-03.
http://www.cnki.net/kcms/doi/10.11784/tdxbz201305040.html.