何磊,蘇松志,2,李紹滋,2
(1.廈門(mén)大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 福建 廈門(mén) 361005; 2. 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室, 福建 廈門(mén) 361005)
傳統(tǒng)的機(jī)器視覺(jué)是把三維景物投影成二維圖像,然后通過(guò)建立起的圖像數(shù)據(jù)與成像過(guò)程及景物特征的數(shù)學(xué)關(guān)系來(lái)恢復(fù)三維場(chǎng)景。成像的過(guò)程中損失了深度信息,因而重構(gòu)的三維場(chǎng)景并不是惟一的,使機(jī)器視覺(jué)的發(fā)展和應(yīng)用受到了限制。圖像深度信息獲取的基本任務(wù)就是利用光學(xué)、幾何學(xué)等方法從二維圖像中估計(jì)出各物體之間以及同一物體不同部位之間與攝像頭的距離,從而估計(jì)出圖像的深度信息。深度圖像獲取的方法可歸納為主動(dòng)式深度傳感器的方法[1]和被動(dòng)式計(jì)算機(jī)立體視覺(jué)的方法[2-3]。
主動(dòng)式深度傳感器的方法主要是利用物理學(xué)和光學(xué)等知識(shí)來(lái)獲取深度圖像。激光雷達(dá)深度成像[4-5]的基本原理是每隔一定時(shí)間間隔向被測(cè)目標(biāo)發(fā)射信號(hào)并檢測(cè)回波,從而確定距離。莫爾條紋技術(shù)[1-2]利用刻有高頻等間距條紋的標(biāo)尺光柵與指示光柵相重疊,并且二者之間有一個(gè)很小的夾角時(shí)相對(duì)運(yùn)動(dòng)形成低頻莫爾條紋的原理。結(jié)構(gòu)光法是近年來(lái)在激光逐點(diǎn)掃描法基礎(chǔ)上發(fā)展起來(lái)的一種非接觸測(cè)量方法。它用激光線光源,經(jīng)柱面鏡產(chǎn)生平面光照射在被測(cè)物上,在被測(cè)物上產(chǎn)生一條明亮的光帶,通過(guò)CCD攝像機(jī)攝入,經(jīng)數(shù)字信號(hào)處理可獲得光帶的數(shù)字圖像,再經(jīng)計(jì)算機(jī)處理即得物體在光切面上的二維輪廓信息,若進(jìn)一步沿著第三維直線方向步進(jìn)測(cè)量,就可獲得目標(biāo)的深度圖像。國(guó)內(nèi)外已有許多方法采用結(jié)構(gòu)光實(shí)現(xiàn)三維測(cè)量。Rioux、Haggren、Lorenz等發(fā)表了多種結(jié)構(gòu)光單點(diǎn)測(cè)距系統(tǒng)。除了單點(diǎn)法,Shirai和Will又采用了結(jié)構(gòu)單線法。其他的主動(dòng)式傳感器的方法還有接觸式測(cè)量?jī)x、工業(yè)CT、變焦距法、三角法和干涉法等。上述主動(dòng)式的方法都有一個(gè)共同的缺點(diǎn):需要借助特殊的設(shè)備,估計(jì)深度信息需要還原成像場(chǎng)景。無(wú)法通過(guò)普通的攝像機(jī)獲得圖像,對(duì)其估計(jì)深度信息。假如手頭有一副圖像,估計(jì)它的深度就需要通過(guò)特殊設(shè)備還原成像場(chǎng)景來(lái)對(duì)其估計(jì)深度。
相對(duì)于獲取深度幾何信息的主動(dòng)式方法,采用傳統(tǒng)計(jì)算機(jī)視覺(jué)的方法獲得深度信息的方法稱為被動(dòng)式方法,又稱計(jì)算機(jī)立體視覺(jué)。立體視覺(jué)方法按需要的圖像數(shù)目可分為3類:1)利用一副圖像的圖像理解方法[6-7];2)利用在2個(gè)不同的觀察點(diǎn)獲得的同一景物的2幅圖像恢復(fù)三維立體信息的雙目立體視覺(jué)[8-10];3)利用多個(gè)觀察點(diǎn)獲得多幅圖像的多目立體視覺(jué)[11]。其中雙目立體視覺(jué)[12]直接模仿了人和許多動(dòng)物通過(guò)雙眼獲得景物的深度信息的方式,得到了更為深入的研究。Barnard[13-14]將立體視覺(jué)技術(shù)劃分為6個(gè)部分,分別為圖像獲取、攝像機(jī)定標(biāo)、特征提取、圖像匹配、深度確定、內(nèi)插。與Barnard的劃分方法不同,Dhond和Aggarward將立體視覺(jué)技術(shù)分為3個(gè)主要步驟:預(yù)處理、匹配和深度信息恢復(fù)[15-16]。計(jì)算機(jī)立體視覺(jué)雖然近年來(lái)應(yīng)用越來(lái)越廣泛,但是它們普遍存在的一個(gè)基本問(wèn)題就是對(duì)一個(gè)場(chǎng)景景物的深度估計(jì)需要多幅圖像,日常生活中往往不會(huì)對(duì)同一個(gè)場(chǎng)景拍攝不同角度的幾幅圖像,這就大大限制了它的應(yīng)用范圍。
從單幅圖像中恢復(fù)深度信息是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)難點(diǎn),需要考慮整幅圖像的全局結(jié)構(gòu),也需要利用關(guān)于場(chǎng)景的先驗(yàn)知識(shí)。如何建立單幅圖像彩色信息到深度信息的映射,具有廣泛的理論意義和很好的應(yīng)用價(jià)值。針對(duì)上述前2個(gè)問(wèn)題,提出了一個(gè)基于樣本學(xué)習(xí)的方法,通過(guò)單攝像頭采集的一幅包含人體的圖像,對(duì)其中的人體深度進(jìn)行估計(jì)。該方法的基本思路是:建立人體深度數(shù)據(jù)庫(kù),學(xué)習(xí)人體特征,通過(guò)特征匹配從相似樣本中對(duì)人體深度進(jìn)行估計(jì)和優(yōu)化。本文的方法不需要特殊的設(shè)備,也不需要對(duì)一個(gè)場(chǎng)景采集多幅不同角度的圖像,僅僅通過(guò)單攝像頭采集的包含人體的圖像,對(duì)人體深度進(jìn)行估計(jì),從而建立單幅圖像彩色信息到深度信息的映射,同時(shí)克服上述2種方法各自的缺點(diǎn)。為估計(jì)單幅圖像的人體深度信息提供了新的思路。
本文提出的方法主要理論基礎(chǔ)是基于特征統(tǒng)計(jì)學(xué)習(xí)的方法,在建立的數(shù)據(jù)庫(kù)中學(xué)習(xí)到所需要的重要信息,然后根據(jù)所學(xué)習(xí)到的知識(shí),用機(jī)器學(xué)習(xí)的方法估計(jì)出新來(lái)的目標(biāo)的深度信息。這種方法首先需要通過(guò)學(xué)習(xí),對(duì)數(shù)據(jù)庫(kù)的每個(gè)目標(biāo)進(jìn)行特征提取,這個(gè)特征可以是亮度、深度、紋理或者幾何形狀,然后對(duì)估計(jì)目標(biāo)的亮度、深度、紋理、幾何形狀等特征各自建立概率函數(shù),最后將測(cè)試目標(biāo)與數(shù)據(jù)庫(kù)中相似目標(biāo)的相似程度表示為概率大小,取概率最大的目標(biāo)深度作為估計(jì)的深度。
基于機(jī)器學(xué)習(xí)的方法有如下優(yōu)點(diǎn):只要數(shù)據(jù)庫(kù)足夠完備,任何和數(shù)據(jù)庫(kù)目標(biāo)一致的對(duì)象都能進(jìn)行深度估計(jì),并且估計(jì)質(zhì)量和效率都很高,很少需要人工交互。這種重建技術(shù)最大的困難是建立完備的數(shù)據(jù)庫(kù)。此外,如果能在匹配特征上有更好的選擇,估計(jì)的深度信息會(huì)更加準(zhǔn)確。本文的方法主要是通過(guò)單攝像頭采集的單幅包含人體的圖像,從已經(jīng)建立的數(shù)據(jù)庫(kù)中學(xué)習(xí)到的知識(shí),估計(jì)出單幅圖像人體的深度信息。其中需要解決的問(wèn)題有:
1)數(shù)據(jù)庫(kù)如何建立,包含哪些內(nèi)容,需要根據(jù)選擇的匹配特征來(lái)決定;
2)如何選擇人體的部分特征作為學(xué)習(xí)和匹配的重要信息;
3)如何根據(jù)選擇的人體部分特征在數(shù)據(jù)庫(kù)中找到需要的信息;
4)找到了需要的信息后,如何根據(jù)這些信息,估計(jì)出單幅圖像中人體的深度信息,并進(jìn)行優(yōu)化。
針對(duì)上述問(wèn)題,本文設(shè)計(jì)了如圖1所示的基于樣例學(xué)習(xí)的人體深度信息估計(jì)算法基本流程,其核心思想是:相同姿態(tài)的人在以同一個(gè)角度面對(duì)鏡頭拍攝圖像,他們的人體的各個(gè)部分有大致相同的深度分布。換而言之,就是說(shuō)具有相似輪廓的人體圖像,他們的人體各部分的相對(duì)深度也是相似的。這里所說(shuō)的深度不是傳統(tǒng)意義上的目標(biāo)離攝像機(jī)光心的距離,這個(gè)相對(duì)深度的含義僅僅是指在人體上選取一個(gè)參考點(diǎn),然后計(jì)算出的人體離參考點(diǎn)的距離。這個(gè)相對(duì)距離不受人體離攝像機(jī)距離的影響,把相同姿態(tài)的人體在離攝像機(jī)不同距離情況下所拍攝圖像的人體深度信息認(rèn)為是相同的。當(dāng)然,不是所有找到的樣本都對(duì)目標(biāo)圖像估計(jì)準(zhǔn)確,這也是為什么要找一些候選樣本,然后用全局優(yōu)化的方法對(duì)他們進(jìn)行加權(quán)和內(nèi)插的原因,而不是簡(jiǎn)單的利用這些樣本的絕對(duì)深度信息。具體算法如算法1所示。
圖1 基于樣例學(xué)習(xí)的人體深度信息估計(jì)算法基本流程Fig.1 The basic flow of the human body depth information estimation algorithm based on sample learning
算法1:基于樣例學(xué)習(xí)的人體深度信息估計(jì)
輸入:?jiǎn)畏鵕GB人體彩色圖像;
輸出:人體深度圖像。
1)給出一個(gè)目標(biāo)圖像,準(zhǔn)確地分割出人體的輪廓;2)在給定的RGBD數(shù)據(jù)庫(kù)中,找到k個(gè)候選樣本,這k個(gè)候選樣本一定是與目標(biāo)圖像在人體輪廓上最相似的k個(gè);3)通過(guò)對(duì)k個(gè)候選樣本的深度圖像進(jìn)行加權(quán)平均完成優(yōu)化過(guò)程,得到估計(jì)的深度圖像。論文的第2、3和4部分分別對(duì)算法中的每個(gè)步驟進(jìn)行描述。
如何選擇人體的部分特征作為匹配特征將直接關(guān)系到實(shí)驗(yàn)結(jié)果的好壞??梢赃x擇亮度、深度、紋理、幾何形狀作為匹配特征。由于本文的方法是基于統(tǒng)計(jì)學(xué)的方法,認(rèn)為單幅圖像中人體各部位的深度最可能與數(shù)據(jù)庫(kù)圖像中人體姿態(tài)相似的那部分樣本中人體各部位的深度相似。所以就選擇相應(yīng)的輪廓特征作為匹配的特征。
選擇的輪廓特征是基于這樣一個(gè)事實(shí):在圖像中的人體如果具有相似的姿態(tài),那么它們的人體輪廓上各個(gè)點(diǎn)到它們重心的距離必然是相似的。那么基于最直觀的角度,可以首先分割出人的輪廓,然后計(jì)算出人體的輪廓上各點(diǎn)到重心的距離,組成一個(gè)N維的向量,那么這個(gè)N維的向量就是所提取出的關(guān)于這個(gè)人體的輪廓信息。
假設(shè)人體的密度是均勻的,那么計(jì)算輪廓上各個(gè)點(diǎn)的平均橫坐標(biāo)和平均縱坐標(biāo)就是這個(gè)人體輪廓重心,計(jì)算公式如式(1)、(2)所示:
(1)
(2)
(3)
這里會(huì)遇到一個(gè)問(wèn)題,就是輪廓上的點(diǎn)數(shù)T一般不會(huì)剛好是N個(gè)點(diǎn),有時(shí)候會(huì)多于N個(gè),有時(shí)候會(huì)比N個(gè)少,這時(shí)候用線性插值的方法,均勻的在輪廓上取得N個(gè)點(diǎn),計(jì)算出特征向量A。人體輪廓特征提取如圖2所示。
圖2 人體輪廓特征提取Fig.2 The human body contour feature extraction
選擇了輪廓特征作為匹配特征,通過(guò)線性內(nèi)插法選擇輪廓上的N個(gè)點(diǎn)計(jì)算到重心的距離得到N維向量A。接下來(lái)就是如何利用這個(gè)N維向量A在數(shù)據(jù)庫(kù)中找到與這個(gè)N維向量最相似的一些樣本。這是一個(gè)簡(jiǎn)單的問(wèn)題,同樣對(duì)數(shù)據(jù)庫(kù)中的每個(gè)樣本都計(jì)算出這樣一個(gè)N維向量。然后在這些個(gè)N維向量中找到一些與測(cè)試樣本中的N維向量距離最小的N維向量,與這些找到的N維向量對(duì)應(yīng)的樣本就是和測(cè)試樣本最相似的那些樣本。由于每個(gè)N維向量中的各維大小不僅與人的輪廓有關(guān),而且與人離鏡頭的距離有密切相關(guān),計(jì)算相似度的時(shí)候必須把這一因素考慮在外。所以必須對(duì)這些N維向量進(jìn)行歸一化,如式(4)所示:
A=
(4)
這樣對(duì)N維向量規(guī)一化的過(guò)程相當(dāng)于把人體離攝像機(jī)距離的因素考慮在外,N維向量的每個(gè)分量大小只包含了人體的輪廓信息。那么,現(xiàn)在需要做的就是找到與測(cè)試樣本中人體輪廓最相似的一些樣本。計(jì)算出測(cè)試樣本對(duì)應(yīng)N維向量與數(shù)據(jù)庫(kù)中樣本N維向量的距離來(lái)找到這些樣本,如式(5):
(5)
式中:di是測(cè)試樣本對(duì)應(yīng)N維向量與第i個(gè)N維向量之間的距離,Ai是第i個(gè)樣本對(duì)應(yīng)的N維向量,A是測(cè)試樣本的N維向量。然后把di進(jìn)行排序,找到最小的k個(gè)di,與之對(duì)應(yīng)的樣本就是最相似的樣本。一般認(rèn)為距離越小,那么樣本中人體的輪廓與測(cè)試樣本中人體的輪廓越相似。
通過(guò)提取測(cè)試樣本中的輪廓信息,得出了一個(gè)關(guān)于輪廓信息的N維向量,基于這個(gè)N維向量,通過(guò)計(jì)算這個(gè)向量與數(shù)據(jù)庫(kù)中各個(gè)樣本的距離,找到與測(cè)試樣本人體輪廓最相似的k個(gè)樣本,接下來(lái)根據(jù)這k個(gè)樣本的人體深度信息,來(lái)估計(jì)測(cè)試樣本中人體的深度信息。
一般認(rèn)為在攝像頭面前擁有相似輪廓的人體,它們的姿態(tài)都是相似的,同時(shí)它們面對(duì)攝像機(jī)的角度也是相似的,那么人體上的2點(diǎn)之間的相對(duì)深度應(yīng)該趨于一致,例如手相對(duì)于胸的距離在上述條件下應(yīng)該趨于一致。
所以基本可以得出一個(gè)結(jié)論就是在攝像頭面前人體輪廓越相似,那么它們?nèi)梭w各部分之間的相對(duì)深度就越相似,比如同樣姿勢(shì)的人體,手到頭、頭到胸、胸到腳之間的相對(duì)距離都是相似的。
到此為止可以給出一種最直觀的估計(jì)測(cè)試樣本人體深度的一個(gè)方法,如式(6)所示:
(6)
式中:Ptest是所估計(jì)的測(cè)試樣本人體深度,Pi是找到的最相似的k個(gè)樣本中的第i個(gè)樣本對(duì)應(yīng)的深度信息,di是k個(gè)樣本中第i個(gè)樣本N維向量與測(cè)試樣本N維向量的距離。這個(gè)公式說(shuō)明了輪廓距離越小、越相似的樣本,對(duì)應(yīng)的深度信息在最后的估計(jì)結(jié)果中影響權(quán)值越大,反之影響權(quán)值越小。
實(shí)驗(yàn)的目的是在建立的廈門(mén)大學(xué)深度數(shù)據(jù)庫(kù)上,驗(yàn)證本文提出單攝像頭下基于樣本學(xué)習(xí)的人體深度估計(jì)方法的有效性。本實(shí)驗(yàn)分為2個(gè)部分:1)選擇多組測(cè)試樣本進(jìn)行實(shí)驗(yàn),根據(jù)后文中提出的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)。2)對(duì)同一組測(cè)試樣本設(shè)定不同的k值,分別測(cè)得實(shí)驗(yàn)指標(biāo),說(shuō)明k值對(duì)整個(gè)實(shí)驗(yàn)結(jié)果的影響。
由于本文所采用的方法比較新穎,所以無(wú)法使用國(guó)際上實(shí)驗(yàn)所用的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),必須自己建立所需要的數(shù)據(jù)庫(kù)。
如上文所述,數(shù)據(jù)庫(kù)中的樣本至少由如下部分組成:一副RGB圖像,與RGB對(duì)應(yīng)的包含深度信息的圖像,另一副對(duì)應(yīng)的人體輪廓的圖像。數(shù)據(jù)集的部分深度信息如圖3所示。
(a)圖例1
(b)圖例2
圖3 廈門(mén)大學(xué)深度數(shù)據(jù)庫(kù)部分深度信息Fig.3 Xiamen University depth section depth information database
因?yàn)樾枰疃刃畔ⅲ圆杉瘓D像時(shí)需要用到kinect,在采集一副圖像的時(shí)候同時(shí)得到對(duì)應(yīng)的深度信息。用圖像分割的方法,分割出人體的部分,找到人體的輪廓,以便匹配人體輪廓。
最后是樣本采集的環(huán)境問(wèn)題。采集的樣本全部是在室內(nèi)的環(huán)境,由于室外環(huán)境復(fù)雜,kinect采集的深度圖像可能會(huì)出現(xiàn)很多噪聲,導(dǎo)致深度信息不夠準(zhǔn)確影響實(shí)驗(yàn)結(jié)果。采集的樣本必須包含人的全身,暫時(shí)不考慮只有部分人體的條件。樣本數(shù)量必須足夠,以便可以收集到人體在室內(nèi)環(huán)境下的各種姿態(tài),保證估計(jì)圖像的人體輪廓在數(shù)據(jù)庫(kù)中總能找到非常相似的那些樣本,這對(duì)實(shí)驗(yàn)結(jié)果至關(guān)重要。
廈門(mén)大學(xué)深度庫(kù)詳細(xì)信息如表1所示。
第1部分實(shí)驗(yàn)是選擇數(shù)據(jù)庫(kù)里面的11組樣本作為訓(xùn)練樣本,然后剩下的4組作為測(cè)試樣本。參數(shù)k為5固定不變。實(shí)驗(yàn)的輸入為包含人體的彩色圖像,先通過(guò)預(yù)處理得到人體輪廓。預(yù)處理方法可以用GMM[18-19]、Vibe[20]、SOBs[21]、Codebook[22]等背景減除的方法,這里采用GMM。
然后通過(guò)本文提出的方法估計(jì)出人體深度信息。部分實(shí)驗(yàn)結(jié)果如圖4所示。圖4表示的是4組測(cè)試樣本的部分實(shí)驗(yàn)結(jié)果,選擇了幾組包含不同人體姿態(tài)的測(cè)試樣本進(jìn)行說(shuō)明。
圖4 人體深度信息估計(jì)部分實(shí)驗(yàn)結(jié)果Fig.4 The body part depth information estimation results
表1 廈門(mén)大學(xué)表觀深度圖像數(shù)據(jù)集的統(tǒng)計(jì)信息
圖4中第1行的圖像是實(shí)驗(yàn)測(cè)試圖像,第2行圖像是實(shí)驗(yàn)所得測(cè)試圖像的人體深度估計(jì)信息。從圖4中可以看出,由前5個(gè)測(cè)試樣本實(shí)驗(yàn)所得到的人體深度信息估計(jì)中,除了人體邊緣部分的深度信息估計(jì)比較模糊,存在誤差,其他部分的深度信息估計(jì)的比較準(zhǔn)確。因?yàn)殡m然以人體輪廓作為匹配特征,但是由于相同姿態(tài)的人體輪廓特征總不可能完全相同,所以這就解釋了在人體邊緣部分估計(jì)的深度信息有所誤差,而在其他剩余的部分深度信息比較準(zhǔn)確的問(wèn)題。圖4(f)的實(shí)驗(yàn)結(jié)果不甚理想,主要原因是:這幅圖像的人體姿態(tài)比較不常見(jiàn),而在訓(xùn)練樣本中沒(méi)有類似人體姿態(tài)的樣本能夠匹配到,所以導(dǎo)致人體深度信息估計(jì)偏差較大,這也間接證明前文提出的一個(gè)觀點(diǎn):訓(xùn)練樣本越多,包含的人體姿態(tài)越多,那么對(duì)人體深度信息的估計(jì)越準(zhǔn)確,反之則相反。
4組測(cè)試樣本的估計(jì)結(jié)果分別計(jì)算的log 10,RMSE和REL誤差如表2所示。4組測(cè)試樣本分別包含865、1174、933、1316幅各種人體姿態(tài)的RGB彩色圖像。表2得到的是每組測(cè)試樣本的評(píng)價(jià)誤差??梢詮腞EL相對(duì)誤差這一項(xiàng)看出,本文的方法對(duì)人體深度信息的估計(jì)很準(zhǔn)確誤差很小,這也符合從圖4得出的主觀感受。
表2 4組測(cè)試樣本的估計(jì)誤差
最后通過(guò)對(duì)同一組測(cè)試樣本設(shè)定不同的k值來(lái)研究k值對(duì)實(shí)驗(yàn)結(jié)果的影響。分別計(jì)算測(cè)試樣本在k值為3、5、7、9下的lg,RMSE和REL誤差,如表3所示。從表3中可以看出,k值的變化對(duì)實(shí)驗(yàn)結(jié)果的影響并不大,不同的k值誤差之間差別很小。但是可以看出隨著k的增大誤差在緩慢變大,這并不難理解。由于k值的增大,匹配到的相似樣本數(shù)越多,那么匹配到錯(cuò)誤樣本的幾率就逐漸增大,有可能相似樣本中有一些和測(cè)試樣本的人體姿態(tài)并不相同,但是也被選擇為相似樣本,這就在后面的優(yōu)化過(guò)程中出現(xiàn)了誤差。所以并不建議選擇很大的k值,一般選擇5,在數(shù)據(jù)庫(kù)樣本充足的情況,可以適當(dāng)?shù)脑龃髃值。
表3 不同k值下的實(shí)驗(yàn)誤差
文中提出了一種新的方法,利用單攝像頭采集的單幅圖像估計(jì)出人體的深度,突破了傳統(tǒng)的通過(guò)特殊成像器材和多視圖的方法來(lái)估計(jì)深度的范疇。從樣本學(xué)習(xí)的角度出發(fā),通過(guò)找到測(cè)試圖像中人體與數(shù)據(jù)庫(kù)中的相似信息,從數(shù)據(jù)庫(kù)已有的信息來(lái)估計(jì)出人體的深度。通過(guò)實(shí)驗(yàn)也很好地驗(yàn)證了該方法在簡(jiǎn)單的室內(nèi)環(huán)境下的有效性。本文的實(shí)驗(yàn)在建立的廈門(mén)大學(xué)深度數(shù)據(jù)庫(kù)上完成的,數(shù)據(jù)庫(kù)中人體的姿態(tài)和面對(duì)攝像頭的角度都是有限的,接下來(lái)的工作主要集中于如何在原有的數(shù)據(jù)庫(kù)上擴(kuò)充樣本數(shù)量,使得數(shù)據(jù)庫(kù)包含的人體姿態(tài)更多,人體面對(duì)攝像頭的角度更加豐富,環(huán)境更加復(fù)雜普遍。如何從更加廣泛的數(shù)據(jù)庫(kù)上驗(yàn)證方法的可行性和有效性,討論數(shù)據(jù)庫(kù)的完備性和在龐大的數(shù)據(jù)下建立一種快速有效的檢索匹配特征的方法,會(huì)是將來(lái)工作的重點(diǎn)和方向。
參考文獻(xiàn):
[1]NITZAN D, BRAIN A E, DUDA R O. The measurement and use of registered reflectance and range data in scene analysis[J]. Proceedings of the IEEE, 1977, 65(2): 206-220.
[2]LEWIS R A, Johnston A R. A scanning laser rangefinder for a robotic vehicle[C]//IJCAI. 1977: 762-768.
[3]游素亞.立體視覺(jué)研究的現(xiàn)狀與進(jìn)展[J]. 中國(guó)圖象圖形學(xué)報(bào): A 輯, 1997, 2(1): 17-24.
YOU Suya. The present situation and progress in the study of stereo vision[J]. Journal of Image and Graphics: A,1977, 2(1): 17-24.
[4]HERSMAN M, GOODWIN F, KENYON S, et al. Coherent laser radar application to 3D vision and metrology[C]//Proc of Vision 87 Conf. London, 1987: 465-579.
[5]趙遠(yuǎn),蔡喜平.成像激光雷達(dá)技術(shù)概述[J]. 激光與紅外, 2000, 30(6): 328-330.
ZHAO Yuan, CAI Xiping. Imaging laser radar overview[J]. Laser and Infrared, 2000, 30(6): 328-330.
[6]HORN B K P. Shape from shading: a method for obtaining the shape of a smooth opaque object from one view. AITR-232[R]. Cambridge, USA: MIT Artificial Intelligence Laboratory,1970.
[7]WOODHAM R J. Photometric method for determining surface orientation from multiple images[J]. Optical Engineering, 1980, 19(1): 139-144.
[8]AKIMOTO T, SUENAGA Y, WALLACE R S. Automatic creation of 3D facial models[J]. Computer Graphics and Applications, 1993, 13(5): 16-22.
[9]CHEN C L, TAI C L, LIO Y F. Virtual binocular vision systems to solid model reconstruction[J]. The International Journal of Advanced Manufacturing Technology, 2007, 35(3/4): 379-384.
[10]隋婧,金偉其.雙目立體視覺(jué)技術(shù)的實(shí)現(xiàn)及其進(jìn)展[J].電子技術(shù)應(yīng)用, 2005, 30(10): 4-6.
SUI Jing, JIN Weiqi. The realization of the binocular stereo vision technology and its progress[J]. Application of Electronica Technology, 2005, 30(10): 4-6.
[11]SEITZ S M, CURLESS B, DIEBEL J, et al. A comparison and evaluation of multi-view stereo reconstruction algorithms[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.], 2006, 1: 519-528.
[12]吳立德.計(jì)算機(jī)視覺(jué)[M]. 上海:復(fù)旦大學(xué)出版社, 1993: 119-205.
[13]BARNARD S T, FISCHLER M A. Computational stereo[J]. ACM Computing Surveys (CSUR), 1982, 14(4): 553-572.
[14]LEMMENS M. A survey on stereo matching techniques[J]. International Archives of Photogrammetry and Remote Sensing, 1988, 27(B8): V11-V23.
[15]DHOND U R, AGGARWAL J K. Structure from stereo-a review[J]. IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(6): 1489-1510.
[16]MAYHEW J E W, FRISBY J P. Psychophysical and computational studies towards a theory of human stereopsis[J]. Artificial Intelligence, 1981, 17(1): 349-385.
[17]SAXENA A, SUN M, NG A Y. Make3d: learning 3d scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[18]ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction[C]//Proceedings of the 17th International Conference on Pattern Recognition. [S.l.], 2004, 2: 28-31.
[19]王亮, 胡衛(wèi)明, 譚鐵牛. 人運(yùn)動(dòng)的視覺(jué)分析綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(3): 225-237.
WANG Liang, HU Weiming, TanTieniu. People movement of the visual analysis overview[J]. Chinese Journal of Computer, 2002, 25(3): 225-237.
[20]BARNICH O, VAN DROOGENBROECK M. ViBe: a universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing, 2011, 20(6): 1709-1724.
[21]MADDALENA L, PETROSINO A. A self-organizing approach to background subtraction for visual surveillance applications[J]. IEEE Transactions on Image Processing, 2008, 17(7): 1168-1177.
[22]KIM K, CHALIDABHONGSE T H, HARWOOD D, et al. Real-time foreground-background segmentation using codebook model[J]. Real-time Imaging, 2005, 11(3): 172-185.