劉鶴丹,朱超凡,杜小甫
(廈門(mén)大學(xué)嘉庚學(xué)院信息科學(xué)與技術(shù)學(xué)院,福建漳州,363105)
計(jì)算機(jī)視覺(jué)是一門(mén)集成了計(jì)算機(jī)科學(xué)、生物學(xué)、物理學(xué)甚至心理學(xué)知識(shí)與一體的交叉學(xué)科[1],是計(jì)算機(jī)視覺(jué)技術(shù)的一個(gè)分支領(lǐng)域。視覺(jué)識(shí)別定位技術(shù)的基本思路是利用攝像頭獲取室內(nèi)環(huán)境視覺(jué)信息,有可能包括被定位對(duì)象的人臉信息等,然后根據(jù)一定算法從圖像中識(shí)別出待定位對(duì)象,進(jìn)一步求得待定位對(duì)象的位置信息。根據(jù)攝像頭與待定位對(duì)象的關(guān)系,視覺(jué)定位整體上可以分為主動(dòng)視覺(jué)定位和被動(dòng)視覺(jué)定位兩大類(lèi)。
主動(dòng)視覺(jué)定位技術(shù)是指攝像頭安裝在待定位物體之上,例如掃地機(jī)器人、無(wú)人機(jī)等。主動(dòng)視覺(jué)定位的核心步驟包括邊緣提取,噪聲過(guò)濾,信息識(shí)別等。主動(dòng)視覺(jué)定位技術(shù)被廣泛地使用于工業(yè)機(jī)器人控制,無(wú)人機(jī)自動(dòng)飛行控制[2],工業(yè)產(chǎn)品質(zhì)量檢測(cè),自動(dòng)駕駛等領(lǐng)域。
被動(dòng)視覺(jué)識(shí)別定位技術(shù)指的是,利用位置固定的攝像頭,對(duì)待定位對(duì)象進(jìn)行視頻圖像采集,將圖像信息上傳至后臺(tái)計(jì)算機(jī)進(jìn)行識(shí)別,并進(jìn)行定位解算。根據(jù)使用的攝像頭數(shù)量,可以將視被動(dòng)視覺(jué)識(shí)別定位技術(shù)分為兩大類(lèi):?jiǎn)文考夹g(shù)[3]和多目技術(shù)[4],其中雙目技術(shù)是多目技術(shù)的一個(gè)特例分支。
目標(biāo)檢測(cè)指的是對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè),包括人員。
運(yùn)動(dòng)目標(biāo)檢測(cè)技術(shù)經(jīng)過(guò)多年的發(fā)展,目前已經(jīng)有一些很成熟的技術(shù),主要包括背景減除法,幀差法,光流法等。比如,莫邵文等[5]在ViBe 算法的基礎(chǔ)上,解決鬼影問(wèn)題。
行人識(shí)別是從視頻中根據(jù)行人特征直接提取并標(biāo)注行人的方法,近年來(lái)對(duì)這類(lèi)方法的研究也比較深入。該類(lèi)方法主要是使用不同尺度的滑動(dòng)窗口選定圖像的某一區(qū)域?yàn)楹蜻x區(qū)域,從對(duì)應(yīng)的候選區(qū)域提取Haar 特征[6],LBP 紋理特征[7],HOG 特征[8],DPM 特征[9]等一類(lèi)或者多類(lèi)特征,再使用Adaboost,SVM,LatentSVM[9]等分類(lèi)算法通過(guò)在訓(xùn)練集訓(xùn)練分類(lèi)器,該分類(lèi)器可以對(duì)對(duì)應(yīng)的候選區(qū)域進(jìn)行分類(lèi),判斷是否屬于待檢測(cè)的目標(biāo)。例如Dalai[9]在2005年提出的HOG(Histograms of oriented gradients)特征,并利用SVM 分類(lèi)器進(jìn)行判斷是否為待檢測(cè)的行人目標(biāo)。2008年Felzenszwalb[8]在HOG 特征的基礎(chǔ)上提出了DPM(deformable part model)特征,并利用LatentSVM 進(jìn)行分類(lèi)。2013年劉小灃[10]提出一種基于稀疏表達(dá)學(xué)習(xí)理論的稀疏編碼直方圖特征(HSC, histograms of sparse codes)算法,用HSC 特征代替DPM 算法中的HOG 特征,提升了DPM 的準(zhǔn)確率。
人臉識(shí)別技術(shù)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域最為成功的應(yīng)用之一。傳統(tǒng)人臉識(shí)別技術(shù)主要包括采用全局特征和局部特征對(duì)人臉進(jìn)行描述,再對(duì)提取出的特征描述,使用支持向量機(jī)等方法進(jìn)行分類(lèi)操作。
近年來(lái),基于深度學(xué)習(xí)(Deep Learning)[11]的人臉識(shí)別技術(shù)成為主流,在準(zhǔn)確度和速度方面都有極大優(yōu)勢(shì)。2014年,DeepFace[12]在 著 名 的LFW(Labeled Face in-the-Wild)數(shù)據(jù)集上取得接近人類(lèi)的表現(xiàn)。近年來(lái)對(duì)抗生成網(wǎng)絡(luò)GAN[13]和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)[14]技術(shù)也被引入到人臉識(shí)別領(lǐng)域。
單目視覺(jué)識(shí)別中的目標(biāo)跟蹤,主要是指對(duì)檢測(cè)到的目標(biāo),結(jié)合視頻中相鄰幀之間的時(shí)空關(guān)系,對(duì)目標(biāo)進(jìn)行快速的識(shí)別并定位。當(dāng)前流行的目標(biāo)跟蹤算法主要分為兩個(gè)模塊,一種是生成式跟蹤算法,一種是判別式跟蹤算法。傳統(tǒng)的跟蹤算法均屬于生成式跟蹤算法。如卡爾曼濾波跟蹤[15]、粒子濾波跟蹤等。
行人再識(shí)別,即跨攝像頭行人關(guān)聯(lián)。其主要的研究?jī)?nèi)容為提取特征并利用度量距離等算法計(jì)算兩個(gè)目標(biāo)的相似度,從而根據(jù)得到的相似度判別這兩個(gè)目標(biāo)是否為同一個(gè)人。行人再識(shí)別技術(shù)的難點(diǎn)主要有兩點(diǎn),第一個(gè)是研究選擇哪一種行人對(duì)象的特征,能夠更好的表達(dá)行人區(qū)別,更加具有魯棒性;另外一個(gè)方向是使用更有效的距離度量函數(shù),使得同一個(gè)人的圖像間特征距離小于不同行人圖像間的特征距離。特征選取問(wèn)題上,己有方法主要從顏色、紋理、梯度等角度對(duì)行人進(jìn)行描述。顏色直方圖是最常用的特征,也是最直觀(guān)的特征表達(dá)。直方圖特征的缺點(diǎn)在于對(duì)于光照等條件的變化非常敏感。為了解決光照問(wèn)題,引入了顏色碼本[16]、極大穩(wěn)定顏色區(qū)域特征[17]等改進(jìn)直方圖特征表達(dá)形式。紋理特征以及邊緣特征等可以更好的描述行人的細(xì)節(jié)上的特征,同時(shí)對(duì)光照的變化不敏感。
本文對(duì)基于計(jì)算機(jī)視覺(jué)的目標(biāo)識(shí)別定位技術(shù)進(jìn)行了綜述,對(duì)涉及到的目標(biāo)識(shí)別檢測(cè)、人臉識(shí)別、行人識(shí)別、目標(biāo)跟蹤、行人再識(shí)別和多攝像頭協(xié)作等內(nèi)容進(jìn)行了總結(jié),研究工作將基于此繼續(xù)展開(kāi)。