田文奇,瞿心昱
(浙江交通職業(yè)技術(shù)學(xué)院機(jī)電學(xué)院,浙江杭州311112)
基于計(jì)算機(jī)視覺(jué)的場(chǎng)景識(shí)別是實(shí)現(xiàn)人機(jī)交互的一種新的重要手段。通常的方法是先對(duì)攝像頭讀入的圖像或視頻信息進(jìn)行場(chǎng)景的檢測(cè)和定位,然后對(duì)檢測(cè)到的場(chǎng)景進(jìn)行跟蹤并分割出較小的感興趣區(qū)域,之后在此感興趣區(qū)域中分割出準(zhǔn)確的場(chǎng)景,最后使用預(yù)先通過(guò)訓(xùn)練樣本訓(xùn)練好的分類器進(jìn)行分類識(shí)別。已經(jīng)有很多研究人員提出了自己不同的解決方法[1-6],但是其基本框架還是和上述的一致的。這個(gè)框架是目前各種視覺(jué)識(shí)別系統(tǒng)包括場(chǎng)景識(shí)別所普遍采用的,主要存在的問(wèn)題是:分類器的學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),比如同一個(gè)場(chǎng)景,在不同光照不同角度,都需要大量樣本進(jìn)行訓(xùn)練,然而這些樣本的收集是一件耗時(shí)耗力且困難的;分類器的學(xué)習(xí)是批量的、離線的,如果要添加新的場(chǎng)景,必須增加新的訓(xùn)練樣本,重新訓(xùn)練,當(dāng)類別很多時(shí),重新訓(xùn)練是非常耗時(shí)的,因此可擴(kuò)展性差;對(duì)于事先訓(xùn)練好的分類器,分類識(shí)別往往只停留在已訓(xùn)練的類別里,對(duì)未知新類別會(huì)錯(cuò)誤分類到已有類別中,而不會(huì)知道是新類別,即對(duì)新情況適應(yīng)性和魯棒性差;場(chǎng)景特征只能從少量的初始樣本里獲得,這對(duì)于場(chǎng)景的準(zhǔn)確特征表達(dá)往往是不夠的,識(shí)別準(zhǔn)確率不能得到提高。
為了解決這些問(wèn)題,國(guó)內(nèi)外各研究人員提出了不同的在線學(xué)習(xí)框架和學(xué)習(xí)算法,將樣本的訓(xùn)練和測(cè)試同時(shí)進(jìn)行,實(shí)時(shí)地、在線地更新訓(xùn)練結(jié)果和分類器。這樣就使得訓(xùn)練分類器不需要收集大量訓(xùn)練數(shù)據(jù),而是在系統(tǒng)使用的過(guò)程中實(shí)時(shí)在線訓(xùn)練,不斷在運(yùn)行中獲得訓(xùn)練樣本進(jìn)行實(shí)時(shí)訓(xùn)練和學(xué)習(xí),隨時(shí)更新樣本特征空間,不斷提高識(shí)別的準(zhǔn)確率,同時(shí)也能對(duì)未知類別實(shí)時(shí)檢測(cè)和學(xué)習(xí)。Stephan KIRSTEIN 等[7]模擬了人腦的記憶結(jié)構(gòu),采用Gabor 濾波和分層結(jié)構(gòu)來(lái)進(jìn)行特征提取,然后采用在線向量量化算法(oVQ)和增量學(xué)習(xí)向量量化算法(iLVQ)對(duì)物體特征實(shí)現(xiàn)在線增量學(xué)習(xí),在3 個(gè)小時(shí)內(nèi)實(shí)現(xiàn)了對(duì)50 個(gè)物體的在線學(xué)習(xí)和準(zhǔn)確識(shí)別。A PRONOBIS 等[8]采用修改的支持向量機(jī)算法進(jìn)行移動(dòng)機(jī)器人室內(nèi)場(chǎng)景的增量學(xué)習(xí)。Peter M ROTH 等[9]采用增量主成分分析(PCA)對(duì)手持未知物體進(jìn)行在線學(xué)習(xí)。另外還有些研究人員研究了在線PCA 算法對(duì)視覺(jué)物體,行為和場(chǎng)景進(jìn)行在線學(xué)習(xí)[10-12]。D SKOCAJ 和A LEONARDIS 等[13]則提出了一種用于子空間增量學(xué)習(xí)的加權(quán)和魯棒PCA 算法。
針對(duì)場(chǎng)景學(xué)習(xí)和識(shí)別,提出一種基于增量PCA的場(chǎng)景在線學(xué)習(xí)和識(shí)別方法。
算法流程如圖1 所示。假設(shè)輸入算法有n 個(gè)樣本,算法有如下一些變量:當(dāng)前的子空間,當(dāng)前樣本均值向量,當(dāng)前系數(shù)向量,新樣本,其重建投影,子空間更新,更新后的平均向量和更新后的系數(shù)向量。
在步驟n+1 時(shí),當(dāng)新樣本輸入,新的子空間可以通過(guò)計(jì)算主成分分析得到的系數(shù)向量,而不是高維重建,因?yàn)橄禂?shù)向量和重建圖像包含相同的視覺(jué)變化,即在不同的坐標(biāo)下,他們的本質(zhì)是一樣的,因此這個(gè)方法在計(jì)算上非常有效。
圖1 自適應(yīng)增量PCA 算法流程
在步驟n+1,新樣本投影到當(dāng)前子空間
重建得
計(jì)算誤差向量
和擴(kuò)展協(xié)方差矩陣
建立新的系數(shù)矩陣
求得下一步的系數(shù)矩陣為
更新的子空間為
上述在線主成分分析的問(wèn)題是,在每一步增加了一個(gè)維度,因此,增加了計(jì)算和存儲(chǔ)成本和冗余樣本信息。因此,提出了自適應(yīng)子空間的概念,來(lái)調(diào)整子空間上面的在線PCA 算法的更新策略。每一個(gè)新的場(chǎng)景圖像可以分為3 種情況:(1)未知樣本,新類;(2)與已學(xué)習(xí)類相似性較低的場(chǎng)景樣本;(3)與已學(xué)習(xí)類相似度高的場(chǎng)景樣本。設(shè)置兩個(gè)閾值來(lái)區(qū)分3種情況:θclass,類間距離閾值;θdistance,類內(nèi)距離閾值。更新策略分為3 種方法根據(jù)θclass和θdistance。如圖2所示。
圖2 自適應(yīng)子空間更新策略結(jié)構(gòu)圖
如果‖r‖ >θclass,則通過(guò)在線PCA 算法計(jì)算新子空間U(n+1),且dim(U(n+1))=dim(U(n))+1,如果‖r‖<θclass,計(jì)算新樣本投影和已有所有樣本投影的歐式距離deuclidean 根據(jù)大小判斷分成兩個(gè)類別分別處理。
實(shí)驗(yàn)設(shè)計(jì)用來(lái)執(zhí)行提出在線學(xué)習(xí)和識(shí)別的場(chǎng)景。預(yù)處理場(chǎng)景圖像作為樣本輸入分類器進(jìn)行在線學(xué)習(xí),每個(gè)樣本60 ×45 像素,即2 700 的維數(shù)。Visual C ++ 6.0 環(huán)境和OpenCV 庫(kù)用于本次在線場(chǎng)景識(shí)別實(shí)驗(yàn),硬件環(huán)境為AS-R 移動(dòng)機(jī)器人,如圖3 所示。
圖3 AS-R 移動(dòng)機(jī)器人實(shí)驗(yàn)平臺(tái)
使用105 個(gè)場(chǎng)景樣本進(jìn)行實(shí)驗(yàn)。初始化分類器用20 個(gè)兩類樣本,每類10 個(gè)樣本。在線學(xué)習(xí)階段一個(gè)新樣本讀入分類器進(jìn)行下一步學(xué)習(xí)。該方法在重建誤差等方面與離線PCA 比較結(jié)論如下。在線學(xué)習(xí)和識(shí)別開(kāi)始于第21 個(gè)場(chǎng)景樣本。在線學(xué)習(xí)過(guò)程的樣本重建如圖4 和圖5 所示。
圖4 一個(gè)類別的重建過(guò)程
圖5 重建誤差趨勢(shì)
在圖中可以看到,隨著學(xué)習(xí)次數(shù)的增加,重建誤差減少了,重建結(jié)果逐步改進(jìn)。在離線PCA 中,樣本不能重建,重建誤差不能減少,逐漸重建效果得不到提高。因此,采用文中提出的自適應(yīng)增量PCA 算法進(jìn)行場(chǎng)景的在線識(shí)別,可以使得移動(dòng)機(jī)器人場(chǎng)景識(shí)別在線進(jìn)行,知識(shí)得到不斷更新,遇到新情況不需要重新學(xué)習(xí)。隨著知識(shí)在線積累,識(shí)別系統(tǒng)有更好的可擴(kuò)展性、適應(yīng)性和魯棒性。
提出了一種基于自適應(yīng)增量PCA 算法的移動(dòng)機(jī)器人視覺(jué)場(chǎng)景識(shí)別。該方法可以使用相同的模式訓(xùn)練和學(xué)習(xí)階段,從而實(shí)現(xiàn)新場(chǎng)景學(xué)習(xí)與識(shí)別。子空間更新策略是選擇自動(dòng)對(duì)應(yīng)3 種不同的樣本情況來(lái)衡量新樣本之間的相似度并學(xué)習(xí)樣本,這提高了適應(yīng)能力。最后,進(jìn)行了實(shí)驗(yàn)測(cè)試表明,該方法對(duì)實(shí)時(shí)場(chǎng)景知識(shí)更新、添加和積累有很好的適應(yīng)性和魯棒性。
[1]LIU M-Y,TUZEL O,VEERARAGHAVAN A,et al.Fast Object Localization and Pose Estimation in Heavy Clutter for Robotic Bin Picking[J].Int.J.of Robotics Research,2012,31(8):951-973.
[2]NIEUWENHUISEN M,STUCKLER J,BERNER A,et al.Shapeprimitivebased Object Recognition and Grasping[C].In Proc.7th German Conferenceon Robotics,2012.
[3]PAPAZOV C,HADDADIN S,PARUSEL S,et al.Rigid 3D Geometry Matching for Grasping of Known Objects in Cluttered Scenes[J].Int.J.of Robotics Research,2012,31(4):538-553.
[4]CHOI C,TAGUCHI Y,TUZEL O,et al.Votingbased Pose Estimation for Robotic Assembly Using a 3D Sensor[C].In Proc.IEEE Int.Conf.Robotics and Automation,2012.
[5]LI Y,WU X,CHRYSATHOU Y,et al.Consistently Fitting Primitives by Discovering Global Relations[J].ACM Trans.On Graphics,2011,30:52:1-52:12.
[6]楊全,王民.基于Euclidean 距離的手勢(shì)識(shí)別[J].微計(jì)算機(jī)信息,2007(25):265-266.
[7]KIRSTEIN Stephan,WERSING Heiko,KORNER Edgar.A Biologically Motivated Visual Memory Architecture for Online Learning of Objects[J].Neural Networks,2008,21:65-77.
[8]PRONOBIS Andrzej,JENSFELT Patric.Large-scale Semantic Mapping and Reasoning with Heterogeneous Modalities[C]//2012 IEEE International Conference on Robotics and Automation RiverCentre,Saint Paul,Minnesota,USA,2012:3515-3522.
[9]ROTH Peter M,DONOSER Michael,BISCHOF Horst.Online Learning of Unknown hand Held Objects Via Tracking[C]//Int.Conf.on Computer Vision Systems,New York,2006.
[10]OZAWA Seiichi,PANG Shaoning,KASABOV Nikola.A modified Incremental Principal Component Analysis for On-line Learning of Feature Space and Classifier[C]//PRICAI 2004:Trends in Artificial Intelligence.Springer Berlin Heidelberg,2004:231-240.
[11]JIANG Xianhua,MOTAI Yuichi.Learning by Observation of Robotic Tasks Using on-line PCA-based Eigen Behavior[C]//Proceedings 2005 IEEE International Symposium on Computational Intelligence in Robotics and Automation,2005:391-396.
[12]ARTTAC M,JOGAN M,LEONARDIS A.Incremental PCA for On-line Visual Learning and Recognition[C]//In ICPR 2002,3:781-784.
[13]SKOCAJ D,LEONARDIS A.Weighted and Robust Incremental Method for Subspace Learning[C]//In Proc.IEEE Intern.Conf.on Computer Vision,2003,II,1494-1501.