王春哲,安軍社,姜秀杰,邢笑雪,崔天舒
(1. 中國科學(xué)院國家空間科學(xué)中心 復(fù)雜航天系統(tǒng)電子信息技術(shù)重點實驗室, 北京 100190;2. 中國科學(xué)院大學(xué), 北京 100049; 3. 長春大學(xué) 電子信息工程學(xué)院, 吉林 長春 130022)
在諸如目標檢測、目標跟蹤等計算機視覺任務(wù)中,候選區(qū)域算法有著廣泛的應(yīng)用。所謂候選區(qū)域,即使用目標的顏色、紋理等信息尋找圖像中更可能出現(xiàn)的目標的區(qū)域框[1]。
在目標檢測及跟蹤等任務(wù)中,需要將圖像中的目標進行識別與定位。解決這一任務(wù)的傳統(tǒng)策略是在圖像中密集采樣滑動窗口,并判別每個滑動窗口是否含有目標。由于該范式下生成的滑動窗口質(zhì)量不高,因此需要訓(xùn)練復(fù)雜的分類器,浪費了計算資源[2-3]。在文獻[1-3]中指出,僅在單尺度下,每張圖像需要處理104~105個滑動窗口,而且當前的目標檢測要求檢測算法處理不同尺度及不同寬高比下的目標,極大地增加了算法的復(fù)雜度。
使用候選區(qū)域算法能夠有效提高目標的檢測效率,如在基于快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Regions with Convolutional Neural Network, Fast RCNN)的檢測算法中,使用選擇性搜索(Selective Search,SS)算法[4]生成大約2 000個候選框;在Faster RCNN中,使用候選區(qū)域網(wǎng)絡(luò)(Region Proposals Network, RPN)生成大約800個候選框[5]。當前主流候選區(qū)域算法主要有Object-ness[6],BING[7]及Edge Boxes[8]。
隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,其已經(jīng)在目標檢測、圖像哈希(Image Hashing,IH)、圖像細分類、視覺描述與生成、視覺問答等方面有著廣泛的應(yīng)用[9]。特別地,文獻[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為代理來構(gòu)建哈希函數(shù)以及序列化學(xué)習(xí)策略(Sequential Learning Strategy,SLS)來完成圖像哈希;文獻[11]則通過神經(jīng)網(wǎng)絡(luò)提出一種細粒度的視覺-文本(Visual-Textual,VT)表達學(xué)習(xí)方法來完成圖像的細分類。
目標的邊緣和邊界常被定義為具有目標的語義信息[12]。Edge Boxes通過統(tǒng)計滑動窗口中出現(xiàn)目標的邊緣信息量來確定候選區(qū)域,但由于Edge Boxes仍使用的是傳統(tǒng)的邊緣生成算法,不能夠準確地描述目標的邊界,具有一定的局限性[3]。由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)通過模擬人類的感知系統(tǒng),通過自適應(yīng)學(xué)習(xí)方式能夠更準確地描述目標的邊緣,生成更富有語義信息的邊緣特征,有助于提高目標候選區(qū)域的質(zhì)量。
目標顯著性[13-17],是在圖像的多尺度層面統(tǒng)計圖像中目標與背景的對比度、形狀等信息,通過合理的數(shù)學(xué)模型來模擬人類視覺感知系統(tǒng),快速地將目標從背景中區(qū)別出來。在視頻分類、圖像細分類、顯著性目標分割等領(lǐng)域有著廣泛的應(yīng)用。
文獻[18]從運動學(xué)的角度,將視頻幀分成顯著性區(qū)域和非顯著性區(qū)域,并使用不同的網(wǎng)絡(luò)分別對顯著性、非顯著區(qū)域建模以達到視頻分類的目的。文獻[19]使用了一種全局平均池化(Global Average Pooling,GAP)層的神經(jīng)網(wǎng)絡(luò),稱之為顯著性提取網(wǎng)絡(luò)(Saliency Extraction Network,SEN)來提取每張圖像的顯著性信息,并配合檢測框架完成圖像的細分類。此外,文獻[20]聯(lián)合了目標顯著性的先驗知識,精調(diào)顯著性圖及語義分割數(shù)據(jù)的預(yù)訓(xùn)練策略來完成顯著性分割任務(wù)。
在目標顯著性檢測中,常用超像素算法提取目標信息特征。由于自然圖像具有高度結(jié)構(gòu)化特性[12],若將能夠描述圖像局部信息的超像素引入候選區(qū)域算法,可有效提高候選區(qū)域的召回率。
本文從神經(jīng)網(wǎng)絡(luò)、目標顯著性兩個線索來研究目標的候選區(qū)域算法。使用深度卷積神經(jīng)網(wǎng)絡(luò)提取更能表達目標邊界的邊緣特征;利用超像素的空間位置、完整性及相鄰超像素間的對比度策略來描述每個超像素的顯著性得分;最后統(tǒng)計每個滑動窗口中含有目標的邊緣信息量及包含超像素的顯著性得分,篩選滑動窗口。
所提算法主要包括三部分:①邊緣特征圖的生成、邊緣點聚合及邊緣簇權(quán)重的計算;②超像素的顯著性得分;③篩選滑動窗口。首先,使用豐富卷積特征(Richer Convolutional Features,RCF)網(wǎng)絡(luò)生成富有語義信息的卷積邊緣特征圖,并結(jié)合邊緣點聚類獲取邊緣簇、邊緣簇間的相似性等策略獲取每個邊緣簇權(quán)重;然后,在整張圖像上使用簡單線性迭代的聚類(Simple Linear Iterative Clustering,SLIC)算法將圖像分割成若干圖像塊,并利用相鄰超像素間顏色直方圖的卡方距離(Chi-Square Distance,CSD)、超像素的空間位置及完整性等策略,統(tǒng)計每個滑動窗口的顯著性得分;最后,根據(jù)每個滑動窗口含有的邊緣信息得分、顯著性得分,篩選滑動窗口,確定候選區(qū)域。其算法結(jié)構(gòu)如圖1所示。
圖1 所提算法的實現(xiàn)框圖Fig.1 Block diagram of the proposed algorithm
RCF結(jié)構(gòu)的骨架是VGG-16網(wǎng)絡(luò),由卷積層、concat層和cross-entropy層組成[12],其結(jié)構(gòu)見文獻[3,12]。為更直觀地說明卷積邊緣特征,在邊緣檢測數(shù)據(jù)集BSD500任意選取一張原始圖像(見圖2(a)),及使用幾種邊緣檢測算子生成的邊緣特征圖(見圖2(c)~圖2(e)),圖2(b)為真實的邊緣特征圖。由圖2(c)可知,傳統(tǒng)邊緣檢測算子Canny生成的邊緣特征,目標輪廓較差,目標語義信息較弱;由圖2(e)可知,使用RCF網(wǎng)絡(luò)生成的邊緣特征,目標輪廓更加明顯,目標語義信息豐富。豐富的語義信息可使用相對簡單的分類器進行目標分類,有效降低了算法的復(fù)雜度。
給定任意一個邊緣簇s,任取s中的任意一個邊緣點p,用四維向量[mp,θp,xp,yp]表示。向量中的參數(shù)分別為邊緣點p的邊緣強度、方向角及空間位置坐標。根據(jù)邊緣點p可確定邊緣簇s的空間位置。
(1)
其中,P是s中所有邊緣點組成的集合。
因此,邊緣簇s的方向角θs為:
(2)
(3)
式中,γ是調(diào)整方向角的變化對相似性a(ti,tj)的敏感程度的參數(shù)[8],鑒于Edge Boxes算法的取值,取γ=2。
給定滑動窗口b及邊緣簇tk,使用參數(shù)wb(tk)∈[0,1]來描述tk是否被滑動窗口b包圍。若wb(tk)=0,表明滑動窗口b與邊緣簇tk不相交;若wb(tk)=1,表明tk完全在b中[8]。而對于其他的邊緣簇ti,采用以下策略來確定參數(shù)wb(ti)。
步驟1:建立一個集合Tb作為與滑動窗口b的邊界完全相交的邊緣簇。若邊緣簇ti∈Tb,則wb(ti)=0。
(4)
(5)
(a) 原圖(a) Original image (b) 真實邊緣特征(b) Real Edge Features (c) Canny (d) 結(jié)構(gòu)化的邊緣(d) Structured edges (e) RCF 圖2 幾種邊緣特征圖的對比Fig.2 Comparisons of several edge features
1.2.1 超像素
圖3為使用SLIC算法[21]分割的超像素示意圖。圖3中每一個閉合區(qū)域為一個超像素。
從圖3可知:①任意一個超像素塊與相鄰超像素塊顏色的對比度較大;②靠近圖像中心的超像素更可能含有目標;③在圖像邊緣像素個數(shù)越多的區(qū)域更可能成為背景,如圖3中的br。含有目標區(qū)域的bc無邊緣像素,br含有相對較多的邊緣像素。為方便起見,把包含圖像邊緣像素的數(shù)目作為指標來定義一個超像素的完整性。
對于一張圖像X,其中心坐標為(x0,y0)。首先使用SLIC算法將其過分割成L個超像素{ci}(i=1,…,L)。SLIC算法對不同圖源的圖像具有通用性,其算法流程及初值選取情況如下所示。
圖3 SLIC算法生成超像素Fig.3 Superpixels generated from SLIC algorithm
R通道顏色直方圖的卡方距離
(6)
G通道顏色直方圖的卡方距離
(7)
B通道顏色直方圖的卡方距離
(8)
為考慮計算成本,取nbin=8。則超像素ci與nj直方圖的卡方距離為:
(9)
常使用與相鄰超像素nj間的卡方距離d(ci,nj)、超像素ci的空間位置g(xci,yci)及完整性q(u)來描述超像素ci的顯著性[16]。因此,超像素ci的顯著性[16]為:
(10)
式中,wij是給對應(yīng)的p(d(ci,nj))賦予的權(quán)重值,其值的大小為:
(11)
式中,count(ο)表示含有ο的個數(shù)。
p(φ)=-lg(1-φ)
(12)
式中,函數(shù)p(φ)目的是保證輸入為φ時,輸出為正值。
由此可知,超像素ci與nj直方圖的卡方距離越大,p(d(ci,nj))值也將越大。g(xci,yci)描述超像素ci的中心(xci,yci)與圖像中心(x0,y0)歸一化的空間距離:
(13)
如前所述,一個完整的超像素應(yīng)是一個閉合(連通)區(qū)域,如bc。而對于超像素br,由于位于圖像的邊緣,并不是一個完整的超像素。因此,引入描述超像素的完整性參數(shù)q(u)。
(14)
其中:μ為超像素ci所包含在圖像邊緣像素的數(shù)目;E為圖像X中所有邊緣像素的數(shù)目;λ用來控制E對q(u)的影響強度;η是一個閾值。鑒于文獻[16]的取值,取λ=0.05,η=0.07。
由式(14)知,當μ=0時,q(u)=1,表明超像素ci不在圖像的邊緣;當μ≠0時,q(u)是一個取值范圍在[0,1]之間的正數(shù)。
由此可知,超像素ci與所有相鄰的超像素nj間的顯著性f(ci)的值越大,超像素ci包含目標的可能性越大。
1.2.2 滑動窗口的顯著性得分
給定滑動窗口b,用四維向量[bx,by,bw,bh]表示。為確定滑動窗口b包含超像素ci的程度,首先,計算滑動窗口b的中心位置坐標(bmx,bmy):
(15)
其中:bx,by分別為滑動窗口b左上角的位置坐標;bw,bh分別為滑動窗口b的寬與高。
然后計算圖像X上所有超像素的中心位置坐標(xci,yci)(i=1,…,L)。確定超像素ci的中心位置坐標的算法,見算法1。
目標顯著性得分情況如圖4所示。圖4中,超像素2、5被滑動窗口完全包圍,超像素1、3、4被滑動窗口部分包圍。為確定滑動窗口b包含超像素ci的程度,使用b的中心位置(bmx,bmy)與超像素ci中心位置(xci,yci)之間的歐氏距離dis(b,ci)是否滿足:
dis(b,ci)≤δ
(16)
圖4 目標顯著性得分示意圖Fig.4 Illustration of object saliency scores
(17)
使用b中包含所有超像素{cψ}的顯著性得分作為滑動窗口b的顯著性得分:
(18)
式中,Nb表示b中含有的超像素的個數(shù)。
將上述獲得滑動窗口的邊緣信息得分hb以及顯著性得分Ssal(b),并給予恰當權(quán)重值,作為此滑動窗口b含有目標的得分。
(19)
最后,按照每個候選區(qū)域b的得分從高到低排列,選取指定個數(shù)的候選區(qū)域進行后續(xù)的目標檢測。
在目標檢測領(lǐng)域中廣泛使用PASCAL VOC 2007數(shù)據(jù)集進行測試。該數(shù)據(jù)集由訓(xùn)練集、驗證集與測試集組成。包含20類、共24 640個目標,分布在9 963張圖像中。
使用召回率來衡量候選區(qū)域算法的性能,召回率是描述候選區(qū)域算法生成有效的目標候選框占所有目標候選框的比重[3]。
借鑒文獻[12]中關(guān)于RCF網(wǎng)絡(luò)的訓(xùn)練方法,即直接使用Liu等訓(xùn)練好的RCF網(wǎng)絡(luò)[12],在PASCAL VOC 2007數(shù)據(jù)集中獲取對應(yīng)每張圖像的邊緣特征。關(guān)于RCF網(wǎng)絡(luò)超參數(shù)的設(shè)置見文獻[12]。
由表1可知:當α=0.2、τ=0.8、IoU=0.7及0.9時,PRPA4取得最高的召回率。在高IoU的取值下,獲得召回率值最高的參數(shù)組合,表明候選框與標注候選框重合面積越大,其定位性能越好,因此選擇PRPA4,即參數(shù)α=0.2、τ=0.8。
表1 所提算法在VOC 2007驗證集的召回率
為論證所述算法的性能,選取近幾年來較流行的算法如:SS[4]、Object-ness[6]、BING[7]、Edge Boxes[8]、CPMC[22]、Randomized Prim′s[23]、Geodesic[24]、MCG[25]、Rantalankila[26],在VOC 2007測試集上進行對比實驗。
固定候選區(qū)域數(shù)目,研究各種算法在不同IoU下的召回率,如圖5所示。當取得較少候選框數(shù)100時,MCG及CPMC算法性能略高于所提算法PRPA4,但PRPA4性能卻優(yōu)于近年主流算法SS[4];當候選框數(shù)為1 000及10 000時,交并比為0.5~0.7時,PRPA4的召回率最高,這表明所提算法能夠生成高質(zhì)量的候選框。
接下來,固定交并比,研究10種算法在不同候選框數(shù)目下的召回率,如圖6所示。從圖6(a)及圖6(b)可以看出,當交并比為0.5、0.7時,隨著候選框數(shù)目的不斷增加,PRPA4的召回率不斷升高,最終可獲得最高的召回率。圖6(c)為各算法在交并比取[0.5,1.0]時的平均召回率。由圖6(c)可知,隨著候選框數(shù)目的增加,所提算法PRPA4的平均召回率(Average Recall,AR)逐漸超過Edge Boxes算法,其整體性能表現(xiàn)優(yōu)越。
在VOC 2007測試集中測試了PRPA4對不同尺寸目標性能的影響。使用目標區(qū)域的面積來衡量不同尺寸目標,即:如果目標候選框的面積BoxArea≤32像素×32像素,則為小尺寸目標;如果BoxArea>32像素×32像素,則為較大尺寸目標。
選取1 000個候選框,以及常用的IoU為0.5、0.6及0.7進行實驗,其結(jié)果見表2。
(a) 100個候選框(a) 100 proposals (b) 1 000個候選框(b) 1 000 proposals (c) 10 000個候選框(c) 10 000 proposals圖5 交并比與召回率的關(guān)系Fig.5 Recall versus IoU threshold
(a) 交并比為0.5(a) IoU is 0.5 (b) 交并比為0.7(b) IoU is 0.7 (c) 交并比為[0.5,1](c) IoU is between [0.5,1]圖6 候選框數(shù)目與召回率的關(guān)系Fig.6 Recall versus number of proposals
表2 10種候選區(qū)域算法不同尺寸目標的性能
由表2可知:對于較大尺寸目標,IoU=0.5、0.6、0.7時,PRPRA4均能達到最高的召回率;對于較小尺寸目標,PRPA4在IoU=0.6、0.7時,可獲得最高的召回率,在IoU=0.5時,略低于SS算法的召回率;結(jié)合各算法運算時間可知,在處理較大尺寸目標時,PRPA4能夠生成質(zhì)量最高的目標候選框。
使用Canny及RCF兩種邊緣檢測算子(均使用參數(shù)α=0.2、τ=0.8),選定500個候選框,在VOC 2007驗證集上進行測試,實驗結(jié)果見表3。
表3 不同檢測算子的性能
表3中:符號“/”左側(cè)為未引進顯著性的召回率;符號“/”右側(cè)為引進顯著性的召回率;符號“↑”代表召回率提高;符號“↓”代表召回率下降。
由表3可以看出,Canny算子在IoU=0.9時,加入顯著性得分后,召回率略有下降(下降了0.11%),在其余的情況下,引入顯著性得分均可改善候選區(qū)域的質(zhì)量。
另一方面,在未加入顯著性得分時,相較于Canny算子,RCF生成的目標候選框的召回率明顯提高。因此,基于卷積神經(jīng)網(wǎng)絡(luò)生成的邊緣特征圖和顯著性得分這兩部分都有助于提高所生成目標候選框的質(zhì)量。
為確定所提算法在檢測框架Fast RCNN[27]上的檢測性能。選取了Fast RCNN的3種基本模型分別是:Model-S(即CaffeNet)、Model-M(即VGG_CNN_M_1024)、Model-L(即VGG16)。
選取2組對比實驗,2 000個候選框在Fast RCNN的3種模型的檢測精度見表4。
1)未重訓(xùn)練。選取由SS算法生成的候選框(VOC 2007訓(xùn)練集),分別訓(xùn)練Fast RCNN的3種模型,獲得訓(xùn)練參數(shù),并對其他9種候選區(qū)域算法生成的候選框進行測試(VOC 2007測試集),其各算法的平均檢測度(mean Average Precision,mAP)分別位于表4中符號“/”的左側(cè)。
2)重訓(xùn)練。在10種候選區(qū)域算法各自生成的候選框(VOC 2007訓(xùn)練集)上,分別訓(xùn)練Fast RCNN的3種模型,使用訓(xùn)練參數(shù),分別測試各算法在測試集上生成的候選框(VOC 2007測試集),其檢測精度位于表4中符號“/”的右側(cè)。
表4中:符號“+”代表檢測精度mAP值增加。符號“-”代表mAP值減小。
由表4可知:在檢測模型Model-M中,在“未重訓(xùn)練”的情況下,PRPA4的檢測精度要優(yōu)于Edge Boxes算法,這說明PRPA4確實提高了候選區(qū)域的質(zhì)量。在“重訓(xùn)練”的情況下,PRPA4在3種模型中,檢測精度均要優(yōu)于Edge Boxes算法;同時,在Model-M及Model-L模型中,PRPA4均能獲得最高的mAP值,這也說明PRPA4能夠獲得高質(zhì)量的目標候選區(qū)域。
另外,從表4也可發(fā)現(xiàn):像Object-ness、BING、Edge Boxes、PRPA4算法,在Model-S、Model-M、Model-L的3種模型中,“重訓(xùn)練”均能大幅提高目標的檢測精度(精度升高的變化范圍為1.64%~8.40%)。
表4 2 000個候選框在Fast R-CNN的3種模型的檢測精度
在表4的Model-S模型中,“重訓(xùn)練”的PRPA4的檢測精度mAP值要小于MCG算法。為說明此現(xiàn)象的原因,首先觀看圖5。
由圖5可知,當交并比IoU取值為0.8~1.0時,MCG算法生成的候選框要比PRPA4的召回率高,這表明:相比于PRPA4算法,MCG算法生成的目標候選框和真實的目標標注框有較高的重疊率;當在相對較淺的網(wǎng)絡(luò)Model-S訓(xùn)練時,由于淺層網(wǎng)絡(luò)不能很好地抓住目標的語義信息,PRPA4算法生成定位質(zhì)量相對較差的目標候選框。由于引入了額外的背景信息,其平均檢測精度要小于MCG算法生成的目標候選框的檢測精度。
而隨著檢測網(wǎng)絡(luò)的深入,如Model-M及Model-L模型時,這些網(wǎng)絡(luò)能夠很好地抓住目標的語義信息;且在訓(xùn)練這兩個模型的過程中,相對于MCG算法,PRPA4算法生成的目標候選框有較多的正樣本(Positive Samples,PS),這將促進兩個模型的目標檢測準確度。因此在Model-M、Model-L模型中,使用“重訓(xùn)練”模式,PRPA4生成的目標候選框的平均檢測精度要高于MCG算法。
表5列出了在模型Model-L下選取2 000個候選框,“重訓(xùn)練”模式,各算法在VOC 2007測試集上的檢測精度。同時,為每個算法給出20類目標的mAP值。表5中,每類目標的最高檢測精度值用“加粗”字體標識。
表5 VOC 2007測試集中20類目標的檢測精度
由表5可知:①所提算法PRPA4在諸如“bird”“boat”“car”“horse”“person”“plant”共6類目標上性能最好,這表明在遇到上述場景目標時,可優(yōu)先選用PRPA4算法;②與其他9種算法相比,所提算法的檢測精度為最高值的目標數(shù)為6,遠遠大于SS算法(4種)、Edge Boxes算法(4種)、Randomized Prim′s算法(3種),這反映所提算法的檢測性能有更高的魯棒性;③所提算法的mAP值最高。
文獻[28]使用召回率、候選區(qū)域的定位質(zhì)量(Proposal Localization Quality,PLO)和算法的運算效率(Computational Efficiency,CE)來說明各算法所生成的候選區(qū)域的質(zhì)量。本文繪制了各算法的召回率與運算效率的散點圖以及各算法的定位質(zhì)量與運算效率的散點圖,來描述各算法的性能。
通常使用數(shù)據(jù)集中所有類別的平均最佳重疊率(Mean Average Best Overlap,MABO)衡量候選區(qū)域的定位質(zhì)量。
圖7為選擇1 000個候選框時,各候選區(qū)域算法的召回率、MABO以及運算時間的對比圖。由圖7(a)可知:BING算法所需時間最短,但是召回率低;PRPA4算法所需時間相對較短,但卻有最高的召回率。由圖7(b)可知:PRPA4算法的MABO接近MCG算法,但運算時間遠小于MCG算法。因此,所述算法使用較短的時間,就能獲得高質(zhì)量的候選區(qū)域。
(a) 候選區(qū)域的召回率與運算時間(a) Recall of region proposals versus computation time
(b) MABO與運算時間 (b) MABO versus computation time圖7 VOC 2007數(shù)據(jù)集上各算法的性能對比Tab.7 Performance comparison of region proposal methods on VOC 2007 dataset
圖8列出了各候選區(qū)域算法的目標檢測結(jié)果。從圖8可以看出:各算法檢測出來的“候選框”及精度值均有差別;“候選框”越接近標注框,檢測精度越高;另外,PRPA4算法的檢測“候選框”更接近真實標注框,檢測精度值也更高。
(a) BING (b) CPMC
(c) Edge Boxes (d) Geodesic
(e) MCG (f) Object-ness
(g) Randomized Prim′s (h) Rantalankila
(i) SS (j) PRPA4圖8 各候選區(qū)域算法的目標檢測結(jié)果Fig.8 Object detection results of region proposals algorithms
本文從卷積神經(jīng)網(wǎng)絡(luò)、超像素兩方面研究目標候選區(qū)域算法。實驗結(jié)果表明:由卷積神經(jīng)網(wǎng)絡(luò)生成的邊緣特征具有較高的語義信息,能夠更清楚地表達目標的邊界,從而提高目標候選區(qū)域的質(zhì)量。使用超像素算法將圖像中具有相似屬性的像素聚類成同一區(qū)域,并從超像素的空間位置、完整性角度統(tǒng)計每個滑動窗口的顯著性得分,使得候選區(qū)域的召回率提高。
在目標檢測框架Fast RCNN的檢測模型Model-M及Model-L上,選取2 000個候選框,所提算法PRPA4的平均檢測精度mAP分別為61.33%、69.24%,較Edge Boxes算法的mAP分別提高了0.43%、0.34%;同時,由MABO這一定位指標可知,所述算法能夠獲得定位質(zhì)量較好的候選框。
所述算法的不足之處在對淺層的神經(jīng)網(wǎng)絡(luò)檢測框架Fast RCNN(Model-S),其檢測精度并不是最優(yōu)。針對這種情況,接下來將繼續(xù)從超像素角度研究目標的顯著性對目標檢測精度的影響,以提高所生成的候選框的檢測精度。