劉 磊,鄒媛媛,陳泊璇
1.沈陽(yáng)建筑大學(xué) 機(jī)械工程學(xué)院,沈陽(yáng)110168
2.高檔石材數(shù)控加工裝備與技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,沈陽(yáng)110168
物體的形狀特征由于其不會(huì)隨著光照、顏色和紋理等的變化而發(fā)生改變,被認(rèn)為是一個(gè)穩(wěn)定的特征,因此,形狀特征被廣泛應(yīng)用于物體識(shí)別、目標(biāo)跟蹤等領(lǐng)域。其中,魯棒的二維形狀表示可以提高形狀識(shí)別的精度和準(zhǔn)確率,因此,形狀表示在形狀識(shí)別、形狀檢索等相關(guān)應(yīng)用中起著重要作用。通常,二維形狀的表示可分為三類(lèi):基于輪廓的表示方法、基于區(qū)域的表示方法以及基于骨架的表示方法。近年來(lái),研究學(xué)者針對(duì)二維形狀的高效表示,在傳統(tǒng)特征表示的基礎(chǔ)上,不斷提出了新的形狀特征表示方法,例如通過(guò)融合不同類(lèi)別的特征來(lái)表示二維形狀,以提高形狀描述的準(zhǔn)確性。
高性能高精度的分類(lèi)識(shí)別方法也會(huì)影響二維形狀分類(lèi)識(shí)別的準(zhǔn)確度?,F(xiàn)有研究中常用機(jī)器學(xué)習(xí)分類(lèi)器進(jìn)行二維形狀分類(lèi)識(shí)別,主要有支持向量機(jī)[1](Support Vector Machine,SVM)和隨機(jī)森林[2](Random Forest,RF)等傳統(tǒng)的分類(lèi)器以及集成分類(lèi)器,其中,集成分類(lèi)器相較于單分類(lèi)器,識(shí)別性能得到了一定的提升。基于機(jī)器學(xué)習(xí)的二維形狀識(shí)別分類(lèi)過(guò)程如圖1 所示。隨著深度學(xué)習(xí)的發(fā)展,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)[3-4](Convolutional Neural Network,CNN)進(jìn)行二維形狀分類(lèi)識(shí)別也受到了研究學(xué)者的關(guān)注,成為了一個(gè)新的方向。
圖1 基于機(jī)器學(xué)習(xí)的二維形狀識(shí)別分類(lèi)流程圖
本文首先對(duì)二維形狀特征表示和識(shí)別中的關(guān)鍵問(wèn)題研究現(xiàn)狀進(jìn)行了總結(jié),接著,綜述了近年來(lái)二維形狀表示方法和識(shí)別分類(lèi)方法,對(duì)各方法進(jìn)行了綜合分析,其中,形狀特征表示方法分別包括基于輪廓的、基于區(qū)域的、基于骨架的以及基于多特征融合的二維形狀特征表示方法,識(shí)別分類(lèi)方法主要包括傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器、集成分類(lèi)器、深度學(xué)習(xí)方法等,然后,匯總了二維形狀識(shí)別中常用的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),最后,展望了二維形狀特征表示和分類(lèi)識(shí)別方法的研究發(fā)展趨勢(shì),并對(duì)本文工作做了總結(jié)。
魯棒的二維形狀表示應(yīng)該對(duì)平移、旋轉(zhuǎn)、尺度變換等變化不敏感,并對(duì)邊界噪聲有一定的魯棒性。本章主要綜述近年來(lái)二維形狀特征表示方法的研究進(jìn)展。
基于輪廓的二維形狀表示方法基于形狀邊界,通過(guò)提取輪廓邊界特征來(lái)表示二維形狀。根據(jù)是否將輪廓進(jìn)行分段,該方法又可分為使用總體輪廓的輪廓全局表示方法以及使用輪廓段的輪廓局部表示方法。
輪廓全局表示方法主要有Wang 等人[5]提出的名為高度函數(shù)(Height Function,HF)的形狀描述符。首先將輪廓以固定的采樣點(diǎn)進(jìn)行表示,對(duì)于每個(gè)采樣點(diǎn),高度函數(shù)定義為其他采樣點(diǎn)到此采樣點(diǎn)切線的距離。然后通過(guò)平滑高度函數(shù)得到緊湊和魯棒的形狀描述符。Shu等人[6]提出的名為輪廓點(diǎn)分布直方圖(Contour Point Distribution Histogram,CPDH)的形狀描述符。這是一種通過(guò)極坐標(biāo)下物體輪廓點(diǎn)的分布位置來(lái)表示形狀特征的方法。CPDH是尺度不變和平移不變的,對(duì)于旋轉(zhuǎn)不變問(wèn)題,需要添加額外的條件加以保證。Shi等人[7]提出的基于輪廓重構(gòu)和特征點(diǎn)弦長(zhǎng)函數(shù)的圖像檢索算法,以輪廓為基礎(chǔ),這種方法通過(guò)分析輪廓的能量保持率并對(duì)輪廓進(jìn)行降維重構(gòu),減少了噪聲對(duì)輪廓的影響。通過(guò)篩選有效的輪廓特征點(diǎn),得到輪廓點(diǎn)和相應(yīng)特征點(diǎn)的弦長(zhǎng)關(guān)系作為輪廓特征的表示,這種方法滿(mǎn)足不變性要求。
輪廓局部表示方法主要有Laich 等人[8]提出的用有序的輪廓片段序列來(lái)表示輪廓形狀的方法,然后使用最小二乘模型,將每個(gè)片段與一個(gè)三次多項(xiàng)式曲線相關(guān)聯(lián),再將得到的曲線進(jìn)行歸一化,得到最終的形狀描述符,這種方法是縮放、旋轉(zhuǎn)、平移不變的。Yang 等人[9]提出的一種名為三角形質(zhì)心距離(Triangular Centroid Distances,TCDs)的形狀描述符。首先通過(guò)離散曲線演化[10](Discrete Contour Evolution,DCE)算法將輪廓分割成輪廓片段,然后計(jì)算輪廓質(zhì)心點(diǎn),輪廓片段上的兩個(gè)采樣點(diǎn)和輪廓質(zhì)心點(diǎn)形成一個(gè)三角形,計(jì)算此三角形的質(zhì)心,得到三角形質(zhì)心和輪廓質(zhì)心之間的距離,作為最終的形狀描述符。
近年來(lái),有研究學(xué)者基于單詞包[11-12](Bag of Words,BoW)模型,融合全局輪廓信息和局部輪廓信息,研究了一種形狀特征包[13](Bag of Shape Features,BoSF)形狀分類(lèi)識(shí)別框架。該框架主要可分為以下幾個(gè)部分:第一步提取輸入形狀的輪廓,并應(yīng)用離散輪廓演化算法將輪廓分解為不同長(zhǎng)度的輪廓段;第二步對(duì)每一個(gè)輪廓段進(jìn)行特征描述;第三步進(jìn)行形狀編碼,常用的編碼方式為局部線性約束編碼[14](Locality-constrained Linear Coding,LLC);第四步特征池化,并得到直方圖作為最終的形狀表示;第五步運(yùn)用SVM 進(jìn)行訓(xùn)練和實(shí)驗(yàn)。該框架最終得到的形狀表示既包含局部信息,又包含全局信息。BoSF框架的算法流程圖如圖2所示,其中,特征池化方法可以采用空間金字塔匹配[15](Spatial Pyramid Matching,SPM),也可以采用最大池化及平均池化等。
圖2 BoSF框架算法流程圖
許多基于該框架提出的方法在常用的形狀分析數(shù)據(jù)庫(kù)上均取得了不錯(cuò)的識(shí)別率和分類(lèi)準(zhǔn)確率。Wang等人[16]提出了名為輪廓碎片包(Bag of Contour Fragments,BCF)的形狀表示。這種方法使用形狀上下文[17]描述每個(gè)輪廓片段,并使用LLC算法將其編碼成形狀代碼,最終通過(guò)SPM算法匯集形狀代碼,得到緊湊的形狀表示。Pedrosa 等人[18]提出了名為顯著點(diǎn)袋(Bag of Salience Points,BoSP)的形狀描述子,這種描述子為尋找兩組顯著點(diǎn)的對(duì)應(yīng)關(guān)系提供了快速解決方案,有助于加速形狀匹配任務(wù)。Shen等人基于該框架,在特征池化過(guò)程中采用最大池化和平均池化加權(quán),并通過(guò)學(xué)習(xí)確定權(quán)重,這種改進(jìn)提高了識(shí)別準(zhǔn)確率。Zeng 等人[19]針對(duì)二維形狀識(shí)別中的非剛性變換和局部變形問(wèn)題,提出采用曲率對(duì)每個(gè)輪廓段進(jìn)行表示,得到曲率詞袋Curvature Bag of Words(CBoW)模型。實(shí)驗(yàn)結(jié)果表明該算法識(shí)別率高,魯棒性好,適用于非剛性變換和局部變形的目標(biāo)形狀識(shí)別領(lǐng)域。表1對(duì)上文所提到的一些描述符做了匯總。
表1 幾種基于輪廓的表示方法
基于輪廓的二維形狀表示方法提取的特征包含豐富的邊界信息,其中,輪廓全局表示方法抗噪性較好,但無(wú)法捕捉局部特征,導(dǎo)致區(qū)分不同形狀的能力較差,輪廓局部表示方法能夠更好地捕捉局部形狀,但是對(duì)邊界噪聲較敏感,且不易實(shí)現(xiàn),融合局部輪廓信息和全局輪廓信息的特征能夠更準(zhǔn)確地表示形狀,識(shí)別效果更好。
基于區(qū)域的二維形狀表示方法通過(guò)利用形狀的內(nèi)部區(qū)域來(lái)表示二維形狀,有學(xué)者選擇通過(guò)提取整個(gè)形狀區(qū)域的特征進(jìn)行表示,也有選擇對(duì)區(qū)域進(jìn)行分割,提取分割后的子區(qū)域特征進(jìn)行形狀表示。
柯善武等人[20]提出了一種融合圖像顯著區(qū)域二維形狀特征的圖像檢索算法。這種方法很好地解決了當(dāng)目標(biāo)存在變形以及大小存在巨大差異時(shí)難以提取圖像形狀特征的問(wèn)題。Wahyono 等人[21]提出了一種基于質(zhì)心的樹(shù)結(jié)構(gòu)(CENTREES)。該方法是一種典型的基于區(qū)域的形狀分類(lèi)識(shí)別方法,其將形狀質(zhì)心作為根節(jié)點(diǎn),根據(jù)點(diǎn)和相對(duì)于質(zhì)心的主軸之間的角度將形狀分成幾個(gè)子區(qū)域,對(duì)每個(gè)子區(qū)域,用幾種幾何參數(shù)作為描述符。最終,所有參數(shù)的向量作為形狀描述符,該方法是平移旋轉(zhuǎn)縮放不變的。該算法的流程圖如圖3 所示。Wang等人[22]提出了一種將形狀分解與形狀分類(lèi)相結(jié)合的框架,構(gòu)造一個(gè)被稱(chēng)為“分解圖”的數(shù)據(jù)結(jié)構(gòu),最后通過(guò)在分解圖上搜索最優(yōu)路徑得到分解和分類(lèi)的結(jié)果,實(shí)驗(yàn)證明該方法有很好的分類(lèi)性能。Priyanka等人[23]提出了名為三角二階形狀導(dǎo)數(shù)的形狀描述符,將幾何概念和圖像導(dǎo)數(shù)算子融合來(lái)實(shí)現(xiàn)特征描述和提取,取得了很好的檢索率。表2對(duì)上文提到的方法做了匯總。
表2 幾種基于區(qū)域的表示方法
圖3 基于質(zhì)心的區(qū)域形狀分解流程圖
基于區(qū)域的二維形狀表示利用了形狀內(nèi)部信息,多數(shù)學(xué)者采用對(duì)區(qū)域進(jìn)行分割的方法,通過(guò)分割得到的子區(qū)域?qū)π螤钸M(jìn)行描述,這種方法區(qū)分不同形狀的能力更強(qiáng)。然而,區(qū)域分割方法不易實(shí)現(xiàn),且當(dāng)數(shù)據(jù)集較大且形狀種類(lèi)多時(shí),存在細(xì)節(jié)信息丟失的情況。
基于骨架的二維形狀表示方法通過(guò)提取形狀骨架來(lái)表示二維形狀。在提取骨架時(shí),用到了最大內(nèi)切圓模型,最大內(nèi)切圓指的是圓心在形狀內(nèi)部且至少內(nèi)切形狀輪廓上兩個(gè)點(diǎn)的圓形。形狀骨架點(diǎn)由這些內(nèi)切圓的圓心集合而成。
陳展展等人[24]提出了一種骨架樹(shù)匹配算法。這種算法不考慮骨架樹(shù)的拓?fù)浣Y(jié)構(gòu),只匹配骨架樹(shù)的葉子節(jié)點(diǎn),實(shí)驗(yàn)證明這種方法提高了匹配精度。Bai 等人[25]提出了一種稱(chēng)為路徑相似骨架圖的匹配算法。其主要思想是通過(guò)比較骨架端點(diǎn)之間的測(cè)地路徑(骨架末端節(jié)點(diǎn)之間的最短骨架路徑)來(lái)匹配骨架圖,該方法不考慮拓?fù)鋱D的結(jié)構(gòu),即使形狀存在一些變形,該方法也能得到正確的結(jié)果。Aslan等人[26]提出了一種運(yùn)用不連續(xù)骨架進(jìn)行形狀匹配的算法,這種表示沒(méi)有傳統(tǒng)連續(xù)骨架常見(jiàn)的不穩(wěn)定性問(wèn)題,實(shí)驗(yàn)結(jié)果證明該種表示方法魯棒性較好。Shen等人[27]提出了一種聚類(lèi)結(jié)構(gòu),它基于一個(gè)名為公共結(jié)構(gòu)骨架圖(Common Structure Skeleton Graph,CSSG)的骨架表示,這種骨架表示表達(dá)了集群的各個(gè)骨架的節(jié)點(diǎn)之間可能存在的對(duì)應(yīng)關(guān)系,實(shí)驗(yàn)結(jié)果證明該方法是有效的。Xie等人[28]提出了一種形狀匹配和建模方法,該方法基于代表性的骨架特征,在匹配過(guò)程中使用骨架分支與沿著形狀曲線的連續(xù)片段進(jìn)行自然對(duì)應(yīng),避免了不同片段之間的錯(cuò)誤對(duì)應(yīng)。實(shí)驗(yàn)結(jié)果顯示了其具有很好的性能。
骨架是形狀數(shù)據(jù)的一種簡(jiǎn)單的一維表示,不僅能表示形狀的拓?fù)湫畔⒉⑶野恍┴S富的細(xì)節(jié)信息。然而,當(dāng)形狀受到較大噪聲影響時(shí),骨架可能會(huì)存在冗余的骨架枝,導(dǎo)致結(jié)構(gòu)混亂,影響對(duì)真實(shí)形狀的判斷。
在二維形狀特征表示中,為了提高形狀描述的準(zhǔn)確性,有研究學(xué)者在傳統(tǒng)特征表示的基礎(chǔ)上,通過(guò)融合多種特征來(lái)表示二維形狀,并取得了很好的識(shí)別效果。
盧勇強(qiáng)等人[29]采用輪廓與骨架相結(jié)合的方法來(lái)描述二維形狀特征,該方法引入生物信息序列分析方法到二維形狀分析中,提出了一種輪廓骨架協(xié)同編碼方案。實(shí)驗(yàn)結(jié)果表明,與原有方法相比,該方法提高了識(shí)別效率和準(zhǔn)確性。Yang 等人[30]提出了一種用于形狀匹配和檢索的不變多尺度描述符,該方法對(duì)DCE 算法加以改進(jìn),改善了原算法的過(guò)度演化問(wèn)題,并采用這種改進(jìn)之后的稱(chēng)為自適應(yīng)離散輪廓演化(ADCE)的算法提取輪廓顯著特征點(diǎn),并將歸一化面積、弧長(zhǎng)和中心距離三種描述符進(jìn)行融合,作為最終的二維形狀表示,實(shí)驗(yàn)結(jié)果表明該表示方法具有較好的魯棒性。Lin等人[31]針對(duì)非線性失真導(dǎo)致形狀輪廓分類(lèi)性能差的問(wèn)題,提出了一種基于輪廓的多特征融合算法,實(shí)驗(yàn)結(jié)果顯示該方法優(yōu)于原有的其他方法,解決了幾何變換和非線性失真導(dǎo)致的分類(lèi)性能差的問(wèn)題。Shen 等人[32]提出了一種稱(chēng)為骨架相關(guān)形狀上下文(Skeleton-associated Shape Context,SSC)的形狀描述符,該描述符獲取與骨架信息相關(guān)的輪廓片段,在此基礎(chǔ)上,運(yùn)用BoSF 框架進(jìn)行特征提取,形成了一種對(duì)整體形狀有意義的特征向量。實(shí)驗(yàn)結(jié)果表明,該方法在幾個(gè)標(biāo)準(zhǔn)形狀數(shù)據(jù)集上取得了很好的識(shí)別性能。Lin 等人[33]提出了一種運(yùn)用區(qū)域特征進(jìn)行形狀分類(lèi)的方法,該方法將名為區(qū)域骨架描述符(Region Skeleton Descriptor,RSD)、區(qū)域面積描述符(Region Area Descriptor,RAD)和簡(jiǎn)化形狀簽名(Simplified Shape Signature,SSS)三種描述符進(jìn)行融合,作為最終的形狀表示,在核極限學(xué)習(xí)機(jī)[34-35](Kernel Extreme Learning Machine,K-ELM)上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明該方法的效率和準(zhǔn)確率都很高。表3 對(duì)上文提到的特征融合方法做了簡(jiǎn)單匯總。
表3 幾種特征融合的表示方法
上文提到的基于輪廓、區(qū)域、骨架以及特征融合的二維形狀表示方法各有優(yōu)缺點(diǎn),表4對(duì)其做了一個(gè)匯總。
表4 各類(lèi)表示方法對(duì)比分析
二維形狀分類(lèi)識(shí)別中,通常選用機(jī)器學(xué)習(xí)分類(lèi)器進(jìn)行形狀分類(lèi),在提取出形狀特征后,通過(guò)選取訓(xùn)練樣本,訓(xùn)練分類(lèi)器,最終可以得到有效的模型完成形狀分類(lèi)識(shí)別。本章主要討論了在二維形狀分類(lèi)中常用的傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)器、集成分類(lèi)器以及深度學(xué)習(xí)方法。
傳統(tǒng)的分類(lèi)技術(shù)又可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類(lèi),在二維形狀分類(lèi)中,常用的分類(lèi)器多為有監(jiān)督分類(lèi)器,包括樸素貝葉斯分類(lèi)器、隨機(jī)森林、支持向量機(jī)等等。
樸素貝葉斯分類(lèi)器是一種概率分類(lèi)方法,其原理是利用貝葉斯公式,根據(jù)某種特征的先驗(yàn)概率計(jì)算出它的后驗(yàn)概率,選擇具有最大后驗(yàn)概率的類(lèi)別作為特征所屬的類(lèi)別。樸素貝葉斯分類(lèi)器的優(yōu)點(diǎn)在于數(shù)據(jù)集易于訓(xùn)練,并且完成計(jì)算所花費(fèi)的時(shí)間較少。
Sun 等人[36]利用類(lèi)段集對(duì)輪廓形狀進(jìn)行分類(lèi),實(shí)驗(yàn)采用了貝葉斯分類(lèi)器,得到了很高的分類(lèi)精度。
隨機(jī)森林(RF)是一種有監(jiān)督學(xué)習(xí)的分類(lèi)器,它包含多個(gè)決策樹(shù)。決策樹(shù)是一種樹(shù)形結(jié)構(gòu),它通過(guò)將數(shù)據(jù)劃分成具有相似性的子集來(lái)完成樹(shù)的構(gòu)建,這種劃分過(guò)程會(huì)一直持續(xù)到不能繼續(xù)劃分下去為止。樹(shù)中包含兩種節(jié)點(diǎn),其中,有兩個(gè)及以上分支的節(jié)點(diǎn)稱(chēng)為決策節(jié)點(diǎn),沒(méi)有分支的節(jié)點(diǎn)是葉子節(jié)點(diǎn)。隨機(jī)森林是許多決策樹(shù)的一個(gè)集成,并且輸出的類(lèi)別由個(gè)別樹(shù)輸出類(lèi)別的眾數(shù)決定。隨機(jī)森林的效率很高,即使是大型的數(shù)據(jù)集,依舊可以高效運(yùn)轉(zhuǎn),且在數(shù)據(jù)不一致的情況,它也能提供準(zhǔn)確性。
Lepetit 等人[37]將隨機(jī)森林分類(lèi)器用于三維物體檢測(cè)和姿態(tài)估計(jì)。Bosch等人[38]比較了隨機(jī)森林分類(lèi)器與支持向量機(jī)(SVM)用于圖像分類(lèi)的性能,結(jié)果表明,當(dāng)使用感興趣區(qū)域(Region Of Interest,ROI)時(shí),隨機(jī)森林分類(lèi)器較支持向量機(jī)有約5%的性能提升,且當(dāng)在分類(lèi)器訓(xùn)練期間生成額外的數(shù)據(jù)時(shí),隨機(jī)森林分類(lèi)器的性能也會(huì)得到提升,文章方法的隨機(jī)森林分類(lèi)器與支持向量機(jī)相比,最終得到一個(gè)約10%的性能提升。Huang等人[39]提出了一種管狀結(jié)構(gòu)分類(lèi)的方法,該方法提取了三個(gè)形狀描述符:三角形面積、距離閾值以及最小慣性軸,將其組合作為最終的形狀表示,并使用隨機(jī)森林分類(lèi)器進(jìn)行訓(xùn)練和實(shí)驗(yàn),取得了很好的分類(lèi)結(jié)果。Keskin 等人[40]運(yùn)用隨機(jī)森林分類(lèi)器進(jìn)行手勢(shì)形狀分類(lèi),同樣得到了很好的分類(lèi)效果。
支持向量機(jī)(SVM)是一種有監(jiān)督學(xué)習(xí)的分類(lèi)器,是當(dāng)前最常用的分類(lèi)算法。SVM的決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面。SVM的目標(biāo)是以最小的錯(cuò)誤率對(duì)物體進(jìn)行分類(lèi)。SVM的優(yōu)勢(shì)在于給出的結(jié)果比其他方法更準(zhǔn)確,但是它的訓(xùn)練過(guò)程需要一定的時(shí)間且需要額外內(nèi)存來(lái)存儲(chǔ)訓(xùn)練圖像[41]。
文獻(xiàn)[16]使用線性支持向量機(jī)分類(lèi)器進(jìn)行形狀分類(lèi),同時(shí)提出使用徑向基函數(shù)核和交集核等能夠提高性能,但較為耗時(shí)。文獻(xiàn)[13]同樣使用了線性支持向量機(jī)進(jìn)行形狀分類(lèi)。文獻(xiàn)[32]使用線性支持向量機(jī)進(jìn)行形狀分類(lèi),并指出該方法使用非線性核分類(lèi)器反而會(huì)導(dǎo)致性能下降。Daliri 等人[42]提出了一種形狀識(shí)別的核方法,該方法使用支持向量機(jī)進(jìn)行形狀分類(lèi),在常用的形狀分析數(shù)據(jù)集上均取得了較好的結(jié)果。
對(duì)于有監(jiān)督機(jī)器學(xué)習(xí)任務(wù),集成學(xué)習(xí)是一種有效的方法,其思路是通過(guò)多機(jī)器學(xué)習(xí)算法的集成來(lái)提升預(yù)測(cè)的結(jié)果。理論上,集成學(xué)習(xí)在訓(xùn)練集上比單一模型的擬合能力更強(qiáng),且某些集成學(xué)習(xí)方法也能更好地處理過(guò)擬合的問(wèn)題。對(duì)于分類(lèi)性能好的分類(lèi)器,集成學(xué)習(xí)往往能夠給予更高的權(quán)重。
常用的集成方法包括bagging[43]、boosting[44]等,除此之外,投票法、簡(jiǎn)單加權(quán)以及隨機(jī)森林方法也常用于分類(lèi)器的集成。
采用相同的分類(lèi)算法,在不同的訓(xùn)練集子集上進(jìn)行訓(xùn)練,且采樣時(shí)將樣本放回,這種方法稱(chēng)為bagging,也稱(chēng)為自舉匯聚法。使用該方法進(jìn)行集成得到的分類(lèi)器與單一分類(lèi)器相比,降低了在訓(xùn)練集上訓(xùn)練的偏差和方差。該方法流行的原因不僅在于其可以并行進(jìn)行,還因?yàn)榇朔椒ㄒ子谕卣埂?/p>
提升法是指將多個(gè)弱學(xué)習(xí)器結(jié)合成為一個(gè)強(qiáng)學(xué)習(xí)器的集成方法,代表方法包括AdaBoost 和梯度提升兩種。兩種方法類(lèi)似,差別僅在于AdaBoost 方法不再是調(diào)整單個(gè)預(yù)測(cè)器的參數(shù)使得成本函數(shù)最小化,而是不斷在集成中加入預(yù)測(cè)器,使模型越來(lái)越好。該方法的缺點(diǎn)是無(wú)法并行,所以在拓展方面的表現(xiàn)不如bagging方法。
投票法是指將多個(gè)分類(lèi)器的結(jié)果進(jìn)行聚合,然后將得票最多的結(jié)果作為最終的結(jié)果的一種方法,這種大多數(shù)投票分類(lèi)器也被稱(chēng)為硬投票分類(lèi)器,其工作原理如圖4所示。
圖4 多數(shù)投票法集成分類(lèi)器
簡(jiǎn)單加權(quán)是指使用不同的分類(lèi)器在同一訓(xùn)練集上進(jìn)行訓(xùn)練,得到的結(jié)果通過(guò)權(quán)重進(jìn)行組合的一種集成方法。通常,組合權(quán)重α可通過(guò)學(xué)習(xí)過(guò)程獲得。加權(quán)組合得到的集成分類(lèi)器性能往往高于單一的分類(lèi)器。
Mohandes 等人[45]提出了一個(gè)基于準(zhǔn)則的多分類(lèi)器組合技術(shù)框架及其應(yīng)用領(lǐng)域,將分類(lèi)器的組合類(lèi)型大致分為四類(lèi):組合級(jí)別、閾值類(lèi)型、組合的適應(yīng)性和基于集成的方法。Wang等人[46]提出了一種融合特征以及分類(lèi)器的方法來(lái)進(jìn)行形狀識(shí)別,該方法通過(guò)訓(xùn)練7種不同的單分類(lèi)器,并通過(guò)平均規(guī)則進(jìn)行融合得到分類(lèi)結(jié)果,在標(biāo)準(zhǔn)形狀分析數(shù)據(jù)庫(kù)上顯示出很好的性能。Rida等人[47]提出的掌紋識(shí)別,Zhao 等人[48]提出的手寫(xiě)字體識(shí)別,均采用了集成學(xué)習(xí)的技術(shù),顯示出分類(lèi)器集成相較于單分類(lèi)器,性能得到了提升。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),它是多層感知器(MLP)的一個(gè)變種形式。其基本結(jié)構(gòu)由三層組成:輸入層、隱藏層、輸出層。其隱藏層又包含卷積層、池化層、全連接層等結(jié)構(gòu)。CNN 對(duì)于大數(shù)據(jù)集的處理效果很好,當(dāng)數(shù)據(jù)集樣本偏小時(shí),性能受到很大影響。采用CNN 進(jìn)行形狀分類(lèi)識(shí)別流程如圖5所示。
圖5 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行形狀識(shí)別分類(lèi)流程圖
Atabay 等人[49]提出了一種適用于二值圖像的CNN結(jié)構(gòu),該方法在小尺度的二值圖像上性能較高且時(shí)間復(fù)雜度較低。在另一篇文章中,Atabay 等人[50]將CNN 用于葉片圖像分類(lèi),引入指數(shù)線性單元(ELU)代替校正線性單元(ReLU)得到新的CNN 結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明在兩個(gè)葉片數(shù)據(jù)集上,新的CNN網(wǎng)絡(luò)結(jié)構(gòu)性能優(yōu)異。Tixier等人[51]利用傳統(tǒng)的2D CNN網(wǎng)絡(luò)進(jìn)行圖形分類(lèi),該方法將圖形進(jìn)行處理之后輸入進(jìn)網(wǎng)絡(luò)來(lái)進(jìn)行后續(xù)操作,該方法在時(shí)間復(fù)雜度方面優(yōu)于圖核方法,并且適用于更大圖形的更大規(guī)格的數(shù)據(jù)集。表5 對(duì)上文提到的幾種分類(lèi)器做了簡(jiǎn)單匯總。
表5 幾種不同分類(lèi)器的識(shí)別率比較
為了便于開(kāi)展二維形狀分析研究,目前,研究學(xué)者建立了多個(gè)二維形狀標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),本文將常用的二維形狀標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行了匯總。
MPEG-7數(shù)據(jù)庫(kù)[52]是形狀分析研究領(lǐng)域中最常用的數(shù)據(jù)庫(kù),其包含70個(gè)類(lèi)別,在每個(gè)類(lèi)別中,有20個(gè)形狀,因此數(shù)據(jù)集中的形狀總數(shù)為1 400個(gè)。
Animal數(shù)據(jù)庫(kù)[53]包含20個(gè)類(lèi)別,每個(gè)類(lèi)別中有100個(gè)形狀,總共由2 000 個(gè)形狀組成。由于動(dòng)物是非剛性物體,該數(shù)據(jù)集中的形狀具有很高的類(lèi)內(nèi)可變性,因此,這個(gè)數(shù)據(jù)庫(kù)的分類(lèi)識(shí)別任務(wù)相當(dāng)具有挑戰(zhàn)性。
Swedish leaf 數(shù)據(jù)庫(kù)[54]由15 個(gè)類(lèi)別組成,每個(gè)類(lèi)別有75個(gè)樣本,共有1 125個(gè)形狀。由于有較大的類(lèi)內(nèi)差異,這個(gè)數(shù)據(jù)庫(kù)的識(shí)別也相當(dāng)具有挑戰(zhàn)性。
ETH-80數(shù)據(jù)庫(kù)[55]包含八類(lèi)對(duì)象。每個(gè)類(lèi)別中有10個(gè)物體是從不同的視角拍攝的,每個(gè)物體有41 幅彩色圖像,如圖6所示,共有80個(gè)樣本。
圖6 ETH-80數(shù)據(jù)庫(kù)
Tools數(shù)據(jù)庫(kù)[56]包含8類(lèi)對(duì)象,其中包括6類(lèi)不同的剪刀和2 類(lèi)訂書(shū)機(jī),一共40 個(gè)形狀,如圖7 所示。在每一類(lèi)中,這五種形狀相互之間有較大的關(guān)節(jié)變形差異。
圖7 工具數(shù)據(jù)庫(kù)
針對(duì)二維形狀識(shí)別分類(lèi)問(wèn)題,分類(lèi)識(shí)別準(zhǔn)確率[16]往往是執(zhí)行分類(lèi)任務(wù)的算法的評(píng)估標(biāo)準(zhǔn)?;跈C(jī)器學(xué)習(xí)的方法中,半訓(xùn)練和留一法是兩種常用的評(píng)估方案。半訓(xùn)練是指將一半樣本用于算法的訓(xùn)練,另一半樣本用于實(shí)驗(yàn)測(cè)試。留一法是指將90%的樣本用于算法訓(xùn)練,剩下的10%樣本用于實(shí)驗(yàn)測(cè)試。
表6 匯總了上文提到的表示方法和識(shí)別分類(lèi)方法在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上的識(shí)別率。并將現(xiàn)有在上述五個(gè)數(shù)據(jù)庫(kù)上表現(xiàn)較突出的方法的識(shí)別率匯總在表7之中。
表6 各方法識(shí)別率匯總
表7 不同數(shù)據(jù)庫(kù)上表現(xiàn)較突出的方法的識(shí)別率
隨著二維形狀特征描述及分類(lèi)識(shí)別技術(shù)研究的不斷深入,學(xué)者們提出了眾多的形狀描述符以及識(shí)別分類(lèi)方法。由于實(shí)際中的形狀往往存在噪聲、變形、遮擋等情況,使得這些方法的準(zhǔn)確實(shí)現(xiàn)受到挑戰(zhàn)。因此,對(duì)該領(lǐng)域的研究還有很多值得深入的地方。
在表示方法方面,單一的人工特征描述符方法接近穩(wěn)定,基于此,新提出的特征描述符往往嘗試將傳統(tǒng)特征進(jìn)行融合,將融合后的特征作為最終的形狀描述符,以提高形狀表示的準(zhǔn)確性。在分類(lèi)識(shí)別方法方面,傳統(tǒng)的動(dòng)態(tài)規(guī)劃方法以及相似性度量方法存在算法復(fù)雜度高以及精確度不夠的問(wèn)題,使得機(jī)器學(xué)習(xí)方法逐漸被學(xué)者們應(yīng)用到二維形狀識(shí)別分類(lèi)的研究當(dāng)中。不滿(mǎn)足于單一分類(lèi)器得到的結(jié)果,已有學(xué)者運(yùn)用集成學(xué)習(xí)方法將多種分類(lèi)器進(jìn)行集成,以提高分類(lèi)識(shí)別的精確度。同時(shí),深度學(xué)習(xí)方法也在該領(lǐng)域得到了應(yīng)用,并展示出良好的性能。
本文綜述了用于二維形狀特征描述及分類(lèi)識(shí)別領(lǐng)域的新的技術(shù)。主要從形狀特征提取、形狀分類(lèi)識(shí)別、形狀數(shù)據(jù)庫(kù)三個(gè)方面展開(kāi)討論。形狀特征提取方法主要基于輪廓、區(qū)域、骨架三種特征,特征融合方法的提出,一定程度上彌補(bǔ)了單一特征進(jìn)行形狀分類(lèi)識(shí)別所表現(xiàn)出的不足。分類(lèi)識(shí)別方法主要基于機(jī)器學(xué)習(xí),現(xiàn)有方法大多使用單一分類(lèi)器完成分類(lèi)識(shí)別任務(wù),集成學(xué)習(xí)方法也在形狀分類(lèi)識(shí)別領(lǐng)域得到應(yīng)用,并取得了令人滿(mǎn)意的結(jié)果。文中列舉的形狀分析數(shù)據(jù)庫(kù)是進(jìn)行二維形狀分類(lèi)識(shí)別實(shí)驗(yàn)常用的數(shù)據(jù)庫(kù),不同方法在不同數(shù)據(jù)集上的表現(xiàn)略有差別。