周宇航,馮宏偉,馮 筠,劉建妮
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 陜西 西安 710127;2.西北大學(xué) 地質(zhì)學(xué)系/大陸動(dòng)力學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室 陜西省早期生命與環(huán)境重點(diǎn)實(shí)驗(yàn)室 西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069)
隨著三維技術(shù)的快速發(fā)展,三維對(duì)象在建筑設(shè)計(jì)、電影制作、三維游戲、醫(yī)療等領(lǐng)域都有著廣泛的應(yīng)用,涌現(xiàn)了大量的三維模型檢索方法,這些方法可以分為兩類:基于模型的方法和基于視圖的方法?;谀P偷姆椒ㄊ禽^早期的方法,它直接從三維模型中提取特征,如屬于低層特征的幾何矩[1]、表面分布[2]、體積描述子[3]和屬于高層特征的骨架描述子[4],由于這類檢索方法需要大量的時(shí)間和計(jì)算復(fù)雜度來(lái)構(gòu)建三維模型,因此,基于模型的方法在實(shí)際應(yīng)用中受到嚴(yán)重的限制。
如今,基于視圖的方法受到廣泛的關(guān)注,因?yàn)樗梢岳靡唤M二維圖像表示一個(gè)三維模型,將復(fù)雜的三維信息轉(zhuǎn)化為多個(gè)二維圖像進(jìn)行處理,使得許多成熟的二維圖像處理方法能夠應(yīng)用在三維模型處理上。基于視圖的三維模型檢索方法重點(diǎn)在于特征提取,傳統(tǒng)的特征提取方法或是不具有尺度不變性和旋轉(zhuǎn)不變性,或是只能提取算法固定好的簡(jiǎn)單特征,無(wú)法在不同領(lǐng)域廣泛應(yīng)用。使用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的特征提取方法,通過(guò)引入多層網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)D像進(jìn)行逐步分析,提取有效特征。因此,基于深度學(xué)習(xí)的方法成為圖像處理領(lǐng)域的主流特征提取方法。
雖然深度學(xué)習(xí)的方法在數(shù)據(jù)驅(qū)動(dòng)下發(fā)揮了重要作用,但在一些數(shù)據(jù)量較少或者數(shù)據(jù)質(zhì)量不高的情況下效果欠佳。如在古生物領(lǐng)域,化石數(shù)據(jù)年代久遠(yuǎn),在形成和挖掘時(shí)都會(huì)造成不同程度的損壞,而且化石形態(tài)主體與背景部分巖石相融合,難以區(qū)分,這就造成了古生物專家只能人工提取化石特征并復(fù)原古生物模型。由于人工提取的特征具有很強(qiáng)的主觀性,導(dǎo)致許多古生物學(xué)家對(duì)相同物種的三維模型多次建模,不僅使得古生物三維模型的復(fù)用率低,而且多次建模使時(shí)間成本和制造成本非常高。而現(xiàn)有的基于深度學(xué)習(xí)的三維模型檢索技術(shù)[5]無(wú)法有效提取化石圖像特征,也就使得檢索精度不高。因此,如果能有效提取古生物化石的特征,從而檢索已有的古生物三維模型,對(duì)其進(jìn)行復(fù)用,將節(jié)約大量的開支。
通過(guò)對(duì)化石圖像的分析,結(jié)合計(jì)算機(jī)視覺領(lǐng)域的方法,本文提出一種古生物三維模型檢索框架,通過(guò)輸入化石圖像實(shí)現(xiàn)模型檢索。在基于視圖方法的基礎(chǔ)上,結(jié)合顯著性圖像分割網(wǎng)絡(luò)對(duì)化石圖像和三維模型多視圖投影主體分割,再?gòu)闹黧w分割圖像中提取有效的特征進(jìn)行匹配,為了得到更加精確的分割圖像,采用一個(gè)殘差結(jié)構(gòu)的U型網(wǎng)絡(luò)對(duì)主體邊緣進(jìn)行細(xì)化。在自建的古生物數(shù)據(jù)集上,通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
基于視圖的三維模型檢索方法[6-7]不僅有效降低了三維模型的復(fù)雜性,并且可以借助優(yōu)秀的二維圖像處理算法實(shí)現(xiàn)三維模型的檢索,其關(guān)鍵是視圖的選擇和特征提取。
常見的傳統(tǒng)特征有尺度不變性(scale invariant feature transform,SIFT)[8]、傅里葉描述子[9]、Zernike moments[10]、方向梯度直方圖(histogram of oriented gradients,HOG)[11]。Yi等人利用幾何信息形狀描述子和fisher形狀描述子定義了一種新的深度形狀描述子,這種描述符傾向于最大化類間邊距,最小化類內(nèi)方差[12]。Hsieh等在三維模型檢索中采用了多種特征拼接和流形排序[13]。Zhao等人提取不同的視覺特征,并對(duì)多特征加權(quán)后融合實(shí)現(xiàn)三維模型檢索[14]。Shih等人提出了高程描述符(elevation descriptor,ED),該描述子從三維模型中反映了6個(gè)不同視角的空間信息,對(duì)平移、旋轉(zhuǎn)和伸縮具有較好的魯棒性[15]。Wang等人利用三維模型視圖集的尺度不變性,基于特定類數(shù)據(jù)和最大后驗(yàn)(maximum a posterior, MAP)準(zhǔn)則的帶類詞匯實(shí)現(xiàn)檢索[16]。
而隨著深度學(xué)習(xí)的普及,各種深度學(xué)習(xí)網(wǎng)絡(luò)被研究用于3D模型識(shí)別和檢索,如PointNet[17]、3D ShapeNet[18]、VoxNet[19]和RotationNet[20]。同時(shí),基于視圖的三維模型檢索方法也有了較大的提升,Su等人提出了一種新穎的CNN網(wǎng)絡(luò)(multi-view convolutional neural networks,MVCNN),處理3D模型的多視圖,提取信息作為3D模型描述符,MVCNN的重點(diǎn)是在完全連接之前進(jìn)行特征融合[5]。RotationNet[20]將視點(diǎn)標(biāo)簽作為潛在變量,以對(duì)象的多視圖圖像作為輸入,預(yù)測(cè)其姿態(tài)和對(duì)象類別。Liu等人提出一種檢索框架,利用視覺和空間上下文共同實(shí)現(xiàn)代表性視圖的選擇和相似度量的計(jì)算[21]。Guo等人提出了一種由分類丟失和三重丟失共同監(jiān)督的深度嵌入網(wǎng)絡(luò),將高維圖像空間映射到低維特征空間,減少輸入圖像的類內(nèi)變化,增加類間變化,該網(wǎng)絡(luò)可以保證在學(xué)習(xí)的特征空間中相似的圖像比不同的圖像更接近[22]。Uy等人提出了一種新的深度嵌入方法,通過(guò)利用位置相關(guān)的自我中心距離場(chǎng)學(xué)習(xí)不對(duì)稱關(guān)系[23]。Fu等人提出RISA-Net,旨在學(xué)習(xí)旋轉(zhuǎn)不變的3D形狀描述符,這些描述符能夠編碼細(xì)粒度的幾何信息和結(jié)構(gòu)信息,從而在細(xì)粒度3D對(duì)象檢索任務(wù)中獲得準(zhǔn)確的結(jié)果[24]。Uy等人提出了一種聯(lián)合學(xué)習(xí)方式,可以同時(shí)訓(xùn)練神經(jīng)變形模塊和檢索模塊使用的嵌入空間,使得網(wǎng)絡(luò)能夠?qū)W習(xí)變形感知嵌入空間,以便檢索到的模型在適當(dāng)變形后更適合匹配目標(biāo)[25]。Guo等人提出了一種用于自監(jiān)督表示學(xué)習(xí)的跨體系結(jié)構(gòu)對(duì)比學(xué)習(xí)(cross-architecture contrastive learning,CACL)框架,使得模型能夠從不同但有意義的對(duì)比中學(xué)習(xí)強(qiáng)表示[26]。
基于多視圖三維模型的表示,近年來(lái)也有許多方法[27-28]。Gao等人通過(guò)不同的相似性度量方法,系統(tǒng)地評(píng)估了深度學(xué)習(xí)特征在基于視圖的三維模型檢索中的性能,探索了多視圖深度學(xué)習(xí)網(wǎng)絡(luò)體系結(jié)構(gòu)中不同視圖之間潛在關(guān)系[29]。Su等將復(fù)雜的基于多視圖的相似性度量分解為多個(gè)基于單視圖的相似性度量并進(jìn)行融合,提出了MVGM方法,避免了傳統(tǒng)高階圖的定義和計(jì)算難題[30]。Sfikas等人利用一組全景圖,包括空間分布圖、法線偏移圖和其梯度圖像的幅值表示三維模型[31]。Feng等人提出了一種GVCNN架構(gòu),在框架中添加了組模塊,將所有視圖劃分為不同的組,并根據(jù)不同組的權(quán)值將描述符融合為形狀描述符[32]。Hamdi等人引入了多視圖轉(zhuǎn)換網(wǎng)絡(luò) (multi-view transformation network,MVTN),基于可微渲染的最新研究進(jìn)展實(shí)現(xiàn)3D形狀識(shí)別的視點(diǎn)回歸,MVTN可以與任何用于3D形狀分類的多視圖網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練[33]。
為了能夠有效提取具有復(fù)雜噪音的圖像特征,本文對(duì)圖像主體進(jìn)行分割再進(jìn)行特征提取。在圖像分割領(lǐng)域,一些具有優(yōu)異性能的網(wǎng)絡(luò)模型被相繼提出[34-39],這些模型具有較傳統(tǒng)方法[40-43]更為優(yōu)越的特征學(xué)習(xí)與表征能力,并且傳統(tǒng)的方法無(wú)法同時(shí)捕捉局部細(xì)節(jié)和全局上下文,缺乏高層次的語(yǔ)義信息,限制了它們?cè)趶?fù)雜場(chǎng)景中檢測(cè)整體顯著對(duì)象的能力。受到U型網(wǎng)絡(luò)結(jié)構(gòu)[44-46]的啟發(fā),本文以ResNet[46]為主干網(wǎng)絡(luò),結(jié)合殘差跳躍的方式構(gòu)建殘差結(jié)構(gòu)的U型網(wǎng)絡(luò),對(duì)圖像進(jìn)行分割,同時(shí)為了細(xì)化邊緣,采用一個(gè)小的殘差連接的U型結(jié)構(gòu)對(duì)邊界的完整性進(jìn)行補(bǔ)充。
本文提出一種基于多視圖和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的古生物三維模型檢索方法,由于古生物化石數(shù)據(jù)難以收集,無(wú)法采用數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行模型訓(xùn)練,因此,本文采用遷移學(xué)習(xí)[47]的思想進(jìn)行模型遷移,整體算法框架如圖1所示。
圖1 算法框架圖Fig.1 Algorithm frame chart
首先,為模型庫(kù)中的三維模型進(jìn)行多角度的二維投影,使之信息降維;然后,采用顯著性圖像提取網(wǎng)絡(luò)對(duì)得到的二維投影圖像進(jìn)行邊緣細(xì)化,并對(duì)細(xì)化后的投影圖像提取特征,形成投影圖像特征數(shù)據(jù)庫(kù)。
對(duì)于輸入的化石圖像,由于在原始的二維化石圖像中,巖石部分和其他噪音對(duì)化石主體部分的影響十分嚴(yán)重,并且三維模型與其投影圖像都不具有色彩信息,因此,采用顯著性圖像提取的深度網(wǎng)絡(luò)進(jìn)行主體提取。受U-Net[44]和SegNet[35]的啟發(fā),本文的顯著性圖像提取網(wǎng)絡(luò)在此基礎(chǔ)上進(jìn)行修改來(lái)適應(yīng)古生物數(shù)據(jù),采用DUTS圖像分割數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并進(jìn)行模型遷移以適應(yīng)古生物圖像數(shù)據(jù)。
在特征提取部分,采用顯著圖像提取網(wǎng)絡(luò)提取1 024維的特征向量,再使用余弦距離度量方法進(jìn)行圖像匹配,通過(guò)所得到的匹配原始輸入圖像的二維投影圖像,就能夠得到所匹配的三維模型。此外,在訓(xùn)練時(shí),對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行平移、旋轉(zhuǎn)、縮放與對(duì)稱映射等預(yù)處理操作,以此使顯著圖像提取網(wǎng)絡(luò)學(xué)習(xí)到一定的平移不變性、旋轉(zhuǎn)不變性與尺度變換不變性[48]。
三維模型信息較多且復(fù)雜,直接對(duì)三維信息進(jìn)行處理不僅會(huì)增加計(jì)算成本,也不適用于采用二維化石圖像對(duì)三維模型的檢索。因此,需要將三維模型轉(zhuǎn)換成便于處理的二維圖像,不僅使后續(xù)處理的對(duì)象更加簡(jiǎn)單統(tǒng)一,而且能夠充分利用圖像處理領(lǐng)域中性能卓越的卷積神經(jīng)網(wǎng)絡(luò)。
在將三維模型轉(zhuǎn)換為二維圖像時(shí),采用透視投影法將物體形狀投射到多個(gè)投影面上,從而得到各個(gè)視角的投影圖像。圖2展示了多視圖投影的設(shè)置,三維模型被一個(gè)正方體包圍,在正方體的6個(gè)面中心和8個(gè)頂點(diǎn)處設(shè)置攝像機(jī),所有虛擬攝像機(jī)都指向三維模型的中心。對(duì)于每個(gè)三維模型,14個(gè)虛擬攝像機(jī)可以投射14個(gè)不同的視圖。這14張投影圖像包含三維模型的大部分特征,包括形狀、紋理和其他常見特征。利用這些信息,本文的方法可以準(zhǔn)確判別不同的三維模型。
在透視投影計(jì)算中,式(1)說(shuō)明了三維點(diǎn)云投影在二維平面的具體計(jì)算。其中:(Px,Py,Pz)是三維點(diǎn)云坐標(biāo);Aspect是投影平面的縱橫比;θ是相機(jī)視點(diǎn)與三維模型中心連線和世界坐標(biāo)系y軸之間的夾角,用來(lái)調(diào)整攝像機(jī)的位置,隨著θ的改變,相機(jī)位置也在做相同的同心圓變化,以此來(lái)得到多角度透視投影。
(1)
圖2 三維模型多角度投影示意圖Fig.2 Schematic diagram of multi-angle projection of 3D model
古生物化石圖像背景復(fù)雜,噪音極多,存在由于模型邊緣部分點(diǎn)云的離散分布而造成投影圖像邊緣模糊問(wèn)題。因此,本文采用顯著性圖像提取的方法對(duì)化石圖像和投影圖像進(jìn)行處理,提取圖像的邊界和形狀信息,以達(dá)到更好的檢索結(jié)果。考慮到古生物圖像數(shù)據(jù)獲取難度大并且質(zhì)量較差,因此,采用遷移學(xué)習(xí)的思想進(jìn)行數(shù)據(jù)遷移訓(xùn)練,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)結(jié)構(gòu)的前部分采用一個(gè)粗估計(jì)的編碼器-解碼器網(wǎng)絡(luò)得到輸入圖像的粗分割特征圖,因?yàn)檫@類結(jié)構(gòu)能夠同時(shí)獲取高等級(jí)的全局信息和低等級(jí)的細(xì)節(jié)信息,后部分采用一個(gè)殘差修正模塊對(duì)分割特征圖進(jìn)行細(xì)化得到最終結(jié)果。
分割網(wǎng)絡(luò)的編碼部分使用預(yù)訓(xùn)練好的ResNet-50[46]中的bottleneck模塊對(duì)圖像的多尺度特征進(jìn)行提取,然后,采用空洞卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[36]將高級(jí)語(yǔ)義信息傳遞到各個(gè)級(jí)別的解碼部分。從圖3可以看到,解碼部分的特征圖由編碼部分對(duì)應(yīng)層的特征圖、解碼部分前一層經(jīng)過(guò)2倍上采樣之后的特征圖和空洞卷積池化金字塔不同比率的上采樣得到的特征圖相加而得到。其中,空洞卷積池化金字塔結(jié)構(gòu)如圖4所示,空洞卷積在不降低空間維度的前提下增大了相應(yīng)的感受野指數(shù),從而提升分割網(wǎng)絡(luò)的性能,并使用不同空洞率的多個(gè)并行空洞卷積捕捉特征圖的多尺度信息。其中,一維卷積和圖像級(jí)的最大池化有效地克服了空洞卷積空洞率過(guò)大時(shí)退化為一維濾波器的問(wèn)題。最后,將一維卷積、{6,12,18}空洞率的空洞卷積、最大池化所得到的特征圖按通道拼接經(jīng)過(guò)一維卷積得到空洞卷積池化金字塔的輸出。
圖3 顯著性圖像分割網(wǎng)絡(luò)Fig.3 Significance of image segmentation network
圖4 空洞卷積池化金字塔模塊結(jié)構(gòu)Fig.4 Module structure of atrous spatial pyramid pooling (ASPP)
在采用粗估計(jì)的編碼器-解碼器網(wǎng)絡(luò)得到的顯著圖像提取結(jié)果存在明顯的區(qū)域和邊界缺陷的問(wèn)題,而在二維原圖搜索三維模型投影圖的框架中,其主要的特征都在其邊界和形狀上,因此,本文構(gòu)建了一個(gè)殘差修正模塊(residual refinement module, RRM)對(duì)邊界和形狀進(jìn)行細(xì)化,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。該殘差優(yōu)化模塊利用殘差編碼器-解碼器架構(gòu),主要架構(gòu)包括一個(gè)輸入層、編碼器、殘差連接、解碼器和輸出層。和粗估計(jì)模塊不同,編碼器和解碼器有4個(gè)階段。編碼器每個(gè)階段只有一個(gè)卷積層,每一層有64個(gè)濾波器,大小是3×3,后面跟著一個(gè)批量歸一化層(batch normalization,BN)和一個(gè)非線性層(rectified linear unit,ReLU),并使用非重疊的最大池化(max pooling)層。解碼器與編碼器的結(jié)構(gòu)類似,是將編碼器最后的最大池化層替換為雙線性插值進(jìn)行上采樣。這個(gè)殘差修正模塊的輸出就是模型最終的特征圖輸出。
圖5 殘差修正模塊結(jié)構(gòu)Fig.5 Residual refinement module structure
本文提出的框架基于python和PyTorch框架實(shí)現(xiàn)。三維模型多角度投影初始化角度為0°,投影平面長(zhǎng)和寬都為512像素,近截面距離為5像素,在正方體面投影的遠(yuǎn)截面距離為20像素,每次投影變換角度為90°,使得模型在正方體8個(gè)頂點(diǎn)和6個(gè)面都得以投影。顯著圖像提取和特征提取實(shí)驗(yàn)都使用Adam優(yōu)化器進(jìn)行,其權(quán)重衰減為5×10-4,初始學(xué)習(xí)率為5×10-5, 每20個(gè)epoch降低為原來(lái)的1/10。網(wǎng)絡(luò)共訓(xùn)練了40個(gè)epoch。網(wǎng)絡(luò)的主干參數(shù)(ResNet-50[46])用ImageNet數(shù)據(jù)集[37]上預(yù)先訓(xùn)練的相應(yīng)模型初始化,其余的隨機(jī)初始化。消融實(shí)驗(yàn)在DUTS數(shù)據(jù)集上進(jìn)行。
本文使用以下兩部分?jǐn)?shù)據(jù)集:一是常用于圖像分割領(lǐng)域的圖像數(shù)據(jù)集,包括DUTS、DUT-OMRON、ECSSD和SOD,其中,訓(xùn)練采用DUTS數(shù)據(jù)集,其他數(shù)據(jù)集用于測(cè)試。訓(xùn)練集和測(cè)試集都包含了常見的場(chǎng)景,用于顯著性檢測(cè)。另一部分?jǐn)?shù)據(jù)集是用于古生物三維模型檢索,其中包括43個(gè)古生物模型,分別有8類,這些古生物模型都是在古生物學(xué)家的指導(dǎo)下制作的高質(zhì)量標(biāo)準(zhǔn)姿勢(shì)的模型;還使用了在網(wǎng)絡(luò)上收集到的高質(zhì)量現(xiàn)生生物的模型進(jìn)行數(shù)據(jù)集擴(kuò)充,包含76個(gè)三維模型,分別由14類組成,這部分模型共計(jì)119個(gè),22類。
實(shí)驗(yàn)平臺(tái)為NVIDIA Quadro RTX 4000 8GB顯卡,英特爾Core(TM)i9-9900K CPU @ 3.6GHz處理器,操作系統(tǒng)為64位Windows 10。
預(yù)訓(xùn)練模型采用在ImageNet數(shù)據(jù)集上訓(xùn)練好的ResNet-50模型,損失函數(shù)采用交叉熵函數(shù),顯著圖像提取網(wǎng)絡(luò)的初始化學(xué)習(xí)率為0.000 05;通過(guò)遷移學(xué)習(xí)的方式,使用DUTS數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練;在消融實(shí)驗(yàn)上采用常用的MAE、F-measure、Dice、IOU等指標(biāo)對(duì)顯著圖像分割進(jìn)行評(píng)價(jià)。
本節(jié)證明網(wǎng)絡(luò)中加入的空洞卷積池化金字塔模塊結(jié)構(gòu)(ASPP)和殘差修正模塊(RRM)的有效性。對(duì)這兩個(gè)模塊進(jìn)行消融實(shí)驗(yàn),并評(píng)估最大F值(max-F),平均絕對(duì)誤差(MAE),平均F值(mean-F),平均dice值(mean-Dice),平均IOU(mean-IOU)等指標(biāo)。表1為消融實(shí)驗(yàn)結(jié)果。
消融實(shí)驗(yàn)對(duì)不同模塊進(jìn)行測(cè)試,其主干網(wǎng)絡(luò)都是采用ResNet-50,表1中第1行展示了以采用特征金字塔(feature pyramid network,FPN)結(jié)構(gòu)的主干網(wǎng)絡(luò)為基線進(jìn)行顯著圖像提取的結(jié)果,再搭配不同的模塊進(jìn)行實(shí)驗(yàn),可以看到評(píng)價(jià)分割結(jié)果的指標(biāo)都有不同程度的提升;表1中第2行展示了搭配空洞卷積池化金字塔模塊結(jié)構(gòu)(ASPP)融合的不同尺度的全局信息,使網(wǎng)絡(luò)能夠更關(guān)注突出目標(biāo)的完整性,極大地提高了顯著性圖的質(zhì)量;表1中第3行展示了搭配的殘差優(yōu)化模塊(RRM)可以有效關(guān)注局部的邊界信息,從而對(duì)網(wǎng)絡(luò)產(chǎn)生性能增益;通過(guò)在基線中引入空洞卷積池化金字塔模塊和殘差優(yōu)化模塊(表1的最后一行),與上述兩種情況相比,在F-measure和MAE等多個(gè)評(píng)分上,其表現(xiàn)可以得到進(jìn)一步提高,這說(shuō)明空洞卷積池化金字塔模塊和殘差優(yōu)化模塊是兩個(gè)互補(bǔ)的模塊。利用它們使本文的方法具有很強(qiáng)的準(zhǔn)確發(fā)現(xiàn)突出目標(biāo)和細(xì)化細(xì)節(jié)的能力。圖6展示了采用粗估計(jì)的編碼器-解碼器網(wǎng)絡(luò)得到的部分結(jié)果,即未經(jīng)過(guò)殘差修正模塊細(xì)化的實(shí)驗(yàn)結(jié)果,是消融實(shí)驗(yàn)的定性結(jié)果展示。
表1 消融實(shí)驗(yàn)Tab.1 Ablation experiments
圖6 顯著圖提取中間結(jié)果Fig.6 Significant graph extraction intermediate results
將本文方法分別與SRM[49]、PiCANet[50]、poolnet[51]等用于顯著圖像提取的網(wǎng)絡(luò)進(jìn)行對(duì)比,并在4個(gè)廣泛應(yīng)用于顯著圖像提取網(wǎng)絡(luò)的數(shù)據(jù)集上進(jìn)行測(cè)試,在不同的數(shù)據(jù)集上測(cè)試網(wǎng)絡(luò)的泛化性能。從表2可以看到,本文的網(wǎng)絡(luò)在DUTS數(shù)據(jù)集測(cè)試下,表現(xiàn)了優(yōu)異的性能,同時(shí)在不同的數(shù)據(jù)集上,其泛化性能也比其他的分割網(wǎng)絡(luò)要好。
表2 評(píng)價(jià)結(jié)果Tab.2 Evaluation results
除表2之外,還展示了4個(gè)網(wǎng)絡(luò)在DUTS數(shù)據(jù)集上不同閾值下的F-measure曲線(見圖7)和PR(precision-recall)曲線(見圖8)。從圖7可以看到,在不同的閾值下,本文網(wǎng)絡(luò)的F-measure都高于其他的網(wǎng)絡(luò)結(jié)構(gòu),也就說(shuō)明本文網(wǎng)絡(luò)的綜合性能要高于其他網(wǎng)絡(luò)。在圖8中,本文網(wǎng)絡(luò)的PR曲線相比對(duì)比方法的PR曲線更加突出,閾值在極端情況下,也就是當(dāng)達(dá)到0.96以上時(shí),poolnet的性能略高,但是在大多數(shù)情況下,本文的網(wǎng)絡(luò)有著更準(zhǔn)確和完整的分割效果。
圖7 不同閾值下的F值Fig.7 F values under different thresholds
圖8 PR曲線 Fig.8 PR curve
圖9展示了定性評(píng)價(jià)結(jié)果,可以看到,圖9A展示了在DUTS數(shù)據(jù)集上的部分分割結(jié)果,本文的網(wǎng)絡(luò)在邊界和細(xì)節(jié)處提取的結(jié)果更為明顯和準(zhǔn)確;圖9B展示了在古生物圖像上的部分分割結(jié)果,在古生物數(shù)據(jù)集上,本文的顯著圖像提取網(wǎng)絡(luò)也較為適用,邊界的局部性特征和全局的完整性特征都能夠得到非常好的處理。
圖9 部分顯著圖像分割結(jié)果展示Fig.9 Shows the significant image segmentation results
本文的網(wǎng)絡(luò)和實(shí)驗(yàn)的最終目的是為了以化石圖像或者復(fù)原圖等自然圖像對(duì)三維模型進(jìn)行檢索,使用自建的古生物三維模型數(shù)據(jù)集將本文方法和HOG-SIL[52]、CDMR[53]、BF-FGALIF[54]、SBR-VC NUM 100[55]、MVGM[30]進(jìn)行實(shí)驗(yàn)對(duì)比,采用以下幾個(gè)評(píng)分標(biāo)準(zhǔn)。
最近鄰準(zhǔn)確度(nearest neighbor,NN)是準(zhǔn)確查詢到的三維模型占查詢總數(shù)的比例,值越大表示檢索越有效。式(2)中TP表示查詢準(zhǔn)確的三維模型個(gè)數(shù),SUM表示查詢模型總個(gè)數(shù)。
(2)
綜合評(píng)價(jià)指標(biāo)(F-measure,F)是衡量查詢性能的一項(xiàng)指標(biāo),式(3)中β參數(shù)為1,表現(xiàn)出對(duì)查準(zhǔn)率和查全率給予相同的權(quán)重比較。
(3)
為了讓排名越靠前的結(jié)果越能影響最后的檢索結(jié)果,采用折損累計(jì)增益(discounted cumulative gain,DCG)作為評(píng)價(jià)手段之一。其中,G(i)表示當(dāng)前第i項(xiàng)的檢索結(jié)果與查詢目標(biāo)同類時(shí)為1,否則為0,實(shí)驗(yàn)中每個(gè)檢索按照相似度排序取前10個(gè)模型投影來(lái)計(jì)算每個(gè)檢索的折損累計(jì)增益。
(4)
用mAP(mean average precision)來(lái)衡量此算法在所有測(cè)試集上的總性能,式(5)展示了其計(jì)算方法。其中,K表示檢索的同類模型個(gè)數(shù),index(i)表示檢索模型在檢索排序列表中的位置,N表示總檢索數(shù)目。
(5)
采用以上幾個(gè)評(píng)價(jià)標(biāo)準(zhǔn)對(duì)本文方法和其他方法進(jìn)行比較,結(jié)果如表3所示。其中:HOG-SIL[52]使用方向梯度直方圖(histograms of oriented gradient,HOG)特征來(lái)實(shí)現(xiàn)三維模型檢索;CDMR[53]是一種選擇性搜索的方法;BF-FGALIF[54]和SBR-VC NUM 100[55]是兩種基于草圖的粗粒度檢索方法;MVGM[30]方法是一種無(wú)監(jiān)督的三維模型多視圖檢索算法,使用在ImageNet數(shù)據(jù)集[37]上預(yù)訓(xùn)練的AlexNet[56]提取視圖圖像特征。通過(guò)表3可以看出,在自建的古生物數(shù)據(jù)集上,本文方法在各項(xiàng)指標(biāo)上都表現(xiàn)出優(yōu)異的性能,一方面是本文方法融合的深度神經(jīng)網(wǎng)絡(luò)對(duì)化石顯著圖像和投影顯著圖像的特征提取非常有效,能夠提取到有效的形狀特征,另一方面也說(shuō)明,本文方法能夠有效適用于以化石等具有復(fù)雜背景和噪音的圖像檢索與其形狀相似的三維模型的任務(wù)。
表3 本文檢索方法與其他方法評(píng)價(jià)結(jié)果Tab.3 Evaluation results of retrieval methods in this paper and other methods
本文針對(duì)古生物信息學(xué)領(lǐng)域中古生物三維模型復(fù)用率低和古生物三維模型制造成本高兩個(gè)問(wèn)題,提出了一種基于多視圖和顯著性圖像分割的古生物三維模型檢索方法。由于在地質(zhì)變遷過(guò)程中,化石形態(tài)可能會(huì)發(fā)生不同程度的變形,導(dǎo)致用來(lái)檢索的化石圖像質(zhì)量差,本文提出的方法通過(guò)對(duì)三維模型的多個(gè)角度進(jìn)行投影來(lái)彌補(bǔ)這種影響,然后,利用顯著性圖像分割網(wǎng)絡(luò)進(jìn)一步對(duì)圖像處理,以提高三維模型檢索的性能。實(shí)驗(yàn)結(jié)果證明了本文方法對(duì)古生物化石數(shù)據(jù)和古生物三維模型匹配的有效性,并且在自建的數(shù)據(jù)集上具有較好的性能。
未來(lái),將從以下兩個(gè)方面對(duì)本文的工作進(jìn)行擴(kuò)展和改進(jìn):
1)基于多視圖和顯著性分割網(wǎng)絡(luò)相結(jié)合的古生物三維模型檢索方法雖然對(duì)古生物數(shù)據(jù)有良好的適應(yīng)性,但是多角度投影還是增加了算法的時(shí)間和空間復(fù)雜度,下一步可以嘗試在模型投影方面尋找最佳角度進(jìn)行投影,從而減少算法的時(shí)間和空間消耗。
2)目前的各種類古生物數(shù)據(jù)量還不具備以一個(gè)數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行模型檢索,因此,古生物數(shù)據(jù)集還需要進(jìn)一步擴(kuò)充。