梁 迪, 盧列兆
(沈陽大學(xué) 機(jī)械工程學(xué)院, 沈陽 110044)
三維模型不僅在計(jì)算機(jī)輔助設(shè)計(jì)中廣泛出現(xiàn),而且被大量運(yùn)用到駕駛自動(dòng)化、醫(yī)學(xué)成像和三維打印等相關(guān)的前沿行業(yè)。近年來,計(jì)算機(jī)芯片的性能飛速提升,生成、處理并存儲(chǔ)三維模型變得越來越容易,但在眾多的三維模型中重復(fù)匹配出所需的三維模型很難靠人力實(shí)現(xiàn)。研究人員對(duì)三維模型的檢索技術(shù)進(jìn)行研究,并取得了顯著的成就,如何讓檢索和管理變得越來越高效和便捷成為目前研究的重點(diǎn)[1]。
早期的主流檢索對(duì)象大多是基于文本的,但是三維模型存在多維度的特點(diǎn),數(shù)據(jù)量相比二維圖像更為豐富,使用文本作為檢索對(duì)象概括性差、主觀性強(qiáng),檢索效果往往很不理想,而直接使用現(xiàn)有圖像和模型檢索三維模型克服了這些缺點(diǎn),因此基于示例的三維模型檢索方法逐漸成為主流[2]。近年來隨著觸摸板設(shè)備快速發(fā)展,手繪草圖成為了人類與三維模型數(shù)據(jù)交互更直觀、更方便的手段,基于草圖的三維模型檢索(sketch based model retrieval, SBMR)越來越受到研究人員的關(guān)注,并逐漸成為檢索研究社區(qū)的熱點(diǎn)話題[3]。
三維模型草圖檢索具有特征域不匹配的特點(diǎn),草圖是在二維空間中表示的,而三維形狀是在三維空間中表示的,它們的異構(gòu)數(shù)據(jù)結(jié)構(gòu)使得從查詢草圖中直接檢索三維形狀變得非常困難。圖1給出了一些草圖和相應(yīng)的三維形狀的示例,并顯示了它們之間的巨大域間隙。因此,許多學(xué)者都致力于解決草圖和三維模型之間的跨域問題。他們主要以如何縮小草圖和三維模型之間域間隙為主研究了三維模型草圖檢索,但較少考慮草圖噪聲對(duì)三維模型草圖檢索的影響。噪聲源于素描或人的隨機(jī)性,不同的主體可以以驚人的不同程度的抽象和細(xì)節(jié)繪制同一個(gè)物體,有些圖畫十分抽象和缺乏細(xì)節(jié),三維形狀的匹配和檢索性能會(huì)受到此類噪聲數(shù)據(jù)的極大危害。表1展示了不同程度的噪聲對(duì)檢索性能的影響,對(duì)于最差的性能范圍(mAP [0.0, 0.2]),草圖嘈雜到幾乎無法識(shí)別,說明檢索性能與草圖的質(zhì)量明顯相關(guān)。因此三維模型草圖檢索在縮小不同模態(tài)之間域間隙的同時(shí),有必要考慮以處理草圖噪聲為重點(diǎn)構(gòu)建網(wǎng)絡(luò)模型,優(yōu)化三維模型草圖檢索性能。
表1 草圖噪聲對(duì)3D形狀檢索性能影響的實(shí)例(通過mAP測量)Table 1 Some examples of the impact of sketch noise on 3d shape retrieval performance (measured by mAP)
圖1 草圖和相應(yīng)3D形狀的一些示例Fig.1 Some examples of sketches and corresponding 3D shapes
由于近年來深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像特征提取方面的巨大成功,多數(shù)研究都把深度學(xué)習(xí)和基于草圖的三維模型檢索相結(jié)合,比之前的方法檢索精度更高[4]。選擇與本文相關(guān)的以往文獻(xiàn),總結(jié)對(duì)應(yīng)的研究手段和方法,將目前的研究大致分成前后2個(gè)部分。
第一部分研究主要將草圖和三維形狀映射到一個(gè)聯(lián)合特征嵌入空間中,利用共享損失函數(shù)度量相似度,從而解決領(lǐng)域差異問題。Wang等[5]使用2個(gè)投影視圖來表征三維形狀,并應(yīng)用暹羅網(wǎng)絡(luò)來學(xué)習(xí)草圖和三維形狀的聯(lián)合嵌入空間。Zhu等[6]開發(fā)了金字塔跨域神經(jīng)網(wǎng)絡(luò),以減少草圖和三維形狀之間的跨域差異。為了解決同樣的問題,Chen等[7]提出了一個(gè)交叉模態(tài)自適應(yīng)模型,使用了一種重要性感知度量學(xué)習(xí)方法。與這些基于投影的方法不同,Dai等[8]提出了一種深度關(guān)聯(lián)度量學(xué)習(xí)方法,通過直接提取三維形狀的特征來緩解差異。Qi等[9]利用點(diǎn)網(wǎng)絡(luò)提取三維形狀特征,建立了一種深度跨域語義嵌入模型。Chen等[10]提出了一種基于草圖的三維形狀檢索的深度草圖形狀散列框架,該框架采用了三維形狀的隨機(jī)抽樣策略和學(xué)習(xí)鑒別性二進(jìn)制碼的二進(jìn)制編碼策略。趙旭飛等[11]提出了結(jié)合自注意力和哈希正則化約束的特征提取算法,以此提高草圖和三維模型視圖嵌入特征的聚類性,并建立草圖和視圖之間統(tǒng)一的特征描述空間。白靜等[12]考慮了數(shù)據(jù)的動(dòng)態(tài)屬性提出一種基于時(shí)空信息聯(lián)合嵌入的端到端三維模型草圖檢索算法,有效解決了有益信息部分丟失的問題。然而,這些檢索方法大多有2個(gè)操作網(wǎng)絡(luò),這導(dǎo)致了較高的計(jì)算代價(jià)。此外,由于它們直接將特征映射到聯(lián)合嵌入空間,很難有效地降低領(lǐng)域差異。
第二類方法為了解決上述所遇問題通過師生策略來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。自Hinton等[13]以來,研究表明,一個(gè)復(fù)雜而強(qiáng)大的教師模型可以指導(dǎo)一個(gè)小型學(xué)生網(wǎng)絡(luò)的訓(xùn)練,從而縮短推理時(shí)間,提高其泛化能力,這種師生策略在計(jì)量學(xué)習(xí)領(lǐng)域受到了關(guān)注。Chen等[14]提出了深度測量學(xué)習(xí)中知識(shí)轉(zhuǎn)移的交叉樣本相似性,并修正了經(jīng)典的列表級(jí)損失,將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)連接起來。Yu等[15]提出了一種網(wǎng)絡(luò)提取方法,利用小網(wǎng)絡(luò)計(jì)算圖像嵌入,并開發(fā)了2種損失函數(shù)來溝通教師和學(xué)生網(wǎng)絡(luò)。對(duì)于基于草圖的三維形狀檢索,Dai等[16]提出了一種基于師生策略的跨模態(tài)指導(dǎo)網(wǎng)絡(luò),并利用三維形狀的預(yù)習(xí)特征指導(dǎo)二維草圖的特征學(xué)習(xí)。然而,它們的方法不能有效地最小化類之間的相似性,也不能最大化類內(nèi)的相似性,同時(shí)忽略了草圖中的噪聲信息,過度擬合會(huì)對(duì)檢索結(jié)果產(chǎn)生不利影響。
因此,本文提出了不確定語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)。對(duì)于交叉模態(tài)的差異,采用師生策略獲取有效的網(wǎng)絡(luò)來學(xué)習(xí)草圖和三維模型之間的語義相似性,以此來減少計(jì)算負(fù)擔(dān),并使語義特征對(duì)齊更加容易。對(duì)于有噪聲草圖損害特征學(xué)習(xí)的問題,本文基于現(xiàn)有的用分布表示對(duì)數(shù)據(jù)不確定性建模的想法,采用了一種通過簡單修改師生策略網(wǎng)絡(luò)和構(gòu)建新的損失函數(shù)來估計(jì)草圖不確定性的方法,并且分析了如何通過不確定性學(xué)習(xí)和自適應(yīng)加權(quán)機(jī)制避免過度擬合噪聲的示例來改進(jìn)特征學(xué)習(xí),經(jīng)此減少噪聲數(shù)據(jù)的負(fù)面影響。
基于語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)的三維模型草圖檢索總體框架如圖2所示,它由教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)組成。由于草圖是信息有限的抽象簡單線條,而三維形狀是具有更多細(xì)節(jié)的真實(shí)幾何對(duì)象,本文選擇三維形狀作為教師網(wǎng)絡(luò)的輸入,從中提取語義特征,指導(dǎo)以草圖為輸入的學(xué)生網(wǎng)絡(luò)的訓(xùn)練。
圖2 語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)總體框架Fig.2 Overall framework of semantic similarity metric learning network
在教師網(wǎng)絡(luò)中,本文應(yīng)用MVCNN架構(gòu),包括CNN1和CNN2,它們通過一個(gè)視圖池層連接,來表示三維形狀的多視圖,并提取語義特征。首先,從12個(gè)不同的視角,通過每30°放置12個(gè)虛擬攝像機(jī),來呈現(xiàn)一個(gè)三維形狀。由于渲染圖像和草圖之間仍然存在很大的差異,采用經(jīng)典的Canny算子來提取渲染圖像中與草圖線相似的邊緣。然后,將邊緣圖像分別通過CNN1獲得基于視點(diǎn)的特征。注意CNN1的所有分支都共享相同的參數(shù)。為了將所有視圖中的信息合成為一個(gè)單獨(dú)的視圖,在視圖池層中使用跨視圖的元素級(jí)最大值操作。最后,這些匯集的特征映射通過CNN2獲得形狀描述符。在完成對(duì)教師網(wǎng)絡(luò)的訓(xùn)練后,將所有三維形狀的數(shù)據(jù)通過教師網(wǎng)絡(luò)進(jìn)行傳輸,得到預(yù)先學(xué)習(xí)的三維形狀語義特征。
在學(xué)生網(wǎng)絡(luò)中,本文采用了一個(gè)轉(zhuǎn)移網(wǎng)絡(luò)CNN3來學(xué)習(xí)草圖的語義特征。輸入的草圖直接通過CNN3來獲取這些特征。以三維形狀預(yù)先學(xué)習(xí)的語義特征為指導(dǎo),根據(jù)優(yōu)化目標(biāo)函數(shù)即相似性損失進(jìn)行學(xué)生網(wǎng)絡(luò)訓(xùn)練。
為了找到期望的三維形狀,我們總是希望提取的草圖特征更接近于與其同類的三維形狀,而與其不同類的三維形狀差異較大,即最大化類內(nèi)相似性和最小化類間相似性。然而,一個(gè)查詢草圖通常有數(shù)十個(gè)或數(shù)百個(gè)具有相同類標(biāo)簽的相關(guān)三維形狀,而且很難區(qū)分哪個(gè)三維形狀與查詢草圖更相似或更不相似。本文的目標(biāo)是找到三維形狀屬于查詢草圖的類標(biāo)簽,而不是找到最相似的三維形狀。因此,將重點(diǎn)放在提取類特征上,而不是提取三維形狀的個(gè)體特征。類別特征是同一類別中三維形狀預(yù)先學(xué)習(xí)特征的平均值。本文使用余弦距離來測量草圖和三維形狀之間的距離,三維形狀定義為
(1)
式中:fs是草圖特征;fc是三維形狀的類特征。
(2)
式中:[]+為斜坡函數(shù);m為正對(duì)和負(fù)對(duì)之間更好相似分離的裕度;c代表預(yù)訓(xùn)練特征。
(3)
式中,k是一個(gè)比例因子。通過對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行Lgsmoothg訓(xùn)練,草圖特征fs逐漸接近同類三維形狀的預(yù)學(xué)習(xí)類特征fc,同時(shí)遠(yuǎn)離不同類別的三維形狀。
數(shù)據(jù)不確定性模擬數(shù)據(jù)中固有的噪聲。具有數(shù)據(jù)不確定性的學(xué)習(xí)已廣泛用于計(jì)算機(jī)視覺任務(wù),包括語義分割[17]、人ReID[18]和人臉識(shí)別[19-20]。盡管以前的方法在實(shí)現(xiàn)上存在細(xì)微差別,但基本的關(guān)鍵思想是相似的。每個(gè)數(shù)據(jù)樣本不再表示為單個(gè)特征向量,或點(diǎn)表示,而是表示為特征空間中的高維高斯分布,或分布表示。高斯的平均值代表最可能的特征,就像傳統(tǒng)的特征學(xué)習(xí)一樣。不同之處在于對(duì)方差的顯式建模以測量數(shù)據(jù)樣本中的不確定性。這2種不同的表示在圖3(見封三)中使用真實(shí)草圖數(shù)據(jù)進(jìn)行了可視化。
圖3 點(diǎn)表示和高斯分布表示的t-SNEFig.3 t-SNE illustration of point representation and gaussian distribution representation
這項(xiàng)工作是一個(gè)利用數(shù)據(jù)不確定性學(xué)習(xí)的思想進(jìn)行基于草圖的3D形狀檢索的工作。本文提出的方法建立在語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)和數(shù)據(jù)不確定學(xué)習(xí)的關(guān)鍵思想之上。如圖4所示。
估計(jì)類的重量中心wyi,第ith個(gè)樣本取類權(quán)向量wyi的可能性被定義為
(4)
取自然對(duì)數(shù)后的可能性如下:
(5)
(6)
2.1.1 數(shù)據(jù)集
根據(jù)文獻(xiàn),本文使用2個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集,SHREC2013和SHREC2014。SHREC2013包含從普林斯頓形狀基準(zhǔn)(PSB)收集的1 258個(gè)三維形狀和從文獻(xiàn)[21]收集的7 200個(gè)手繪草圖。它有90個(gè)類。每個(gè)類有80個(gè)草圖圖像,其中50個(gè)用于訓(xùn)練,30個(gè)用于測試。三維形狀的數(shù)量因類別而異,平均為14個(gè)。SHREC2014結(jié)構(gòu)相似,但規(guī)模比SHREC2013更大。它有171個(gè)類、8 987個(gè)三維形狀和13 680個(gè)草圖。每個(gè)類平均有53個(gè)三維形狀、80個(gè)草圖圖像、50個(gè)用于訓(xùn)練和30個(gè)用于測試。因?yàn)镾HREC2014有更多的類和更大的類內(nèi)變化,所以相比之下更具挑戰(zhàn)性。
2.1.2 評(píng)價(jià)標(biāo)準(zhǔn)
為了更加精確的對(duì)比評(píng)價(jià),沿用之前工作中所提在檢索行業(yè)通用的7個(gè)指標(biāo),包括PR曲線(查全查準(zhǔn)率曲線, precision-recall curves),NN(最近鄰,nearest neighbor)、FT(第1批次,first tier),ST(第2批次,second tier),E(E方法,e-measure),DCG (折扣累計(jì)收益,discounted cumulated gain)以及mAP(平均準(zhǔn)確率,mean average precision)。
2.2.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)的硬件環(huán)境為AMD Ryzen 5 4600H with Radeon Graphics@3.00GHz+NVIDIA GeForce GTX 1650 4GB,軟件環(huán)境為Windows 10家庭版21H1+CUDA 10.2+Pytorch1.10.1+Python3.8.12。
2.2.2 實(shí)現(xiàn)細(xì)節(jié)
在預(yù)處理中,將草圖圖像和三維形狀的渲染視圖調(diào)整為224×224。在訓(xùn)練期間,對(duì)于三維形狀的渲染視圖和草圖圖像,使用數(shù)據(jù)增強(qiáng),包括隨機(jī)水平翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn),角度范圍為[-15°,15°]。學(xué)習(xí)率最初設(shè)置為0.001,每10個(gè)epochs下降0.9,訓(xùn)練epochs的總數(shù)設(shè)置為80,優(yōu)化器是SGD,動(dòng)量和重量衰減分別設(shè)置為0.9和10-4。這些參數(shù)被語義相似性度量學(xué)習(xí)方法和草圖不確定性學(xué)習(xí)方法使用。
語義相似性度量學(xué)習(xí)方法,稱為SSML,帶有不確定性的草圖特征學(xué)習(xí)方法,稱為USML,與之前的幾種最先進(jìn)的方法進(jìn)行了比較,包括CDMR[22]、SBR-VC[4]、DCML[8]、Siamese[5]、LWBR[23]、DCHML[24]、TCL[25]、DCA[7]、DPSML[3]、DSSH[10]和HEAR[26]等。
表2和表3分別報(bào)告了2個(gè)基準(zhǔn)的所有性能指標(biāo)的結(jié)果。
表2 檢索性能綜合對(duì)比(SHREC2013數(shù)據(jù)集)Table 2 Comprehensive comparison of retrieval performance (SHREC2013 dataset)
表3 檢索性能綜合對(duì)比(SHREC2014數(shù)據(jù)集)Table 3 Comprehensive comparison of retrieval performance (SHREC2013 dataset)
2個(gè)基準(zhǔn)的精確召回曲線分別如圖5(見封三)和圖6(見封三)所示。
圖5 在SHREC2013上的PR曲線對(duì)比Fig.5 PR curve comparison on SHREC2013
2.3.1 SHREC2013的檢索結(jié)果及分析
表2在SHREC2013上整體比較了其他相關(guān)方法的六項(xiàng)檢索指標(biāo)。對(duì)各相關(guān)方法的數(shù)據(jù)進(jìn)行對(duì)比分析,結(jié)果表明:本文使用的SSML達(dá)到了和DPSML幾乎一致的檢索性能,并且在NN、ST和DCG上超過了它。而USML則全面優(yōu)于最先進(jìn)的算法。在SHREC2013數(shù)據(jù)集上USML和其他相關(guān)方法在查全查準(zhǔn)率曲線上的比較如圖5所示。明顯可見的是,與DCHML、LWBR、DCML算法相比,本文算法表現(xiàn)得更優(yōu);就是在與當(dāng)前最先進(jìn)的DPSML算法比較之下,各個(gè)查全率也有提升。
2.3.2 SHREC2014的檢索結(jié)果及分析
本節(jié)選用相比SHREC2013數(shù)據(jù)集更為復(fù)雜的SHREC2014數(shù)據(jù)集作為參照去驗(yàn)證USML的有效性。各種算法在SHREC2014上相關(guān)檢索指標(biāo)的對(duì)比如表3所示。結(jié)果表明:在SHREC2014數(shù)據(jù)集上,本文使用的SSML全面優(yōu)于在SHREC2013數(shù)據(jù)集上持平的DPSML算法。USML還是全面優(yōu)于最先進(jìn)的算法。這一實(shí)驗(yàn)結(jié)果不僅說明USML在SHREC2014數(shù)據(jù)集有效,而且展示了USML在不同數(shù)據(jù)集上強(qiáng)大的魯棒性。在SHREC2014數(shù)據(jù)集上USML和其他相關(guān)方法在查全查準(zhǔn)率曲線上的比較如圖6所示。由圖可見:①與DCHML、LWBR、及DCML相比,USML在查全查準(zhǔn)率上的表現(xiàn)明顯更好;②在查準(zhǔn)率的比較上,USML與DPSML算法的性能幾乎一致。
為了解決將草圖和三維形狀同時(shí)映射到一個(gè)聯(lián)合特征嵌入空間和草圖噪聲給檢索性能帶來的影響,本文分析研究了跨模態(tài)匹配和草圖噪聲,探討了基于師生策略的語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和不確定性數(shù)據(jù)學(xué)習(xí)算法。主要工作和貢獻(xiàn)總結(jié)如下:
1) 分析了基于師生策略的語義相似性度量學(xué)習(xí)和數(shù)據(jù)不確定性學(xué)習(xí),研究了影響三維模型草圖檢索性能的主要因素.將基于師生策略的語義相似性度量學(xué)習(xí)和數(shù)據(jù)不確定性學(xué)習(xí)相結(jié)合,綜合考慮了跨域匹配和草圖噪聲對(duì)檢索性能的影響,構(gòu)建了一種新的三維模型草圖檢索網(wǎng)絡(luò)結(jié)構(gòu),對(duì)三維模型草圖檢索性能進(jìn)行了更全面的提升。
2) 建立了三維模型草圖檢索網(wǎng)絡(luò)架構(gòu)。以基于師生策略的語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)為基礎(chǔ),采用數(shù)據(jù)不確定性學(xué)習(xí)解決草圖噪聲問題,通過計(jì)算常用7個(gè)指標(biāo)評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)性能,為三維模型草圖檢索問題提供解決方案。
3) 引入了一種數(shù)據(jù)不確定性學(xué)習(xí)方法.通過將草圖特征用高斯分布表示,把草圖噪聲量化為方差。減輕了草圖噪聲對(duì)特征提取的損害,避免了由此產(chǎn)生的過擬合問題。
4) 以標(biāo)準(zhǔn)數(shù)據(jù)集SHREC13和SHREC14為準(zhǔn),驗(yàn)證了所提出的三維模型草圖檢索網(wǎng)絡(luò)模型的有效性和數(shù)據(jù)不確定學(xué)習(xí)方法的可行性。實(shí)驗(yàn)研究表面,在以草圖為檢索對(duì)象的三維模型檢索中,本文所提出的USML檢索性能優(yōu)秀,在檢索三維模型上的效率提升明顯。
得益于三維模型承載的大量數(shù)據(jù)資料,它在眾多信息載體中脫穎而出,并被眾多傳統(tǒng)以及前沿領(lǐng)域廣泛使用。而以草圖作為查詢手段,為三維模型的檢索提供了更多的便利性。在大數(shù)據(jù)時(shí)代,語義相似性度量學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和不確定性數(shù)據(jù)學(xué)習(xí)方法可為三維模型草圖檢索性能提升提供更全面的參考。在未來工作中將考慮引入草圖的時(shí)序信息進(jìn)一步提高檢索準(zhǔn)確率。