吳 晨,曹 力,秦 宇,吳苗苗,顧兆光
基于參考圖像的原子模型渲染方法
吳 晨1,曹 力1,秦 宇1,吳苗苗1,顧兆光2
(1. 合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院,安徽 合肥 230601; 2. 香港量子人工智能實驗室有限公司,香港 999077)
伴隨著生物學(xué)的發(fā)展與納米電子器件仿真技術(shù)的進(jìn)步,原子結(jié)構(gòu)在現(xiàn)代化科技領(lǐng)域發(fā)揮至關(guān)重要的作用。原子結(jié)構(gòu)的復(fù)雜細(xì)節(jié)使得渲染效果受光源位置影響較大,導(dǎo)致了原子模型渲染工作的困難。基于此,提出了一種基于參考圖像的原子模型渲染方法,計算出參考圖像的光照參數(shù)用于原子模型的渲染。首先,通過改變光源位置,利用POV-Ray腳本實現(xiàn)不同光源角度下的批量模型渲染,采集光源位置參數(shù)及渲染圖像得到對應(yīng)光源位置的渲染圖像數(shù)據(jù)集;接著,以殘差神經(jīng)網(wǎng)絡(luò)為主干設(shè)計光源估計網(wǎng)絡(luò),并在網(wǎng)絡(luò)中嵌入注意力機(jī)制提升網(wǎng)絡(luò)準(zhǔn)確性,使用優(yōu)化后的光源估計網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練,回歸光源位置參數(shù);最后將訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于參考圖像的渲染參數(shù)估計中,利用渲染參數(shù)渲染目標(biāo)模型。實驗結(jié)果顯示。通過網(wǎng)絡(luò)預(yù)測的參數(shù)與真實照明參數(shù)誤差極小,具有高度可靠性。
原子結(jié)構(gòu);模型渲染; 光源位置; 參考圖像; 光源估計網(wǎng)絡(luò)
原子結(jié)構(gòu)依賴其化學(xué)特性存在細(xì)節(jié)多、結(jié)構(gòu)復(fù)雜等特點,在渲染過程中若不經(jīng)考慮地施加光照會對渲染效果造成一定影響,如圖1所示。
圖1 不同光源位置的原子模型渲染圖像
目前原子模型的渲染主要依靠通用三維模型渲染軟件和專業(yè)化學(xué)可視化軟件實現(xiàn)。然而在模型渲染過程中,往往需要專業(yè)人員經(jīng)過多次交互調(diào)整材質(zhì)、光照、相機(jī)等環(huán)境參數(shù),對非計算機(jī)專業(yè)使用者操作和渲染工作存在一定難度。
在混合現(xiàn)實光照研究中,JACOBS和LOSCOS[1]針對真實場景下的幾何模型的渲染技術(shù)做了詳細(xì)介紹與分類。在對渲染參數(shù)估計的研究中,劉萬奎和劉越[2]總結(jié)了目前的最新研究進(jìn)展,其中,圖像分析法不需要借助多余的硬件設(shè)備,運(yùn)用神經(jīng)網(wǎng)絡(luò)、圖像處理等技術(shù)分析光照,是近年來光照估計領(lǐng)域的重要發(fā)展方向。FU等[3]提出了一種基于形態(tài)閉合的光照估計算法。估計的光照參數(shù)代表了自然度和亮度,適用于單幅圖像。與傳統(tǒng)光照參數(shù)估計不同,GUO等[4]只估計了一個光照參數(shù),首先通過找到RGB通道中每個像素的最大亮度來構(gòu)造光照圖,然后利用光照的結(jié)構(gòu)來細(xì)化光照貼圖。此舉雖然降低了計算成本,但僅適用于一個小求解空間。SHI等[5]將一種新的深度專門網(wǎng)絡(luò)用于估計局部光源,使用假設(shè)網(wǎng)絡(luò)和選擇網(wǎng)絡(luò)構(gòu)成一個新的卷積網(wǎng)絡(luò)架構(gòu),假設(shè)網(wǎng)絡(luò)生成多個以其獨(dú)特的雙分支結(jié)構(gòu)捕獲不同模式光源的假設(shè),然后選擇網(wǎng)絡(luò)自適應(yīng)地從這些假設(shè)中選擇有信心的估計。LORE等[6]提出了一種訓(xùn)練數(shù)據(jù)生成方法,使用伽馬校正并添加高斯噪聲來模擬低光環(huán)境,證明了用合成數(shù)據(jù)訓(xùn)練的模型的有效性。提供的關(guān)于模型學(xué)習(xí)到特征的見解,使網(wǎng)絡(luò)權(quán)值可視化。MARQUES等[7]提出了對混合現(xiàn)實場景的光源位置估計,用于估計位于HMD設(shè)備中的單個RGB相機(jī)的照明特性,有效地減少了在混合現(xiàn)實應(yīng)用中照明不匹配的影響。KáN和KAUFMANN[8]提出了一種基于RGB-D圖像的光照估計方法。其訓(xùn)練數(shù)據(jù)集來源于5個簡單的場景用隨機(jī)的光源位置和攝像機(jī)位置進(jìn)行渲染得到,訓(xùn)練神經(jīng)網(wǎng)絡(luò)從RGB-D圖像中估計光的方向。CUI等[9]基于殘差學(xué)習(xí)對光源顏色進(jìn)行了估計,在精度與穩(wěn)健性水平上有較大提升。在對非均勻光照圖像進(jìn)行光照估計中,傳統(tǒng)的光照估計算法往往不能在保持自然的同時有效地估計光照?;诖?,GAO等[10]提出了一種基于聯(lián)合邊緣保持濾波器的自然保持光照估計算法,綜合考慮空間光滑性、光照邊界邊緣尖銳、光照范圍有限等約束條件。LI等[11]采用了整體逆渲染框架,提出了新的方法來映射復(fù)雜的材料到現(xiàn)有的室內(nèi)場景,使用基于物理的GPU渲染器創(chuàng)建的真實室內(nèi)數(shù)據(jù)集來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),從單個圖像中估計出分離的形狀、非郎伯表面反射率和光照,但在真實數(shù)據(jù)集上訓(xùn)練的效果并不突出。
針對不同類型的模型,采用特定的渲染方法[12-14]通常能達(dá)到更好的效果。原子模型渲染圖像主要應(yīng)用于量子物理與材料化學(xué)領(lǐng)域的書籍雜志附圖,撰稿人與編輯往往對計算機(jī)渲染技術(shù)掌握了解甚少。目前現(xiàn)有原子模型渲染工具如POV-Ray和Pymol等雖然能產(chǎn)生較好的渲染效果,但對于非專業(yè)用戶來說,想根據(jù)已有原子模型得到預(yù)期的渲染效果相當(dāng)困難。因此,本文提出了一種基于參考圖像的原子模型渲染方法,根據(jù)需求者提供的參考圖像學(xué)習(xí)其光源參數(shù),對目標(biāo)原子模型進(jìn)行渲染。首先對原子模型渲染進(jìn)行分析,提出采用殘差神經(jīng)網(wǎng)絡(luò)對參考圖像的光源渲染參數(shù)進(jìn)行預(yù)測。其次對所采用的神經(jīng)網(wǎng)絡(luò)進(jìn)行分析與優(yōu)化,接著對數(shù)據(jù)集、損失函數(shù)和其他訓(xùn)練細(xì)節(jié)展開詳細(xì)介紹,最后從各個方面對該方法進(jìn)行評估。
原子模型是物體內(nèi)部構(gòu)成的原子結(jié)構(gòu)的模型化表達(dá)。由于物體內(nèi)部各個粒子的分布排列遵循一定的化學(xué)規(guī)律,因此能夠建立三維模型清晰地展現(xiàn)出物體內(nèi)部粒子結(jié)構(gòu)與排布狀態(tài)。原子結(jié)構(gòu)的渲染效果有多種表現(xiàn)形式,其中球棍模型與空間填充模型是最具代表性的2種分布形式,如圖2所示。球棍模型中用球模型代表原子,棍模型則代表原子之間的化學(xué)鍵;與球棍模型相對,空間填充模型不依賴化學(xué)鍵作用,且由許多重復(fù)的結(jié)構(gòu)單元組成,根據(jù)其不同特性呈線狀結(jié)構(gòu)或枝狀結(jié)構(gòu)。
圖2 原子結(jié)構(gòu)模型((a)球棍模型;(b)空間填充模型)
現(xiàn)有的原子模型仿真技術(shù)更多將功能聚焦于原子處理,如HASEM[15]和Atomsk[16],在原子模型生成與編輯上效率較低。曹力等[17]利用高效生成原子模型的方法,預(yù)先將各種材料和不同粒子間的相互關(guān)系設(shè)計成預(yù)制結(jié)構(gòu);創(chuàng)建模型前,只需創(chuàng)建若干基本的圖元,再選擇各圖元相應(yīng)材料并將其組合成一個復(fù)合圖元;依據(jù)復(fù)合圖元的材料信息選擇合適的界面預(yù)制結(jié)構(gòu),最終生成設(shè)計器件的原子模型。在調(diào)研過程中發(fā)現(xiàn)硅原子結(jié)構(gòu)因其化學(xué)特性,擁有周期性排列風(fēng)格。同時,作為復(fù)雜的晶體模型結(jié)構(gòu),硅原子結(jié)構(gòu)在半導(dǎo)體研究中廣泛使用。本文利用該方法以硅原子結(jié)構(gòu)為基準(zhǔn)制作了5個球棍模型,如圖3(a)所示。美國礦物學(xué)家晶體結(jié)構(gòu)數(shù)據(jù)庫收錄了發(fā)表在包括Chemistry of Minerals等期刊文獻(xiàn)上的每個原子結(jié)構(gòu),本文根據(jù)排列形態(tài)、元素包含的異同在其中選擇涵蓋了構(gòu)成生物大分子的基本元素的5個空間填充模型,如圖3(b)所示。以此5個模型制作的圖像數(shù)據(jù)集按照2.1節(jié)的數(shù)據(jù)集制作方法制作圖像數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),分別對非同類型的空間填充模型進(jìn)行測試,測試結(jié)果均達(dá)90%以上,實驗結(jié)果顯示,本文所選空間填充模型具有一定的泛化能力。
圖3 原始原子模型((a)球棍模型;(b)空間填充模型)
殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)[18]作為最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型之一,發(fā)現(xiàn)并解決了卷積神經(jīng)網(wǎng)絡(luò)中的退化現(xiàn)象。ResNet以殘差塊為基本結(jié)構(gòu),將學(xué)習(xí)目標(biāo)轉(zhuǎn)為對網(wǎng)絡(luò)殘差的學(xué)習(xí),網(wǎng)絡(luò)依舊可以通過端到端的反向傳播訓(xùn)練。由于其簡單高效的特性,極大程度上減少了深度過大時神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難的問題。
ResNet18 網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,首先經(jīng)過一個卷積模塊,然后依次連接2個stage,每個stage由2個常規(guī)殘模塊組成,最后是平均池化和全連接層。其中,跳層連接中的實線表示網(wǎng)絡(luò)輸入和經(jīng)前向神經(jīng)網(wǎng)絡(luò)映射后的輸入通道相同,可以直接相加,虛線箭頭表示將網(wǎng)絡(luò)輸入的維度調(diào)整之后再相加。相較于其他卷積神經(jīng)網(wǎng)絡(luò)層次較深時無法訓(xùn)練的情況,ResNet18網(wǎng)絡(luò)從本質(zhì)上解決了此問題,保證了訓(xùn)練的正常進(jìn)行。
圖4 ResNet18網(wǎng)絡(luò)結(jié)構(gòu)
在原子模型的渲染過程中,光源位置異同對渲染效果有顯著影響。在深度學(xué)習(xí)日漸成熟的同時,卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺與圖像圖形領(lǐng)域中的應(yīng)用較為廣泛[19-22]。通過訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò),從大量數(shù)據(jù)集中學(xué)習(xí)圖像特征,典型的有深度圖預(yù)測[19]、放射率圖預(yù)測[20]等。但針對原子模型的渲染方法尚未被提出。傳統(tǒng)方法聚焦于真實圖像的光照估計研究,側(cè)重于光照強(qiáng)度與顏色估計。然而真實場景中的光照信息只能根據(jù)預(yù)測后的渲染效果進(jìn)行主觀評價,無法定量評估。目前,想要得到渲染效果優(yōu)秀的原子模型圖像,仍需要用戶與渲染工具間持續(xù)交互與迭代,效率低下。
基于此,本文提出了一種基于參考圖像的原子模型渲染參數(shù)估計方法。選擇已渲染好的原子模型渲染圖像作為參考圖像,估計其光照參數(shù)信息并應(yīng)用于目標(biāo)模型的渲染,在提升了原子模型渲染效率的同時還簡化了模型渲染的交互過程。具體方法為:選取理想的光源渲染圖像作為參考,分析預(yù)測參考圖像中的光源特征,估計其渲染參數(shù),用該參數(shù)信息對原子模型進(jìn)行渲染。具體地,通過改變光源位置,利用POV-Ray腳本實現(xiàn)原子模型的批量渲染,收集原子模型渲染圖像,得到對應(yīng)光源位置的渲染圖像數(shù)據(jù)集。以ResNet18網(wǎng)絡(luò)為主干網(wǎng)絡(luò)設(shè)計光源估計網(wǎng)絡(luò),并在網(wǎng)絡(luò)中嵌入注意力機(jī)制提升網(wǎng)絡(luò)性能。使用優(yōu)化后的光源估計網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練。將訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于參考圖像的渲染參數(shù)估計中,利用渲染參數(shù)渲染目標(biāo)模型。渲染流程如圖5所示。
圖5 基于參考圖像的原子模型渲染流程示意圖
POV-Ray[23]是一個使用光線跟蹤繪制三維圖像的開放源代碼免費(fèi)軟件,其根據(jù)文本的場景描述語言生成渲染圖像。圖像格式支持紋理渲染和輸出,功能簡單、使用方便。首先編寫腳本生成 POV-Ray軟件可執(zhí)行的場景描述文件;接著使用 POV-Ray批量執(zhí)行文件,生成渲染圖像。
在三維坐標(biāo)系中,可以用一對二元組(,)來表示點光源相對于待渲染模型的位置[8]。其中,和分別表示偏角和傾角,取值范圍分別為0~360°與0~180°之間。將原子模型中心固定在三維坐標(biāo)系原點,攝像機(jī)位置置于軸負(fù)向,朝向為軸正向。光源初始位置固定于軸正向,通過改變偏角與傾角的大小改變光源位置。在實驗中發(fā)現(xiàn),光照位置參數(shù)差值在10°以內(nèi)的對渲染效果影響較小,如圖6所示。故本文實驗中以5°為間隔設(shè)置采樣區(qū)間,在保證實驗精度的同時減少訓(xùn)練時間。采樣位置示意圖如圖7所示,其中曲線的交點為光源位置的采樣點,通過均勻改變偏角與傾角的大小,對點光源位置參數(shù)進(jìn)行采集,得到2 592組參數(shù)對{(0,0),(0,5),···,(α,β),···,(355,175)},并以此對原子模型進(jìn)行渲染得到圖像庫。對1.1節(jié)中提到的10個原始原子模型按照上述方式進(jìn)行渲染,得到共25 920幅原子模型光照渲染圖像,各個渲染圖像對應(yīng)特定光照位置參數(shù),得到三維光照模型渲染數(shù)據(jù)集。
圖6 光照參數(shù)相差5?渲染效果對比圖
圖7 光源采樣位置示意圖
光源估計網(wǎng)絡(luò)選取ResNet18作為主干卷積神經(jīng)網(wǎng)絡(luò)來提取圖像特征,學(xué)習(xí)參考圖像與渲染參數(shù)之間的聯(lián)系。如圖8所示,網(wǎng)絡(luò)架構(gòu)包含1個卷積層、4個殘差網(wǎng)絡(luò)塊和2個全連接層。網(wǎng)絡(luò)輸入為224×224×3的渲染參考圖像,輸出為光源位置參數(shù)。卷積核大小為7×7,步長設(shè)為2。卷積層后連接1個使用最大池化方法的池化層,能顯著減少參數(shù)誤差引起的估計均值的偏移。殘差網(wǎng)絡(luò)部分由4 組殘差網(wǎng)絡(luò)結(jié)構(gòu)組成,每組包含2個殘差塊。其中,第一組殘差網(wǎng)絡(luò)的輸入通道和輸出通道相同,不需要下采樣層,其他3組由于經(jīng)過跳層連接,均需要連接下采樣層調(diào)整網(wǎng)絡(luò)輸入維度。經(jīng)過殘差模塊之后連接1個平均池化進(jìn)行特征選擇和信息過濾。然后經(jīng)過2層全連接層,提高網(wǎng)絡(luò)模型的非線性表達(dá)能力。
本文選取Relu函數(shù)[24]作為激活函數(shù),對除全連接層以外的每一個卷積層進(jìn)行激活,Relu函數(shù)提供了更加高效的梯度下降以及反向傳播,避免了梯度爆炸和梯度消失問題;省去了其他復(fù)雜激活函數(shù)中諸如指數(shù)函數(shù)的影響,簡化了計算過程;同時活躍度的分散性使得神經(jīng)網(wǎng)絡(luò)整體計算成本下降。輸出層包含2個神經(jīng)元,分別代表光照參數(shù)和。將實際圖像作為輸入,網(wǎng)絡(luò)回歸二維向量(,)。
圖8 光源估計網(wǎng)絡(luò)
在光源估計網(wǎng)絡(luò)中,網(wǎng)絡(luò)根據(jù)原子模型的渲染情況對光照進(jìn)行估計。在圖像中,原子模型根據(jù)不同光照位置所反映的情況是網(wǎng)絡(luò)更值得關(guān)注的內(nèi)容。注意力機(jī)制[25]主要包括2個方面:決定需部分;有限的信息處理資源分配給重要的部分。對于原子模型渲染圖像來說,需要關(guān)注的點在于圖像中受不同位置所反映的原子模型情況?;诖?,本文考慮在光源估計網(wǎng)絡(luò)中引入注意力機(jī)制。
注意力機(jī)制可劃分為空間注意力和通道注意力,空間注意力[26]涉及一個空間轉(zhuǎn)化器模塊,可找出圖片信息中需要被關(guān)注的區(qū)域,同時該模塊具有旋轉(zhuǎn)、縮放、變換的功能,圖片局部的重要信息能夠通過變換被提取出來。在本文中,可旋轉(zhuǎn)的空間轉(zhuǎn)化器會對光照位置的估計產(chǎn)生誤判,故不適用,在實驗部分對此進(jìn)行了論證。SENet[27]是最經(jīng)典的通道注意力機(jī)制之一,其所設(shè)的SE模塊核心思想是通過網(wǎng)絡(luò)根據(jù)損失函數(shù)去學(xué)習(xí)特征權(quán)重,放大有效特征圖權(quán)重,減少無效或效果差的特征圖權(quán)重,通過此方式訓(xùn)練模型使其達(dá)到更好的結(jié)果。按照圖9的方式調(diào)整殘差塊,首先對空間維度進(jìn)行擠壓,然后通過2個全連接層學(xué)習(xí)到通道注意力,再經(jīng)過Sigmoid歸一化得到權(quán)重矩陣;將其與原矩陣相乘得到空間維度加權(quán)之后的特征。
圖9 SE-Net模塊架構(gòu)
均方誤差(mean square error,MSE)與平均絕對誤差(mean absolute error,MAE)是最常用的回歸損失函數(shù)。MSE是目標(biāo)變量與預(yù)測值之間距離平方之和;MAE是目標(biāo)變量和預(yù)測變量之間差異絕對值之和。具體為
為了使回歸模型更快收斂,在圖像集預(yù)處理時需要將參數(shù)標(biāo)簽和渲染圖像做歸一化處理。由于參數(shù)范圍是范圍的2倍,如果使用上述2種回歸損失函數(shù),會導(dǎo)致傾角參數(shù)的回歸誤差比偏角參數(shù)的回歸誤差大一倍?;诖耍疚氖褂闷胶饬烤V的方式對均方誤差損失函數(shù)進(jìn)行了改進(jìn),即
實驗在CPU為酷睿i7-7700K/4.2 GHz、內(nèi)存16 GB的計算機(jī)上運(yùn)行,使用開源深度學(xué)習(xí)框架Pytorch進(jìn)行網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練時間和測試時間分別為49 482 s和36 s。初始學(xué)習(xí)率設(shè)置為0.001,批尺寸設(shè)置為32,訓(xùn)練次數(shù)epoch設(shè)置為100。實驗使用的圖像數(shù)據(jù)集是25 920幅原子模型光照渲染圖像以及每幅圖像對應(yīng)的2個光源位置參數(shù)。其中隨機(jī)抽取數(shù)據(jù)集中90%圖像作為訓(xùn)練集,其余作為測試集。光源位置估計網(wǎng)絡(luò)為回歸型網(wǎng)絡(luò),在訓(xùn)練開始之前,需要對數(shù)據(jù)集的圖像和標(biāo)簽統(tǒng)一做歸一化處理。
實驗選取了4種經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)模型作為實驗對照,分別將原子模型渲染圖像數(shù)據(jù)集在LeNet[28],AlexNet[29],VggNet[30]和GhostNet[31]網(wǎng)絡(luò)框架下進(jìn)行訓(xùn)練,以驗證本文所采用的光照估計網(wǎng)絡(luò)的性能。圖10顯示了原子模型渲染圖像數(shù)據(jù)集在4種卷積神經(jīng)網(wǎng)絡(luò)框架下訓(xùn)練時損失函數(shù)隨網(wǎng)絡(luò)迭代的變化曲線??梢悦黠@看出本文所采用的網(wǎng)絡(luò)收斂速度顯著優(yōu)于其他網(wǎng)絡(luò)。
表1顯示了渲染數(shù)據(jù)集在本文與4種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)框架下進(jìn)行訓(xùn)練后的預(yù)測效果。表格中數(shù)值分別表示光照參數(shù)與經(jīng)預(yù)測的準(zhǔn)確率,實驗設(shè)置以10°大小為誤差范圍,即預(yù)測值與真實值之差在10°以內(nèi),認(rèn)為預(yù)測結(jié)果正確。通過相同的訓(xùn)練集與測試集計算網(wǎng)絡(luò)的準(zhǔn)確率可以看到本文選用的網(wǎng)絡(luò)預(yù)測準(zhǔn)確率達(dá)到最高。
圖10 不同網(wǎng)絡(luò)框架下?lián)p失函數(shù)變化曲線對比
表1 不同網(wǎng)絡(luò)框架下渲染參數(shù)預(yù)測效果對比
實驗對光源估計網(wǎng)絡(luò)中的注意力機(jī)制的選取進(jìn)行了消融實驗。針對光源估計網(wǎng)絡(luò),設(shè)置對比項:添加空間注意力與通道注意力。實驗結(jié)果見表2,引入通道注意力后的光源估計網(wǎng)絡(luò)對渲染參數(shù)預(yù)測結(jié)果在誤差小于2?范圍內(nèi)有顯著的提升,驗證了2.3節(jié)的觀點。實驗結(jié)果證明:在引入通道注意力機(jī)制后,網(wǎng)絡(luò)對于渲染參數(shù)的預(yù)測性能有了顯著提升。
表2 不同注意力機(jī)制下光源估計網(wǎng)絡(luò)效果對比
為了更好地顯示光照網(wǎng)絡(luò)預(yù)測結(jié)果,本文統(tǒng)計測試了誤差數(shù)據(jù)并以直方圖的形式展示,結(jié)果如圖11所示。其中,圖11(a)和圖11(b)分別為參數(shù)和的測試誤差分布直方圖;橫縱坐標(biāo)分別代表誤差區(qū)間與測試圖像數(shù)量,由圖11可知,絕大多數(shù)測試圖像的誤差小于10°。通過觀察分析預(yù)測角度與實際角度,發(fā)現(xiàn)和誤差相對較大的圖像聚集在渲染參數(shù)為0,360和0,180附近,這是由于在空間坐標(biāo)系中,0°和360°為同一位置,導(dǎo)致在其附近的誤差較大。經(jīng)統(tǒng)計測試誤差均值為4°。實驗數(shù)據(jù)充分證明本文網(wǎng)絡(luò)對參考圖像的渲染參數(shù)預(yù)測效果良好,提出的方法穩(wěn)定可靠。
為了更好地展示效果,從納米技術(shù)領(lǐng)域國際著名期刊雜志[32-34]上找到若干張渲染效果較好的圖像作為參考圖像,送入訓(xùn)練好的網(wǎng)絡(luò),預(yù)測得到每張圖像的光源參數(shù),再將該參數(shù)作為渲染軟件的輸入,對原始模型進(jìn)行渲染,最終得到渲染圖像,并對比了3.2節(jié)中不同回歸網(wǎng)絡(luò)的渲染效果,結(jié)果見表3。本文列舉了不同類別的原子模型各2種。實驗結(jié)果顯示,即便使用與原作者不同的繪制軟件,本文方法也可以產(chǎn)生較好的渲染效果,并且同其他回歸方法相比,渲染效果與穩(wěn)定性能都達(dá)最優(yōu)。
圖11 誤差分布直方圖((a) α誤差分布;(b) β誤差分布)
表3 基于參考圖像的原子模型渲染效果
本文提出一種基于參考圖像的原子模型渲染方法。通過卷積神經(jīng)網(wǎng)絡(luò)估計理想圖像的光源參數(shù),快速渲染目標(biāo)模型。首先闡述該方法的總體思路,其次介紹神經(jīng)網(wǎng)絡(luò)的架構(gòu)和數(shù)據(jù)集的獲取方式,以及其他實驗細(xì)節(jié)設(shè)置。最后對訓(xùn)練結(jié)果進(jìn)行分析對比。實驗結(jié)果表明,訓(xùn)練的光源預(yù)測網(wǎng)絡(luò)具有高度的可靠性,通過網(wǎng)絡(luò)預(yù)測的參數(shù)與真實照明參數(shù)誤差極小,可應(yīng)用于渲染系統(tǒng)中。主要貢獻(xiàn)包括:
(1) 一個原子模型渲染圖像數(shù)據(jù)集;
(2) 一個光照參數(shù)估計網(wǎng)絡(luò);
(3) 一種基于參考圖像的原子模型渲染方法。
由于數(shù)據(jù)集來源于有限的三維模型,所以該方法適用范圍存在局限。對于復(fù)雜模型或包含多個光源的渲染圖像,可能會存在較大的誤差,為了解決這些問題,未來需要擴(kuò)展三維模型,增加數(shù)據(jù)集的復(fù)雜性,使得該方法具有足夠的通用性,以應(yīng)對各種三維模型的渲染。
[1] JACOBS K, LOSCOS C. Classification of illumination methods for mixed reality[J]. Computer Graphics Forum, 2006, 25(1): 29-51.
[2] 劉萬奎, 劉越. 用于增強(qiáng)現(xiàn)實的光照估計研究綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2016, 28(2): 197-207.
LIU W K, LIU Y. Review on illumination estimation in augmented reality[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(2): 197-207 (in Chinese).
[3] FU X Y, ZENG D L, HUANG Y, et al. A fusion-based enhancing method for weakly illuminated images[J]. Signal Processing, 2016, 129: 82-96.
[4] GUO X J, LI Y, LING H B. LIME: low-light image enhancement via illumination map estimation[J]. IEEE Transactions on Image Processing, 2017, 26(2): 982-993.
[5] SHI W, LOY C C, TANG X O. Deep specialized network for illuminant estimation[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 371-387.
[6] LORE K G, AKINTAYO A, SARKAR S. LLNet: a deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017, 61: 650-662.
[7] MARQUES B A D, DRUMOND R R, VASCONCELOS C N, et al. Deep light source estimation for mixed reality[C]//The 13th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Setúbal: SCITEPRESS - Science and Technology Publications, 2018: 873-883.
[8] KáN P, KAUFMANN H. Correction to: DeepLight: light source estimation for augmented reality using deep learning[J]. The Visual Computer, 2020, 36(1): 229.
[9] CUI S, ZHANG J AND GAO J. Illuminant estimation via deep residual learning[J]. Journal of Image and Graphics, 2019, 24(12): 2111-2125.
[10] GAO Y Y, HU H M, LI B, et al. Naturalness preserved nonuniform illumination estimation for image enhancement based on retinex[J]. IEEE Transactions on Multimedia, 2018, 20(2): 335-344.
[11] LI Z Q, SHAFIEI M, RAMAMOORTHI R, et al. Inverse rendering for complex indoor scenes: shape, spatially-varying lighting and SVBRDF from a single image[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2472-2481.
[12] BERGER M, LI J X, LEVINE J A. A generative model for volume rendering[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(4): 1636-1650.
[13] LI L, QIAO X Q, LU Q, et al. Rendering optimization for mobile web 3D based on animation data separation and on-demand loading[J]. IEEE Access, 2020. 8: 88474-88486.
[14] 王貝貝, 樊家輝. 均勻參與介質(zhì)的渲染方法研究[J]. 中國圖象圖形學(xué)報, 2021, 26(5): 961-969.
WANG B B, FAN J H. Survey of rendering methods for homogeneous participating media[J]. Journal of Image and Graphics, 2021, 26(5): 961-969 (in Chinese).
[15] 姜勝利, 張蕾, 趙寒月, 等. 含能材料第一性原件計算軟件HASEM的簡介與展望[C]//2014’(第六屆)含能材料與鈍感彈藥技術(shù)學(xué)術(shù)研討會論文集. 成都: 國防工業(yè)出版社, 2014: 107-110.
JIANG S L, ZHANG L, ZHAO H Y, et al. Introduction and perspectives of HASEM, the software for calculating first principles of energy-containing materials[C]//2014’ 6th Symposium on Energetic Materials and Insensitive Munitions. Chendu: National Defence Industry Press, 2014:107-110 (in Chinese).
[16] HIREL P. Atomsk: a tool for manipulating and converting atomic data files[J]. Computer Physics Communications, 2015, 197: 212-219.
[17] 曹力, 顧兆光, 孫健, 等. 界面預(yù)制: 一種高效生成原子模型的方法[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2016, 28(10): 1622-1629.
CAO L, GU Z G, SUN J, et al. Pre-constructed interface: an easy approach for generating nano-scale-device atomistic models[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(10): 1622-1629 (in Chinese).
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[19] BANSAL A, RUSSELL B, GUPTA A. Marr revisited: 2D-3D alignment via surface normal prediction[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5965-5974.
[20] REMATAS K, RITSCHEL T, FRITZ M, et al. Deep reflectance maps[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4508-4516.
[21] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[22] TAN M X, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. [2022-04-22]. https:// arxiv.org/abs/1905.11946v4.
[23] ZHANG H Y, SHA Z L, CUI S H, et al. Application of POV-ray software in the molecular symmetry[J]. University Chemistry, 2015, 30(2): 78-82.
[24] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//The 14th International Conference on Artificial Intelligence and Statistics. Chicago: Medical Library Association, 2011:315-323.
[25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[EB/OL]. [2022-06-10]. https://arxiv.org/abs/1706.03762.
[26] WANG H R, FAN Y, WANG Z X, et al. Parameter-free spatial attention network for person re-identification[EB/OL]. [2022-05-02]. https://arxiv.org/abs/1811.12150.
[27] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// The IEEE conference on computer vision and pattern recognition. New York: IEEE Press, 2018: 7132-7141.
[28] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[29] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[30] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-04-30]. https://arxiv.org/abs/1409.1556v5.
[31] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1577-1586.
[32] TANG J B, LAMBIE S, MEFTAHI N, et al. Unique surface patterns emerging during solidification of liquid metal alloys[J]. Nature Nanotechnology, 2021, 16(4): 431-439.
[33] DANOWSKI W, VAN LEEUWEN T, ABDOLAHZADEH S, et al. Unidirectional rotary motion in a metal–organic framework[J]. Nature Nanotechnology, 2019, 14(5): 488-494.
[34] ZHANG Y, KERSELL H, STEFAK R, et al. Simultaneous and coordinated rotational switching of all molecular rotors in a network[J]. Nature Nanotechnology, 2016, 11(8): 706-712.
Atomic model rendering method based on reference images
WU Chen1, CAO Li1, QIN Yu1, WU Miao-miao1, Koo SiuKong2
(1. School of Computer and Information, Hefei University of Technology, Hefei Anhui 230601, China; 2. Hong Kong Quantum AI Lab, Hong Kong 999077, China)
Along with advances in biology and the simulation of nano electronic devices, atomic structures play a crucial role in modern science and technology. The complex details of the atomic structure result in the far-reaching impact of the position of the light source on the rendering effect, incurring difficulties in rendering atomic models. On this basis, an atomic model rendering method based on a reference image was proposed, in which the lighting parameters of the reference image were calculated for the rendering of the atomic model. First, a POV-Ray script was used to render a batch of models at different light angles by changing the light source positions, and the light source position parameters and rendered images were collected to obtain a dataset of rendered images corresponding to the light source positions. Then, the light source estimation network was designed with the residual neural network as the backbone, and the attention mechanism was embedded in the network to enhance the network accuracy. The optimized light source estimation network was employed to train the dataset and regress the light source location parameters. Finally, the trained convolutional neural network was used to estimate the rendering parameters of the reference image, and the target model was rendered using the rendering parameters. The experimental results show that the parameters predicted by the network are highly reliable with minimal error compared with the real lighting parameters.
atomic structure; model rendering; light source position; reference image; light source estimation network
TP 391
10.11996/JG.j.2095-302X.2022061080
A
2095-302X(2022)06-1080-08
2022-07-29;
:2022-10-17
國家自然科學(xué)基金項目(61602146)
吳 晨(2000-),男,碩士研究生。主要研究方向為計算機(jī)圖形學(xué)。E-mail:chen124@mail.hfut.edu.cn
曹 力(1982-),男,副教授,博士。主要研究方向為計算機(jī)輔助設(shè)計、幾何分析等。E-mail:lcao@hfut.edu.cn
29 July,2022;
17 October,2022
s:National Natural Science Foundation of China (61602146)
WU Chen (2000-), master student. His main research interests cover model rendering and model reconstruction. E-mail:chen124@mail.hfut.edu.cn
CAO Li (1982-), associate professor, Ph.D. His main research interests cover computer aided design, computer vision, etc. E-mail:lcao@hfut.edu.cn