范新剛
(廣州城建職業(yè)學(xué)院,廣東 廣州 510925)
傳統(tǒng)的圖形學(xué)及視覺的研究主要是基于數(shù)學(xué)和物理的方法。近年來,深度學(xué)習(xí)在視覺領(lǐng)域取得了很大突破。視覺領(lǐng)域的研究主要集中在深度學(xué)習(xí)方面,特別是在圖像編輯和圖像生成方面,已實現(xiàn)多種場景的應(yīng)用。
圖像補全介于圖像編輯和圖像生成之間,最初是一個傳統(tǒng)圖形學(xué)的問題。問題本身很直觀:在一幅圖像上挖一個洞,然后利用破損區(qū)域之外的信息將之補全,并且無法肉眼識別。這個問題對人類來說似乎很容易,例如一些有缺陷的圖像,人的大腦會自動聯(lián)想圖像缺失的部分,如果有一些繪畫天賦,就能憑著想象把缺失的部分補充完整。但是這個任務(wù)對于計算機來說顯得格外困難。首先,問題的解決辦法不唯一;其次,破損區(qū)域之外的信息如何利用、如何判斷補全后的圖像是否完全還原是需要解決的問題。
以深度學(xué)習(xí)為代表的機器學(xué)習(xí),正在逐漸席卷整個圖形學(xué)研究領(lǐng)域。研究者們逐漸發(fā)現(xiàn),當(dāng)傳統(tǒng)的基于物理的模型發(fā)展遇到瓶頸時,機器學(xué)習(xí)的方法也許有助于解釋復(fù)雜的數(shù)理模型。畢竟只有理解了圖像的深層結(jié)構(gòu),才能更好地指導(dǎo)圖像的生成和處理。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一個數(shù)學(xué)模型,是對動物神經(jīng)網(wǎng)絡(luò)的模擬,比較適用于分布式信息處理。神經(jīng)網(wǎng)絡(luò)通過大量的內(nèi)部節(jié)點達到信息處理的目的。自我學(xué)習(xí)能力和自適應(yīng)能力是ANN的基本特征。通過分析預(yù)設(shè)的輸入和輸出數(shù)量,可找出兩者之間的對應(yīng)規(guī)則,然后利用這些規(guī)則,用新的輸入推導(dǎo)出輸出數(shù)據(jù),這種分析的過程稱為“訓(xùn)練”。
在ANN中,神經(jīng)元處理單元可以代表不同的對象,如特征、字母、概念或一些有意義的抽象圖案[1]。網(wǎng)絡(luò)中處理單元的類型分為3類:輸入單元、輸出單元和隱藏單元。研究表明,輸入單元接收來自外部世界的信號和數(shù)據(jù);輸出單元實現(xiàn)系統(tǒng)處理結(jié)果的輸出;隱藏單元是一個單元,位于輸入和輸出單元之間,不能從系統(tǒng)外部查看。神經(jīng)元之間的連接強度通過連接權(quán)重反映,而網(wǎng)絡(luò)單元的連接關(guān)系則反映了信息的表示和處理[2]。
一般情況下,如果只有一個神經(jīng)元,就算有再多的輸入也是不夠的。所以,一般需要5~10個神經(jīng)元,以并行的方式運算,這些神經(jīng)元被稱為“層”。
1.1.1 單層神經(jīng)網(wǎng)絡(luò)
由S個神經(jīng)元構(gòu)成的單層神經(jīng)網(wǎng)絡(luò)如圖1所示。單層神經(jīng)網(wǎng)絡(luò)通過權(quán)值矩陣W,因此,輸入向量p的每一個分量都可以連接到每一個神經(jīng)元。因為每一個神經(jīng)元都有含有一個偏置值b、一個累加器、一個傳輸函數(shù)f,所有這些輸出共同構(gòu)成了輸出向量a[3]。
圖1 具有S個神經(jīng)的單層神經(jīng)網(wǎng)絡(luò)
1.1.2 多層神經(jīng)網(wǎng)絡(luò)
第一層的輸入為R,有S1個神經(jīng)元,第二層有S2個神經(jīng)元,以此類推,第n層就有Sn+1個神經(jīng)元。每一層的輸出即下一層的輸入。三層網(wǎng)絡(luò)如圖2所示。
圖2 三層網(wǎng)絡(luò)
1.1.3 學(xué)習(xí)方式
(1)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是將訓(xùn)練好的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入對比期望值和實際輸出,得到誤差,然后控制差值信號調(diào)整權(quán)值大小,快速適應(yīng)新場景。
(2)非監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí)不需要訓(xùn)練后的數(shù)據(jù),直接把神經(jīng)網(wǎng)絡(luò)放到新環(huán)境,通過提取數(shù)據(jù)特征進行學(xué)習(xí)。
深度學(xué)習(xí)源于ANN研究的發(fā)展,這一概念在2006年被提出?;谏羁尚啪W(wǎng)絡(luò)(Deep Belief Net‐works,DBN),提出了一種無監(jiān)督的逐層訓(xùn)練算法,解決深層結(jié)構(gòu)相關(guān)優(yōu)化問題。卷積神經(jīng)網(wǎng)絡(luò)由拉科納提出,是真正意義上的多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相關(guān)關(guān)系來減少參數(shù)的數(shù)量,提高訓(xùn)練性能[4]。
深度學(xué)習(xí)的目的是模擬人腦學(xué)習(xí),建立神經(jīng)網(wǎng)絡(luò),是機器學(xué)習(xí)的新領(lǐng)域,通過模仿人類大腦的機制來解釋圖像、聲音和文本等數(shù)據(jù)。
深度學(xué)習(xí)的代表算法是卷積神經(jīng)網(wǎng)絡(luò),是一種包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),能夠平移且不變分類,因此,被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)”。
卷積神經(jīng)網(wǎng)絡(luò)可以進行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其中,隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計算量對格點化特征,例如像素和音頻進行學(xué)習(xí),有穩(wěn)定的效果而且對數(shù)據(jù)沒有額外的特征工程要求[5]。
卷積神經(jīng)網(wǎng)絡(luò)從結(jié)構(gòu)上分為輸入層和輸出層,其中,輸入層可以處理多維數(shù)據(jù)。很多研究一般都預(yù)先假設(shè)三維輸入數(shù)據(jù),即平面上的二維像素點和RGB通道。
輸入層又包含卷積層、池化層和全連接層[6]。其中,卷積層完成輸入數(shù)據(jù)的特征提取,產(chǎn)生的特征圖傳遞至池化層進行處理,卷積神經(jīng)網(wǎng)絡(luò)中的全連接層相當(dāng)于前饋神經(jīng)網(wǎng)絡(luò)中的隱含層,通常構(gòu)建在隱含層的最后,并只向其他全連接層傳遞信號。特征圖會在全連接層中失去三維結(jié)構(gòu),被展開為向量并通過激勵函數(shù)傳遞至下一層。
很多圖像應(yīng)用程序需要高分辨率圖像,即像素密度很高,可以提供更豐富的細節(jié)信息。提高分辨率,像素尺寸將減小,光通量將降低。因此,噪聲會嚴(yán)重影響圖像質(zhì)量。
像素尺寸的減小不是無限的,因此,增大芯片的尺寸是另外一種提高分辨率的方法,但效率較低,因為大容量耦合的耦合系數(shù)很難提高。另外,高精度光學(xué)和圖像傳感器一般價格高昂,因此,為了克服傳感器和光學(xué)制造技術(shù)的局限性,采用信號處理的方法,從多個低分辨率圖像獲取高分辨率,分辨率增強技術(shù)成為熱門研究領(lǐng)域,稱為“超分辨率”。
信號處理方法的優(yōu)勢是成本低廉,可充分利用現(xiàn)有的低分辨率圖像。在醫(yī)學(xué)成像、衛(wèi)星圖像和視頻領(lǐng)域存在大量的低分辨率圖像,因此,超分辨率圖像恢復(fù)技術(shù)大有可為。
在分辨率提高技術(shù)中,通過同一場景獲取多個低分辨率的細節(jié)圖像,每個細節(jié)圖像代表同一場景的不同側(cè)面。如果各個低分辨率圖像之間都有像素偏移,那么它們可提供不同的信息用于高分辨率圖像恢復(fù)。
實驗環(huán)境為NVIDIA云計算平臺,客戶端為Win‐dows10系統(tǒng),工具為Python-3.7.2-amd64,本團隊進行了大量的圖像訓(xùn)練,訓(xùn)練次數(shù)達到600 000次。在訓(xùn)練過程中,嘗試使用了線性插值以凸顯圖片特征,但是整個過程中需要大量的插值操作,對于經(jīng)過幾十上百萬次訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來說,幾乎不可能完成。
后來發(fā)現(xiàn),增加卷積層的數(shù)量,可以提高模型的性能,因此,實驗將卷積層數(shù)量設(shè)定為10。
本次實驗準(zhǔn)備了4張打碼的圖像,如圖3所示,經(jīng)過十幾個小時的訓(xùn)練模型建立,最終修復(fù)的圖像如圖4所示。
本次實驗同時進行了馬斯克去除測試,準(zhǔn)備了若干帶有馬賽克的圖像,訓(xùn)練模型建立后,測試結(jié)果如圖5所示(左邊為去除之前)。
圖3 打碼的圖像
圖4 修復(fù)的圖像
圖5 測試結(jié)果
文章探討了深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、超分辨率重建等相關(guān)理論,利用NVIDIA云計算平臺進行大量的深度學(xué)習(xí),建立修復(fù)模型,同時,通過增加卷積層數(shù)量,提升了學(xué)習(xí)訓(xùn)練效率;實驗對比可知,圖像修復(fù)達到了一定效果。但是,尚有許多不足和需要改進的地方,例如訓(xùn)練次數(shù)不夠。因此,圖像修復(fù)效果不盡如人意,這是以后繼續(xù)努力的方向。
(責(zé)任編輯 顧培培)