紀(jì)世雨, 龍靜
(解放軍總醫(yī)院第五醫(yī)學(xué)中心, 北京 100039)
深度學(xué)習(xí)已經(jīng)成為解決圖像類問題的最先進(jìn)的方法[1-2],基于深度學(xué)習(xí),人們可以對圖像進(jìn)行分類,找尋圖像之間的關(guān)聯(lián)[3],還可以通過深度學(xué)習(xí)對圖像處理,預(yù)測事件發(fā)生的概率[4]。在這些應(yīng)用領(lǐng)域,雖然深度學(xué)習(xí)展現(xiàn)了令人印象深刻的準(zhǔn)確性,但其結(jié)果也受到圖像特性(如對稱性和旋轉(zhuǎn))的嚴(yán)重影響[5]。為了解決以上問題,本研究提出了一種基于散射變換的旋轉(zhuǎn)不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在定向小波特征空間的基礎(chǔ)上,利用小波變換呈現(xiàn)的旋轉(zhuǎn)平移特性構(gòu)建神經(jīng)網(wǎng)絡(luò)。此外,該網(wǎng)絡(luò)能夠連續(xù)地將輸入的隨機(jī)旋轉(zhuǎn)映射到輸出的圓形空間,并在這個(gè)圓形空間輸出預(yù)測的角度。
大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)(CNN)都是為使用垂直方向進(jìn)行訓(xùn)練和分類而設(shè)計(jì)的[6-8]。如果旋轉(zhuǎn)圖像,它們的精度會(huì)大大降低。雖然有些數(shù)據(jù)圖像是自然垂直的,如圖1中的人臉,但另一些則呈現(xiàn)隨機(jī)的方向,如圖1中的食物跟浮游生物。
圖1 圖像方向示意圖
為了解決旋轉(zhuǎn)問題,目前大多數(shù)方法都是將旋轉(zhuǎn)樣本集成到訓(xùn)練數(shù)據(jù)集中,但仍然存在精度不高等問題。所以,本研究提出了一種基于小波散射的CNN網(wǎng)絡(luò),來解決這個(gè)問題。
小波散射網(wǎng)絡(luò)計(jì)算出一種對變形穩(wěn)定的平移協(xié)變圖像表示,并保留高頻信息用于分類。該網(wǎng)絡(luò)可提供第一層深卷積網(wǎng)絡(luò)[9]。在此使用散射變換得到一個(gè)定向小波特征空間,如圖2所示。這個(gè)空間中的平移與輸入的旋轉(zhuǎn)是協(xié)變的,如圖3(a)所示。
圖2 以字母X為例的散射變換的小波特征空間
利用文獻(xiàn)[9]中描述的Morlet小波的實(shí)部,可以將輸入變換成定向小波特征空間,如圖3(b)所示。該變換輸出一系列能量不同的小波樣本,與輸入中的邊共線的角度包含更高的能量。例如,字母X特征空間將包含在角度33°和146°上具有更多能量,而在0°上幾乎沒有能量的小波。此外,在定向小波特征空間中,角行程的距離與輸入邊緣之間的角的距離成正比。
定向小波特征空間的一個(gè)重要性質(zhì)是輸入的旋轉(zhuǎn)和特征空間上的平移之間的協(xié)方差。這個(gè)平移與角θ成正比。角階躍dθ可以通過將特征空間上的小波方向數(shù)(ns=16)除以變換的正則范圍(180°)來計(jì)算。此變換的另一個(gè)特性是能夠?qū)蓚€(gè)圖像邊緣之間的角度距離映射到角度采樣之間的線性距離。將樣本設(shè)為字母X,在筆劃之間包含112°和其他68°的角度。因此可以觀察到較大角度的角樣本之間的線性距離為10步,較小角度的角樣本之間的線性距離為6步。對于輸入圖像的每次旋轉(zhuǎn),此線性距離保持不變。通過將這些數(shù)字乘以dθ=11.25,可以恢復(fù)角距離。
雖然具有定向小波空間是重要的,但是圖像的掃描順序代表了實(shí)現(xiàn)其旋轉(zhuǎn)不變性和協(xié)方差的一個(gè)關(guān)鍵因素,因此小波角樣本的掃描方向應(yīng)與其所代表的方向相同。
為了實(shí)現(xiàn)這一點(diǎn),本研究設(shè)計(jì)了一個(gè)自定義的密集權(quán)重層,該層對特征空間樣本進(jìn)行重新索引。這個(gè)致密層形成一個(gè)雙線性的非旋轉(zhuǎn),利用前面步驟計(jì)算的定向小波值來補(bǔ)償小波中的角度。
這個(gè)自定義層的輸出結(jié)果是一個(gè)水平方向的小波特征空間,如圖3(c)所示,它包含每個(gè)角度樣本的未旋轉(zhuǎn)版本,并且與水平掃描順序正確匹配。
圖3 網(wǎng)絡(luò)架構(gòu)示意圖
由于旋轉(zhuǎn)平移協(xié)方差,小波特征空間包含了輸入以平移形式的所有可能旋轉(zhuǎn)。為了得到所有的平移,本研究首先將周期性填充應(yīng)用到定向小波特征空間。這種周期性填充的結(jié)果是具有包含所有可能的平移的形狀(14,14,31)的增強(qiáng)小波特征空間,如圖3(d)所示。
為了增強(qiáng)水平對齊的小波信息,辦研究應(yīng)用一個(gè)大小為(2,2,1)的最大池化層,如圖3(e)所示。這將減少下一層所需的參數(shù)數(shù)量。這個(gè)步驟的輸出是一個(gè)形狀為(7,7,31)的張量。
為了獲得每一個(gè)平移的信息,預(yù)測器需要跨越擴(kuò)展的小波特征空間。也就是說,將預(yù)測器應(yīng)用于前16個(gè)小波方向,然后向前移動(dòng)一步。利用這種方法,可以得到16個(gè)不同形狀的小波特征空間(7,7,16)。每個(gè)空間都包含一個(gè)特征空間的平移。
預(yù)測器的第一階段包括5個(gè)三維卷積,每個(gè)卷積具有核大小(2,2,4)和10個(gè)濾波器,如圖3(f)所示。這些卷積捕獲了小波方向之間的潛在特征。這些特征之一就是它們之間的距離。這個(gè)預(yù)測器應(yīng)用于包含轉(zhuǎn)換的每個(gè)空格。作為一個(gè)跨越它們的共享權(quán)重預(yù)測因子的重要性在于學(xué)習(xí)對應(yīng)于右上角位置的轉(zhuǎn)換特征。這種垂直位置的平移可以出現(xiàn)在任何平移空間上。這個(gè)階段的輸出是16個(gè)空格(2,2,1,10),包含每個(gè)轉(zhuǎn)換的信息。
預(yù)測器的第二階段是共享的密集層,如圖3(g)所示。這個(gè)共享的密集層將應(yīng)用于第一階段的每個(gè)輸出空間。這個(gè)密集層的輸出形狀等于類的數(shù)量。這一層將對每一個(gè)變換進(jìn)行預(yù)測,并將其存儲(chǔ)在張量中。輸出將是一個(gè)概率分布P,列數(shù)和類數(shù)一樣多,行數(shù)和變換數(shù)一樣多。
假設(shè)情況是ns=16和10類。共享的權(quán)重密度層對16個(gè)反式中的每一個(gè)進(jìn)行預(yù)測。每個(gè)預(yù)測都存儲(chǔ)在輸出張量上。這個(gè)張量的形狀是(16×10)。這個(gè)張量的10列將包含預(yù)測的類信息,16行包含角度信息如圖3(h)所示。之后,如圖3(i)所示,應(yīng)用于列的全局最大池化層,輸出最大概率類及其行索引。將行索引乘以dθ加上預(yù)測角度的常數(shù)。
整個(gè)算法框圖如圖4所示。
圖4 算法框圖
在應(yīng)用上述技術(shù)實(shí)現(xiàn)之后,使用MNIST數(shù)據(jù)集驗(yàn)證了本文所提出的體系結(jié)構(gòu)。首先用垂直定向的樣本進(jìn)行實(shí)驗(yàn),然后用隨機(jī)定向的樣本進(jìn)行實(shí)驗(yàn)。兩種方法都在隨機(jī)旋轉(zhuǎn)的樣本上進(jìn)行了驗(yàn)證。為了在MNIST數(shù)據(jù)集生成這種變化,對從MNIST-R獲得靈感的原始MNIST的每個(gè)樣本在[-90,90]之間實(shí)現(xiàn)了隨機(jī)旋轉(zhuǎn)。
在此使用二階散射變換M=2,如文獻(xiàn)[9]中所建議的,高階變換沒有用,因?yàn)樗鼈兊哪芰靠梢院雎圆挥?jì)。
scale參數(shù)固定在J=1上,因?yàn)檎谔幚?8×28像素大小的圖像,而因子2J使輸出圖像為14×14像素,進(jìn)一步縮放該參數(shù)將顯著減少網(wǎng)絡(luò)可用的信息。最后一個(gè)參數(shù)固定在L=16,允許在-90°~90°范圍內(nèi)有16個(gè)角度樣本。
旋轉(zhuǎn)不變性通過體系結(jié)構(gòu)在輸入旋轉(zhuǎn)的情況下正確預(yù)測類的能力得到驗(yàn)證。本研究通過使用MNIST-R和原始MNIST訓(xùn)練網(wǎng)絡(luò)來測試此屬性,結(jié)果如表1、表2所示。兩個(gè)測試都在隨機(jī)旋轉(zhuǎn)的數(shù)據(jù)集MNIST-R上得到了驗(yàn)證。
表1 基于MNIST-R數(shù)據(jù)集的結(jié)果
表2 基于MNIST數(shù)據(jù)集的結(jié)果
可以在表1中觀察到,作為在網(wǎng)絡(luò)上保持協(xié)方差的代價(jià),所以在不變性上損失了一些精度。然而,仍然是在比較的這些方法中錯(cuò)誤率是較低的。
表2表明,本研究的方法在預(yù)測階段僅使用7 022個(gè)可訓(xùn)練參數(shù)時(shí),誤差率達(dá)到了最低水平。值得注意的是,RP_RF_1有130 050個(gè)參數(shù),RP_RF_1_32包含超過100萬個(gè)可訓(xùn)練參數(shù)。
由于數(shù)據(jù)的變化,預(yù)測器能夠容忍的微小變化。因此,它將輸出對應(yīng)于θ的行的最大概率和前后的非零概率(對應(yīng)于θ±δθ)。這允許預(yù)測器將輸入的隨機(jī)旋轉(zhuǎn)連續(xù)映射到預(yù)測角度的圓形空間。本研究通過以dθ=11.25°的步驟將輸入樣本從-90°旋轉(zhuǎn)到78.75°,并繪制由輸出預(yù)測行表示的輸出圓形空間來對此進(jìn)行測試,如圖5所示。
圖5 預(yù)測的旋轉(zhuǎn)角度映射到連續(xù)的圓形空間
旋轉(zhuǎn)映射到前面描述的輸出張量的行。輸出表示了一種自組織行為,即將連續(xù)的角度值映射為表中的連續(xù)行。這是由于上θ±δθ的非零類概率和θ上的最大概率以及上一個(gè)和下一個(gè)角度上的較低概率造成的。當(dāng)絕對角度的參考未知時(shí)(如,對于浮游生物上-右位置不存在),本網(wǎng)絡(luò)會(huì)將其中一個(gè)旋轉(zhuǎn)值映射到線性空間的一個(gè)點(diǎn),然后將連續(xù)的角度做線性映射。
線性輸出空間包含輸入的角度信息。當(dāng)使用垂直定向數(shù)據(jù)集和隨機(jī)旋轉(zhuǎn)數(shù)據(jù)集訓(xùn)練時(shí),該空間具有相同的特性和行為。這將導(dǎo)致從連續(xù)角度生成線性關(guān)系,而角度旋轉(zhuǎn)輸入空間上不存在任何參考值。
本研究證明了僅用垂直樣本訓(xùn)練網(wǎng)絡(luò)可以獲得旋轉(zhuǎn)不變性的能力。該網(wǎng)絡(luò)能夠預(yù)測訓(xùn)練階段看不到的角度。此外,當(dāng)輸入數(shù)據(jù)自然地是隨機(jī)的時(shí),體系結(jié)構(gòu)能夠推斷出樣本的方向,并在它們之間產(chǎn)生線性關(guān)系。這使得該體系結(jié)構(gòu)的進(jìn)一步應(yīng)用能夠自動(dòng)對齊隨機(jī)定向的數(shù)據(jù)集。當(dāng)使用一個(gè)由散射變換計(jì)算的特征時(shí),達(dá)到了最低的錯(cuò)誤率。期望網(wǎng)絡(luò)中的輸入圖像比本文提出的要大,在更大的圖像中的測試表明,由于掃描和預(yù)測包含在特征空間中的每一個(gè)轉(zhuǎn)換,導(dǎo)致時(shí)間增加。
降低錯(cuò)誤率的下一步是用一個(gè)可訓(xùn)練的特征階段代替散射變換,該階段預(yù)先服務(wù)于這個(gè)旋轉(zhuǎn)變換屬性,并在其他數(shù)據(jù)集(如浮游生物、食物或人臉)上來驗(yàn)證它。