杜 炎,呂良福,焦一辰
(天津大學(xué)數(shù)學(xué)學(xué)院,天津 300350)
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)的發(fā)展大大提高了圖像分類(lèi)的準(zhǔn)確性與有效性。然而,這種方法需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)不足會(huì)導(dǎo)致過(guò)擬合、泛化差等一系列問(wèn)題。為了解決這個(gè)缺陷,只需少量標(biāo)記數(shù)據(jù)的小樣本學(xué)習(xí)應(yīng)運(yùn)而生[1]。
對(duì)于一個(gè)新事物,人類(lèi)只需要從簡(jiǎn)單的幾張圖片就可以認(rèn)識(shí)它,小樣本學(xué)習(xí)正是模仿這種能力,使得模型在學(xué)習(xí)一定量的數(shù)據(jù)后,只需要少量的樣本就可以對(duì)新的圖像進(jìn)行正確分類(lèi)。一個(gè)簡(jiǎn)單的小樣本學(xué)習(xí)方法是使用圖像增強(qiáng)的手段[2-3],通過(guò)對(duì)一張圖片進(jìn)行旋轉(zhuǎn)、放縮等操作來(lái)擴(kuò)充數(shù)據(jù)集,再利用擴(kuò)充后的數(shù)據(jù)集訓(xùn)練模型。元學(xué)習(xí)的引入加速了小樣本學(xué)習(xí)的研究進(jìn)度,它將幾張圖片劃分為一個(gè)任務(wù),利用一個(gè)個(gè)任務(wù)進(jìn)行模型訓(xùn)練,能夠有效地防止小樣本學(xué)習(xí)因數(shù)據(jù)過(guò)少而產(chǎn)生過(guò)擬合。早期小樣本學(xué)習(xí)在圖像分類(lèi)中的研究大都是在模型結(jié)構(gòu)、度量函數(shù)的基礎(chǔ)上展開(kāi)的,比較典型的有模型無(wú)關(guān)的元學(xué)習(xí)(Model Agnostic Meta Learning,MAML)方法[4]通過(guò)調(diào)整梯度學(xué)習(xí)規(guī)則來(lái)進(jìn)行模型參數(shù)更新,匹配網(wǎng)絡(luò)(Matching Network,MN)[5]利用余弦相似度度量目標(biāo)圖像與各類(lèi)圖像的相似性進(jìn)行分類(lèi),以及原型網(wǎng)絡(luò)(Prototypical Network,PN)[6]通過(guò)度量目標(biāo)圖像到各個(gè)類(lèi)別原型的歐氏距離來(lái)進(jìn)行分類(lèi)等方法。后期比較新穎的解決小樣本學(xué)習(xí)方法也是如此,如利用語(yǔ)義信息進(jìn)行圖像分類(lèi)[7]、圖神經(jīng)網(wǎng)絡(luò)方法[8],還有一些類(lèi)似于多模型融合方法[9]等。
這些方法無(wú)論從理論上還是數(shù)值實(shí)驗(yàn)方面,均取得了不錯(cuò)的效果;但它們?nèi)匀缓鲆暳藬?shù)據(jù)集具有模糊性的缺陷,這會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響。本文受深度模糊神經(jīng)網(wǎng)絡(luò)[10]的啟發(fā),引入模糊神經(jīng)網(wǎng)絡(luò)作輔助嵌入來(lái)降低數(shù)據(jù)的模糊性和不確定性。模糊技術(shù)可以模擬人類(lèi)的邏輯推理,執(zhí)行判斷和決策功能,模糊神經(jīng)網(wǎng)絡(luò)在模糊的技術(shù)上增加學(xué)習(xí)能力,能夠有效降低數(shù)據(jù)集中模糊和不確定的部分。深度模糊神經(jīng)網(wǎng)絡(luò)[10]一文初次將模糊技術(shù)引入到深度學(xué)習(xí),文中將模糊神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單的全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,驗(yàn)證了模糊神經(jīng)網(wǎng)絡(luò)確實(shí)對(duì)降低數(shù)據(jù)的不確定性、模糊性有一定幫助。本文考慮到在小樣本分類(lèi)任務(wù)中也存在著數(shù)據(jù)模糊的情況,但文獻(xiàn)[10]中模型忽視了圖像的空間結(jié)構(gòu)信息,且不適用于小樣本分類(lèi),故嘗試將其模糊神經(jīng)網(wǎng)絡(luò)部分抽離引入到原型網(wǎng)絡(luò)中,作為輔助特征提取器,通過(guò)對(duì)數(shù)據(jù)集中的模糊數(shù)據(jù)進(jìn)行邏輯推理來(lái)提升小樣本分類(lèi)任務(wù)的精度。本文將模糊推理與神經(jīng)網(wǎng)絡(luò)進(jìn)行知識(shí)融合得到了新的特征提取器如圖1 所示。對(duì)于輸入圖像,模型從模糊部分(方形部分)、神經(jīng)網(wǎng)絡(luò)部分(圓形部分)獲取圖像知識(shí),形成最終的特征向量;再利用得到的特征向量,應(yīng)用原型網(wǎng)絡(luò)來(lái)對(duì)圖像進(jìn)行分類(lèi)。在這種機(jī)制下,本文模型可以利用模糊推理和神經(jīng)網(wǎng)路各自的優(yōu)勢(shì)來(lái)獲取最佳性能。
圖1 帶有模糊推理的特征提取器Fig.1 Feature extractor with fuzzy reasoning
本文的主要工作總結(jié)如下:1)將模糊神經(jīng)網(wǎng)絡(luò)系統(tǒng)應(yīng)用于小樣本學(xué)習(xí)以獲取圖像的模糊知識(shí),相比傳統(tǒng)CNN 結(jié)構(gòu),帶有模糊推理的模型效果更優(yōu);2)本文方法在基于度量的小樣本學(xué)習(xí)方法上取得了很大的性能提升,如原型網(wǎng)絡(luò);3)本文模型僅在特征提取階段做出改進(jìn),極易推廣,可以推廣到其他相關(guān)任務(wù)中;4)在小樣本分類(lèi)的多個(gè)數(shù)據(jù)集上驗(yàn)證了模型的有效性。
小樣本學(xué)習(xí)的提出,成功克服了深度學(xué)習(xí)依靠大量標(biāo)簽數(shù)據(jù)的缺陷,元學(xué)習(xí)的引入也防止小樣本學(xué)習(xí)因數(shù)據(jù)過(guò)少而過(guò)擬合。早期的小樣本學(xué)習(xí)主要使用基于模型、基于度量等方法。其中基于模型的方法主要是調(diào)整模型的結(jié)構(gòu)來(lái)達(dá)到快速更新參數(shù)的目的。例如,元網(wǎng)絡(luò)(Meta Networks,MN)[11]跨任務(wù)學(xué)習(xí)元級(jí)知識(shí),并通過(guò)快速參數(shù)化來(lái)快速泛化偏差。模型包含兩個(gè)學(xué)習(xí)器,分別為基礎(chǔ)學(xué)習(xí)器和元學(xué)習(xí)器。元學(xué)習(xí)器用于學(xué)習(xí)任務(wù)之間的泛化信息,并使用記憶機(jī)制保存這種信息;基礎(chǔ)學(xué)習(xí)器用于快速適應(yīng)新的任務(wù),并和元學(xué)習(xí)器交互產(chǎn)生預(yù)測(cè)輸出。MAML方法通過(guò)調(diào)整梯度學(xué)習(xí)規(guī)則的方式來(lái)改進(jìn)模型。該方法在支撐集上訓(xùn)練一組初始化參數(shù),更新方式為然后在初始參數(shù)的基礎(chǔ)上利用查詢(xún)集進(jìn)行一步或多步的梯度調(diào)整,更新方式為θ=θ-來(lái)達(dá)到僅用少量數(shù)據(jù)就能快速適應(yīng)新任務(wù)的目的。該方法模型簡(jiǎn)單有效,同時(shí)能夠與任何經(jīng)過(guò)梯度下降訓(xùn)練的模型兼容,并且適用于各種不同的學(xué)習(xí)問(wèn)題,包括分類(lèi)、回歸和強(qiáng)化學(xué)習(xí),因此不少學(xué)者對(duì)其進(jìn)行了擴(kuò)展,如任務(wù)無(wú)關(guān)的元學(xué)習(xí)(Task Agnostic Meta Learning,TAML)[12]、元隨機(jī)梯度下降(Meta-Stochastic Gradient Descent,M-SGD)[13]等方法。
基于度量的方法主要思想是:若一個(gè)模型在某一域上具備了度量?jī)蓮垐D像相似度的能力,那么給定一張目標(biāo)域的樣本圖像,就可以找到與它相似度最高的帶標(biāo)簽實(shí)例。它采用一種簡(jiǎn)單的架構(gòu)來(lái)學(xué)習(xí)深度嵌入空間進(jìn)行知識(shí)傳遞,目標(biāo)是學(xué)習(xí)一個(gè)從圖像到嵌入空間的映射,在該空間中,同一類(lèi)圖像的類(lèi)內(nèi)距離最小,而不同類(lèi)圖像的類(lèi)間距離最大?;诙攘繉W(xué)習(xí)的方法主要依賴(lài)于學(xué)習(xí)一個(gè)信息相似性度量,這一點(diǎn)已被有代表性的工作證明了[14-15]。其中,匹配網(wǎng)絡(luò)利用神經(jīng)網(wǎng)絡(luò)作特征提取器提取圖像特征,并利用余弦相似度來(lái)做分類(lèi)的度量標(biāo)準(zhǔn)。在源域上將少量帶有標(biāo)簽的圖片和大量無(wú)標(biāo)簽的圖片同時(shí)進(jìn)行訓(xùn)練,通過(guò)無(wú)標(biāo)簽?zāi)繕?biāo)分類(lèi)的準(zhǔn)確率來(lái)輔助特征提取器進(jìn)行訓(xùn)練。這種類(lèi)似于元學(xué)習(xí)的方法,可以很自然地過(guò)渡到目標(biāo)域。同時(shí),為了更好地挖掘訓(xùn)練過(guò)程中的完整信息,匹配網(wǎng)絡(luò)利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)來(lái)幫助模型學(xué)習(xí)注意力機(jī)制,從而使得度量學(xué)習(xí)方法更加魯棒。PN 借助卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,獲取圖像的特征向量,利用歐氏空間的原型損失函數(shù)學(xué)習(xí)一個(gè)度量空間,在這個(gè)空間中,可以通過(guò)計(jì)算到每個(gè)類(lèi)別原型表示的歐氏距離來(lái)進(jìn)行分類(lèi)。由于這種方法的簡(jiǎn)單性和良好的性能,許多擴(kuò)展改進(jìn)方法被提出。例如,半監(jiān)督小樣本學(xué)習(xí)[16]方法證明利用未標(biāo)記樣本比純粹監(jiān)督的原型網(wǎng)絡(luò)效果更好;任務(wù)自適應(yīng)度量算法(Task Dependent Adaptive Metric,TDAM)[17]使用度量縮放方法來(lái)改變小樣本算法的參數(shù)更新方式。
隨著小樣本學(xué)習(xí)的不斷研究與發(fā)展,新的方法逐漸被提出,如基于語(yǔ)義和基于圖神經(jīng)網(wǎng)絡(luò)等。文獻(xiàn)[18-19]中指出,結(jié)合附加語(yǔ)義信息可以對(duì)小樣本學(xué)習(xí)進(jìn)一步改進(jìn)。在文獻(xiàn)[20-21]中結(jié)合圖神經(jīng)網(wǎng)絡(luò)的相關(guān)知識(shí)對(duì)小樣本學(xué)習(xí)進(jìn)行優(yōu)化。此外,還有一些其他研究也為小樣本學(xué)習(xí)的發(fā)展做出了重大貢獻(xiàn),如在文獻(xiàn)[22]中采用數(shù)據(jù)增強(qiáng)的方法來(lái)處理小樣本學(xué)習(xí)任務(wù)等。
考慮到系統(tǒng)的復(fù)雜性與所需要的精確性之間的矛盾,且一般復(fù)雜系統(tǒng)所具有的不精確性、不確定性,模糊邏輯和神經(jīng)網(wǎng)絡(luò)作為兩種基本方法,各有優(yōu)缺點(diǎn)。神經(jīng)網(wǎng)絡(luò)具有適應(yīng)性學(xué)習(xí)的優(yōu)勢(shì),模糊理論則具有模擬人的邏輯推理的能力,模糊深度學(xué)習(xí)結(jié)合二者各自的優(yōu)勢(shì)具有邏輯推理和自適應(yīng)性學(xué)習(xí)能力[23-25],以及模糊神經(jīng)網(wǎng)絡(luò)本身具有可解釋性[26-28]。
模糊集[29]的概念以及隸屬函數(shù)的提出,為處理具有模糊性和不確定性的信息提供了理論基礎(chǔ)。模糊理論在模糊邏輯[30]、模糊推理[31]等相關(guān)領(lǐng)域得到了廣泛的應(yīng)用。隨后,人們逐漸將模糊邏輯同人工神經(jīng)網(wǎng)絡(luò)相結(jié)合形成模糊神經(jīng)網(wǎng)絡(luò),改進(jìn)了模糊邏輯不能自適應(yīng)學(xué)習(xí)的缺陷。Bodyanskiy等[23]提出了一種基于廣義模糊神經(jīng)元的自編碼器,以及它的快速學(xué)習(xí)算法。該編碼器同人工神經(jīng)網(wǎng)絡(luò)類(lèi)似,采用多維非線性突觸相連接,在每個(gè)突觸內(nèi)部采用模糊推理。整個(gè)系統(tǒng)可以作為深度學(xué)習(xí)系統(tǒng)的一部分,具有學(xué)習(xí)速度快、調(diào)整參數(shù)少的特點(diǎn)。深度層疊神經(jīng)網(wǎng)絡(luò)(Deep Cascade Neural Network,DCNN)結(jié)構(gòu)[24]是對(duì)模糊神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的一種擴(kuò)展,前一個(gè)輸入信號(hào)在神經(jīng)元中運(yùn)算同時(shí),將結(jié)果傳遞給后一個(gè)神經(jīng)元運(yùn)算。這種結(jié)構(gòu)較為簡(jiǎn)單,并且具有處理速度快、近似性好的特性。另外帶有輔助支持向量機(jī)(Support Vector Machine,SVM)級(jí)聯(lián)的深度模糊規(guī)則圖像分類(lèi)器[25]指出當(dāng)主分類(lèi)器為單個(gè)圖像生成兩個(gè)高度可信的標(biāo)簽時(shí),基于SVM 的輔助器起到了沖突解決器的作用,該方法在手寫(xiě)字識(shí)別的問(wèn)題上具有較高的精度。
傳統(tǒng)的深度學(xué)習(xí)模型結(jié)構(gòu)常被看作一個(gè)黑盒子,處理過(guò)程不透明,于是有一大批學(xué)者嘗試?yán)媚:窠?jīng)網(wǎng)絡(luò)的邏輯推理結(jié)構(gòu)來(lái)解決神經(jīng)網(wǎng)絡(luò)不能夠解釋的性能。Yeganejou等[26]建議通過(guò)將深度神經(jīng)網(wǎng)絡(luò)與模糊邏輯相結(jié)合來(lái)創(chuàng)建更易于理解的深層網(wǎng)絡(luò),提出了一種可解釋的深度卷積模糊聚類(lèi)器。該聚類(lèi)器首先使用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,然后在得到的特征空間中進(jìn)行模糊聚類(lèi),之后再使用Rocchio的算法對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)。Xi等[27]提出了一種帶有模糊邏輯規(guī)則的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)是通過(guò)創(chuàng)建一個(gè)神經(jīng)模糊分類(lèi)器的分類(lèi)層,并將其集成到深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中來(lái)實(shí)現(xiàn)的。這里的分類(lèi)層是利用徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。通過(guò)這種結(jié)構(gòu),可以直接從深度學(xué)習(xí)結(jié)構(gòu)中提取基于語(yǔ)言模糊邏輯的規(guī)則來(lái)提高整個(gè)系統(tǒng)的可解釋性。
此外,現(xiàn)實(shí)世界中的數(shù)據(jù)往往存在一定的模糊性和不確定性,而傳統(tǒng)的深度學(xué)習(xí)模型是完全確定的,不能解決數(shù)據(jù)的模糊性和不確定性。這一問(wèn)題給數(shù)據(jù)的理解和分類(lèi)任務(wù)帶來(lái)了極大的挑戰(zhàn)。Deng 等[10]為降低數(shù)據(jù)的不確定性,提出了一種將模糊學(xué)習(xí)的概念引入到深度學(xué)習(xí)中來(lái)克服固定表示法缺陷的模糊系統(tǒng)。該系統(tǒng)的主體是一個(gè)深層神經(jīng)網(wǎng)絡(luò),它從模糊和神經(jīng)表示兩方面獲取信息,然后,將這兩種不同的信息融合在一起,形成最終的分類(lèi)表示。區(qū)間2型直覺(jué)模糊LSTM 神經(jīng)網(wǎng)絡(luò)[32]一文提出了一種基于長(zhǎng)短期記憶機(jī)制的區(qū)間型直覺(jué)模糊神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)將長(zhǎng)期-短期機(jī)制引入模糊神經(jīng)網(wǎng)絡(luò),有效地提高了長(zhǎng)期知識(shí)的記憶能力。
不同于上述框架,本文模型利用模糊神經(jīng)網(wǎng)絡(luò)能夠降低數(shù)據(jù)模糊性和不確定性的特性,將其應(yīng)用于小樣本學(xué)習(xí)中來(lái)對(duì)小樣本現(xiàn)有學(xué)習(xí)方法進(jìn)行改進(jìn)。其次,考慮到原型網(wǎng)絡(luò)較為基礎(chǔ),比較簡(jiǎn)單有效,本文將模糊知識(shí)應(yīng)用于原型網(wǎng)絡(luò)使得模型從模糊神經(jīng)網(wǎng)絡(luò)和原型網(wǎng)絡(luò)兩個(gè)方面獲取知識(shí),通過(guò)知識(shí)融合手段得到圖像最終特征,從而進(jìn)行分類(lèi)。
小樣本學(xué)習(xí)中,將數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)}分成兩個(gè)部分,分別為模型訓(xùn)練數(shù)據(jù)集Dtrain和模型測(cè)試數(shù)據(jù)Dtest,其小樣本學(xué)習(xí)每次的訓(xùn)練方式為N-way,K-shot,即從訓(xùn)練集Dtrain中隨機(jī)抽取N個(gè)類(lèi)別,每個(gè)類(lèi)別包含K個(gè)樣本作為支撐集S,在剩余示例中抽取查詢(xún)集Q。小樣本學(xué)習(xí)就是在給定的支撐集下,最小化查詢(xún)集中示例的預(yù)測(cè)損失。
考慮到小樣本學(xué)習(xí)的基本模型中,原型網(wǎng)絡(luò)較為簡(jiǎn)單有效,本文特將模型建立在它之上,通過(guò)實(shí)驗(yàn)證明模型的有效性。
其中:Si為支撐集S中的第i個(gè)類(lèi)別。通過(guò)計(jì)算查詢(xún)集中的樣本點(diǎn)到各個(gè)類(lèi)別原型pi歐氏距離的softmax 來(lái)預(yù)測(cè)圖片的標(biāo)簽。其查詢(xún)點(diǎn)的類(lèi)別分布為:
這里的嵌入函數(shù)fθ(·)就是本文需要學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
現(xiàn)實(shí)生活中的數(shù)據(jù)往往具有一定的模糊性和不確定性,傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)是完全確定的,不能降低數(shù)據(jù)的不確定性,模糊神經(jīng)網(wǎng)絡(luò)具有人腦的邏輯推理能力,本文嘗試引入模糊神經(jīng)網(wǎng)絡(luò)來(lái)解決小樣本學(xué)習(xí)中深度神經(jīng)網(wǎng)絡(luò)完全固定的缺陷。
本文所提模型采用基于度量的小樣本學(xué)習(xí)方法,分別通過(guò)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和模糊神經(jīng)網(wǎng)絡(luò)來(lái)獲得各個(gè)圖像的特征向量,然后利用這些特征向量計(jì)算各個(gè)類(lèi)別的原型表示,通過(guò)度量查詢(xún)集中的樣本到各個(gè)類(lèi)別原型的歐氏距離來(lái)獲取待查詢(xún)點(diǎn)的分布狀態(tài)。
不同于其他小樣本學(xué)習(xí)方法,本文在獲取圖像原型時(shí)分為模糊神經(jīng)網(wǎng)絡(luò)模塊、深度神經(jīng)網(wǎng)絡(luò)模塊和知識(shí)融合模塊三個(gè)部分。對(duì)于模糊神經(jīng)網(wǎng)絡(luò)模塊,為了獲取模糊神經(jīng)網(wǎng)絡(luò)的輸入特征,先將圖片通過(guò)函數(shù),該函數(shù)是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要負(fù)責(zé)將圖片映射為特征。映射后的特征被傳遞到模糊神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)有三個(gè)網(wǎng)絡(luò)層,分別是輸入層、隸屬函數(shù)層和模糊規(guī)則層,其具體結(jié)構(gòu)如圖2。輸入層接收特征并將其傳遞到隸屬函數(shù)層,它的每個(gè)節(jié)點(diǎn)被分配給多個(gè)帶有參數(shù)c和σ的隸屬函數(shù)。這里,輸入的是n維特征,用xi來(lái)表示輸入特征的第i個(gè)節(jié)點(diǎn)。隸屬函數(shù)計(jì)算的是該節(jié)點(diǎn)屬于某個(gè)模糊集的程度,其中第m個(gè)模糊神經(jīng)元μm(·):R→[0,1]將輸入的第i個(gè)節(jié)點(diǎn)xi的模糊度映射為:
這里選擇的是更為廣泛的高斯隸屬函數(shù),參數(shù)c和σ2分別為均值和方差。之后,在模糊規(guī)則層執(zhí)行一系列的“and”模糊邏輯運(yùn)算,運(yùn)算輸出定義如下:
該部分的輸出為模糊度??紤]到原型網(wǎng)絡(luò)的特征原型是一個(gè)高維向量,本文用一個(gè)映射將模糊部分輸出與深度學(xué)習(xí)部分對(duì)齊。對(duì)于整個(gè)模糊神經(jīng)網(wǎng)絡(luò)用嵌入函數(shù)來(lái)表示(見(jiàn)圖2)。
圖2 模糊神經(jīng)網(wǎng)絡(luò)模塊Fig.2 Fuzzy neural network module
本文在引入模糊神經(jīng)網(wǎng)絡(luò)的同時(shí)也保留了傳統(tǒng)原型網(wǎng)絡(luò)的優(yōu)勢(shì)部分,即圖像同時(shí)輸入到深度神經(jīng)網(wǎng)絡(luò)部分。在這里,通過(guò)帶有參數(shù)θ1的嵌入函數(shù)f將圖像映射為特征向量。
在知識(shí)融合部分,考慮到拼接組合將導(dǎo)致維度過(guò)大,會(huì)增大損失,且嘗試后并沒(méi)有較好的效果,本文采用文獻(xiàn)[19]中介紹的融合方法,即利用線性組合的方式將模糊神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)各自提取的知識(shí)進(jìn)行整合。通過(guò)引入可學(xué)習(xí)的λ,模型可以自適應(yīng)地學(xué)習(xí)模糊神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)各自所學(xué)習(xí)到特征的比重。對(duì)于含模糊信息較多的數(shù)據(jù)集,模糊神經(jīng)網(wǎng)絡(luò)將分配到更大的權(quán)重。
proθ(·)為最終的原型嵌入函數(shù),參數(shù)θ={θ1,φ1,φ2}。對(duì)于每個(gè)原型為其嵌入支持點(diǎn)所屬類(lèi)別的均值向量:
訓(xùn)練過(guò)程同傳統(tǒng)的原型網(wǎng)絡(luò)類(lèi)似,根據(jù)查詢(xún)集中的點(diǎn)到嵌入空間中原型的歐氏距離上的softmax,來(lái)生成查詢(xún)點(diǎn)x在各個(gè)類(lèi)上的分布:
其中:φ={θ1,φ1,φ2,λ}。損失函數(shù)部分選取分類(lèi)任務(wù)中常用的負(fù)對(duì)數(shù)似然函數(shù),即:
模型通過(guò)Adam 優(yōu)化器來(lái)最小化該損失。其中,對(duì)于一個(gè)訓(xùn)練批次的損失計(jì)算如下:
本文利用幾個(gè)廣泛使用在小樣本學(xué)習(xí)中的數(shù)據(jù)集Omniglot[16]、miniImageNet[5]進(jìn)行實(shí)驗(yàn),并分別同原型網(wǎng)絡(luò)和目前一些主流的小樣本學(xué)習(xí)方法進(jìn)行比較來(lái)驗(yàn)證模型的有效性。
Omniglot 包含50 個(gè)字母,由1 623 個(gè)手寫(xiě)字符構(gòu)成,其中每個(gè)字符都有20 個(gè)不同的樣本。為了同傳統(tǒng)的原型網(wǎng)絡(luò)進(jìn)行比較,本文采用類(lèi)似的處理方式,先將灰度圖像大小調(diào)整為28×28,同樣以90°旋轉(zhuǎn)圖像來(lái)增加字符類(lèi)。數(shù)據(jù)集的分割也使用1 200個(gè)字符和旋轉(zhuǎn)后的字符類(lèi),共4 800個(gè)類(lèi)進(jìn)行訓(xùn)練,余下的類(lèi)連同旋轉(zhuǎn)后的字符類(lèi)用于測(cè)試。
miniImageNet 有100 個(gè)類(lèi),它的每個(gè)類(lèi)中包含有600 張84×84圖片,共計(jì)60 000張圖片。其中64個(gè)類(lèi)作為訓(xùn)練集,16個(gè)類(lèi)作為驗(yàn)證集,20 個(gè)類(lèi)作為測(cè)試集。為了更好地同傳統(tǒng)的原型網(wǎng)絡(luò)進(jìn)行比較,本文在該訓(xùn)練集下同樣嘗試30-way 1-shot和20-way 5-shot兩種訓(xùn)練模式,其對(duì)應(yīng)的查詢(xún)樣本數(shù)均為15。
本文模型主要有三個(gè)模塊,模糊神經(jīng)網(wǎng)絡(luò)部分完全是由式(3)、(4)獲取,如圖2 所示,先將其輸出維度通過(guò)一個(gè)線性層進(jìn)行擴(kuò)充,同深度神經(jīng)網(wǎng)絡(luò)對(duì)齊。對(duì)于深度神經(jīng)網(wǎng)絡(luò)部分,選擇深層的網(wǎng)絡(luò)骨干更有利于模型效果的提升,但考慮到實(shí)驗(yàn)對(duì)比的公正性,仍然采用原型網(wǎng)絡(luò)中的四個(gè)卷積塊Conv4作為本文的網(wǎng)絡(luò)骨干。
模糊神經(jīng)網(wǎng)絡(luò)前的淺層卷積網(wǎng)絡(luò)模塊則是完全使用文獻(xiàn)[8]中的嵌入架構(gòu),該架構(gòu)由四個(gè)卷積層和一個(gè)全連接層組成,其具體細(xì)節(jié)在兩個(gè)數(shù)據(jù)集上略有不同,但最終都得到120維的嵌入。這種輕量級(jí)架構(gòu)能夠突出模型的簡(jiǎn)潔性。
分別在Omniglot、miniImageNet 兩個(gè)數(shù)據(jù)集上對(duì)本文算法模型同原型網(wǎng)絡(luò)PN、匹配網(wǎng)絡(luò)MN[5]、模型無(wú)關(guān)的元學(xué)習(xí)MAML、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)、邊緣標(biāo)記圖神經(jīng)網(wǎng)絡(luò)(Edge-Labeling Graph Neural Network,E-LGNN)[33]等目前主流的小樣本學(xué)習(xí)方法進(jìn)行比較。在Omniglot數(shù)據(jù)集上設(shè)置了5-way和20-way兩種實(shí)驗(yàn)設(shè)置,在miniImageNet上設(shè)置了5-way 一種實(shí)驗(yàn)設(shè)置,實(shí)驗(yàn)樣本數(shù)則是采用小樣本實(shí)驗(yàn)常用的1-shot和5-shot。由于原型網(wǎng)絡(luò)在miniImageNet上的實(shí)驗(yàn)是采用20-way 5-shot和30-way 1-shot兩種實(shí)驗(yàn)設(shè)置,本文也對(duì)這兩種設(shè)置進(jìn)行了實(shí)驗(yàn),同原型網(wǎng)絡(luò)單獨(dú)對(duì)比。在其訓(xùn)練過(guò)程中,設(shè)置初始學(xué)習(xí)率為0.001,并且每30個(gè)批次衰減到原來(lái)的1/10,總計(jì)訓(xùn)練300 個(gè)批次??紤]到文獻(xiàn)[34]統(tǒng)一小樣本的查詢(xún)樣本數(shù)為16,文中也采用相同的實(shí)驗(yàn)設(shè)置。在Omniglot 數(shù)據(jù)集上,本文把原型網(wǎng)絡(luò)中訓(xùn)練類(lèi)數(shù)為60 改為標(biāo)準(zhǔn)的小樣本分類(lèi),設(shè)置最大批次數(shù)為1 000,且訓(xùn)練200個(gè)批次后在驗(yàn)證集上性能沒(méi)有提升則終止訓(xùn)練。訓(xùn)練過(guò)程中設(shè)置初始學(xué)習(xí)率為0.001 并且每200 個(gè)批次衰減為原來(lái)的1/10。另外,在所有實(shí)驗(yàn)場(chǎng)景中將模糊神經(jīng)網(wǎng)絡(luò)中的參數(shù)c按照均值為0.15、方差為0.05 的正態(tài)分布初始化,參數(shù)σ按照均值為1、方差為0.05的正態(tài)分布初始化。
Omniglot 分類(lèi):原型網(wǎng)絡(luò)對(duì)Omniglot 分類(lèi)在訓(xùn)練時(shí)每次包含60個(gè)類(lèi),每個(gè)類(lèi)有5個(gè)查詢(xún)樣本,本文對(duì)其訓(xùn)練規(guī)則進(jìn)行了簡(jiǎn)單修改,采用標(biāo)準(zhǔn)的小樣本分類(lèi),即每次訓(xùn)練包含5 個(gè)類(lèi)和20個(gè)類(lèi),其中每個(gè)類(lèi)包含16個(gè)查詢(xún)樣本。文中收集了近幾年小樣本學(xué)習(xí)先進(jìn)模型在Omniglot 上的結(jié)果,并同本文算法模型進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表1。盡管本文模型相比原型網(wǎng)絡(luò)有一定的進(jìn)步,但同其他先進(jìn)模型仍有一些差距。
表1 Omniglot上小樣本學(xué)習(xí)分類(lèi)精度對(duì) 單位:%Tab.1 Comparison of classification accuracy of few-shot learning on Omniglot unit:%
miniImageNet 分類(lèi):原型網(wǎng)絡(luò)在每次訓(xùn)練中使用30-way 1-shot和20-way 5-shot兩種方式,其對(duì)應(yīng)的測(cè)試樣本為每類(lèi)15張。本文同樣采用這種實(shí)驗(yàn)設(shè)置和原型網(wǎng)絡(luò)進(jìn)行對(duì)比(具體結(jié)果見(jiàn)表3),由于實(shí)驗(yàn)條件等一些其他原因,這里同原型網(wǎng)絡(luò)文章中的結(jié)果有一定的差異,從表中可以看出模糊原型模型無(wú)論是在哪種實(shí)驗(yàn)設(shè)置下都領(lǐng)先于原型網(wǎng)絡(luò)。不僅如此,本文還進(jìn)行了5-way 1-shot 分類(lèi)和5-way 5-shot 分類(lèi)的實(shí)驗(yàn)設(shè)置,將它同目前一些主流的小樣本學(xué)習(xí)方法進(jìn)行了對(duì)比,具體結(jié)果見(jiàn)表2。在5-shot 下,相較于這些主流的方法,本文模型效果更好,實(shí)驗(yàn)結(jié)果比較先進(jìn)的E-LGNN 仍高出1 個(gè)百分點(diǎn)。在1-shot 下,結(jié)果雖然略低于E-LGNN,但考慮到主干網(wǎng)絡(luò)層較淺,同時(shí)對(duì)原型網(wǎng)絡(luò)的提高將近5 個(gè)百分點(diǎn),這足以說(shuō)明本文模型的優(yōu)秀性能。
表2 miniImageNet上小樣本學(xué)習(xí)分類(lèi)精度對(duì)比 單位:%Tab.2 Comparison of classification accuracy of few-shot learning on miniImageNet unit:%
表3 miniImageNet上FPN與原型網(wǎng)絡(luò)分類(lèi)精度比較 單位:%Tab.3 Comparison of classification accuracy between FPN with prototype network on miniImageNet unit:%
為進(jìn)一步同原型網(wǎng)絡(luò)進(jìn)行比較,在miniImageNet 數(shù)據(jù)集上采用與原型網(wǎng)絡(luò)相同的實(shí)驗(yàn)設(shè)置,在學(xué)習(xí)率為0.01、衰減批次數(shù)為20 的條件下訓(xùn)練200 個(gè)批次,用訓(xùn)練過(guò)程中驗(yàn)證集上的表現(xiàn)來(lái)簡(jiǎn)單地衡量模型的收斂速度和效果。
在圖3 中,從損失和精度兩個(gè)方面來(lái)衡量模型在5-way 1-shot 和5-way 5-shot 下的表現(xiàn),其中:圖(a)為5-way 1-shot 設(shè)置下?lián)p失下降趨勢(shì),圖(b)為5-way 5-shot 設(shè)置下?lián)p失下降趨勢(shì),圖(c)為5-way 1-shot 設(shè)置下精度上升趨勢(shì),圖(d)為5-way 5-shot 設(shè)置下精度上升趨勢(shì)。盡管這種實(shí)驗(yàn)條件對(duì)FPN 模型有些苛刻,但不難看出,相比傳統(tǒng)的原型網(wǎng)絡(luò),模糊原型在整體性能上更優(yōu)。
圖3 FPN同傳統(tǒng)原型網(wǎng)絡(luò)收斂對(duì)比Fig.3 Convergence comparison between FPN and traditional prototype network
此 外,模型的融合方式 為proθ(x)=λ即為模糊神經(jīng)網(wǎng)絡(luò)所占比重,本文將λ值初始化為0.5,通過(guò)監(jiān)控λ的值來(lái)衡量模糊神經(jīng)網(wǎng)絡(luò)對(duì)模型的貢獻(xiàn)大小。在表4 中,監(jiān)控了FPN 在5-way 1-shot,5-way 5-shot 以及30-way 1-shot 和20-way 5-shot 下 的λ值,雖然在5-way 和30-way 的條件下λ值有所下降,但仍占有較大的比重,發(fā)揮了較大的作用。
表4 FPN中的λ值Tab.4 λ value in FPN
本文提出了一種帶有模糊推理的原型網(wǎng)絡(luò)來(lái)解決小樣本分類(lèi)問(wèn)題,這是首次將模糊知識(shí)應(yīng)用于小樣本學(xué)習(xí)。所提模型簡(jiǎn)單、有效,它不僅能夠應(yīng)用于原型網(wǎng)絡(luò),對(duì)其他的小樣本學(xué)習(xí)方法也同樣適用。數(shù)值實(shí)驗(yàn)證明,所提出的模糊原型在不同的數(shù)據(jù)集和設(shè)置上大大提高了基于度量的方法的性能,這也驗(yàn)證了模糊邏輯知識(shí)確實(shí)對(duì)小樣本的性能提高有所幫助。