賀文亮,朱敏玲
北京信息科技大學(xué) 計算機(jī)學(xué)院,北京100101
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分,隨著大數(shù)據(jù)時代的到來和GPU 技術(shù)的進(jìn)步,深度學(xué)習(xí)廣泛應(yīng)用于圖像識別、圖像分類、圖像分割、目標(biāo)檢測[1]、身份認(rèn)證[2]、知識圖譜[3]、自然語言處理、語音識別、文本分類[4]等各個領(lǐng)域。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)的優(yōu)越性在于其卓越的準(zhǔn)確性。從圖像分類到自然語言處理,深層神經(jīng)網(wǎng)絡(luò)正被應(yīng)用于不同的領(lǐng)域。人們對人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究,開發(fā)了不同類型的神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),它們已經(jīng)應(yīng)用于不同的應(yīng)用領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的引入是神經(jīng)網(wǎng)絡(luò)重新流行的原因之一。可是研究發(fā)現(xiàn)它存在一個根本性的問題,即無法考慮到底層目標(biāo)特征之間的空間關(guān)系。由于在卷積神經(jīng)網(wǎng)絡(luò)中,上一層神經(jīng)元傳遞到下一層神經(jīng)元中的是標(biāo)量,標(biāo)量沒有方向,無法表示出高層特征與低層特征之間的位姿關(guān)系。另外,它的池化層會丟失大量有價值的信息,因此卷積神經(jīng)網(wǎng)絡(luò)存在較大的局限性。2017年,Geoffrey Hinton 在神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入了一個新概念——膠囊網(wǎng)絡(luò)。
膠囊網(wǎng)絡(luò)是近年來為克服卷積神經(jīng)網(wǎng)絡(luò)存在的缺陷而引入的神經(jīng)網(wǎng)絡(luò)之一,它以向量的形式來表示部分與整體之間的關(guān)系,不僅能夠以特征響應(yīng)的強(qiáng)度來表示圖像,還能夠表征圖像特征的方向、位置等信息。同時,膠囊網(wǎng)絡(luò)采用囊間動態(tài)路由算法,取代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的最大池化法,避免了圖像因池化導(dǎo)致精確位置信息的丟失。因此,膠囊網(wǎng)絡(luò)以其獨特魅力迅速成為深度學(xué)習(xí)領(lǐng)域的一項熱門技術(shù),眾多科研人員紛紛致力于對其進(jìn)行深入研究。
圖1 LeNet-5神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
神經(jīng)網(wǎng)絡(luò)早期在圖像分割、圖像分類和識別等領(lǐng)域?qū)崿F(xiàn)都非常困難。在神經(jīng)網(wǎng)絡(luò)實現(xiàn)過程中,它的隱藏層結(jié)構(gòu)需要人為進(jìn)行設(shè)計,同時計算成本非常高。因此,為了解決這些問題,LeCun 提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-6]。卷積神經(jīng)網(wǎng)絡(luò)成為神經(jīng)網(wǎng)絡(luò)研究熱點之一,尤其是在圖像分類領(lǐng)域,由于CNN 避免了圖像的復(fù)雜預(yù)處理過程,并且可以直接輸入使用原始圖像,因此獲得了廣泛的關(guān)注[7-8]。
CNN 是一種深度神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)一般由輸入層、卷積層、池化層、全連接層和輸出層組成。卷積層以空間上下文感知的方式將多個低層特征編碼為更具區(qū)分性的高級特征,再通過池化層降低圖像的維數(shù),最終由全連接層作為分類器對隱藏層的輸出進(jìn)行分類,輸出結(jié)果。因網(wǎng)絡(luò)結(jié)構(gòu)是人為設(shè)計的,沒有固定格式,因此網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜則會導(dǎo)致過擬合和梯度爆炸現(xiàn)象。
LeNet 是一類特殊的卷積神經(jīng)網(wǎng)絡(luò),非常適合用于處理圖像數(shù)據(jù),但它只能處理高分辨率的灰度圖像。比較經(jīng)典的CNN 模型有LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet[9]以及DenseNet[10],以上均是LeNet的改進(jìn)版模型[11]。下面對LeNet-5、AlexNet、VGGNet、GoogLeNet進(jìn)行簡單介紹。
(1)卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[12]的結(jié)構(gòu)如圖1 所示,它由7層組成,每層均包含可訓(xùn)練的參數(shù)。其中,C為卷積層,S為池化層。
該網(wǎng)絡(luò)輸入大小為32×32的圖片,各層的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。此網(wǎng)絡(luò)結(jié)構(gòu)是第一個成功用于MNIST手寫數(shù)字識別的神經(jīng)網(wǎng)絡(luò),在MNIST 數(shù)據(jù)集上準(zhǔn)確率達(dá)到大約99.2%,由此CNN 迅速發(fā)展,出現(xiàn)了很多處理圖像的優(yōu)質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)。
表1 LeNet-5的各層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
(2)AlexNet[13]以圖像數(shù)據(jù)集分類高準(zhǔn)確率的優(yōu)勢名聲大震。和現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,AlexNet的結(jié)構(gòu)非常簡單,它由5 個卷積層、1 個最大池化層、dropout層[14]和3個全連接層組成,作者設(shè)計此網(wǎng)絡(luò)結(jié)構(gòu)用于1 000 個類別的分類。AlexNet 采用Relu[15]作為激活函數(shù),同時利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集,并且為了解決模型的過擬合問題,在結(jié)構(gòu)中增加了dropout層。
(3)VGGNet[16]是卷積神經(jīng)網(wǎng)絡(luò)的一種,為了表示信息的層次結(jié)構(gòu),它實現(xiàn)了一個深層網(wǎng)絡(luò)結(jié)構(gòu)。同時,它還使用Relu作為每個卷積層后的激活函數(shù)。它采用的3×3 大小的濾波器和AlexNet 的11×11 大小的濾波器有很大區(qū)別,3個卷積層得到1個7×7的有效感受野,其在圖像分類以及定位的操作中都能得到不錯的結(jié)果。
(4)GoogLeNet[17]使用batch normalization,image distortions 和優(yōu)化算法rmsprop 等技術(shù)。為了減少參數(shù)數(shù)量,其結(jié)構(gòu)設(shè)定為22層,使用過程中在內(nèi)存和功耗等方面表現(xiàn)都很好。因為CNN 的圖片是按順序堆疊的,該網(wǎng)絡(luò)設(shè)計時受到LeNet結(jié)構(gòu)的啟發(fā),實現(xiàn)了一個名字為Inception 的網(wǎng)絡(luò)模型。其整個網(wǎng)絡(luò)結(jié)構(gòu)中使用了9個模塊,共100多層。網(wǎng)絡(luò)結(jié)構(gòu)中還使用一個平均池化層,將特征圖大小從7×7×1 024變成1×1×1 024,此方法可減少大量參數(shù),最后選取softmax 作為激活函數(shù)。GoogLeNet的主要特點就是提升了計算資源的利用率。CNN 的迅速發(fā)展,對于圖像處理領(lǐng)域擴(kuò)大了不小的影響力,正是這種優(yōu)秀的圖像處理能力,使眾多學(xué)者紛紛投入對CNN的研究之中。但由此固化的網(wǎng)絡(luò)結(jié)構(gòu)所產(chǎn)生的問題日益凸顯,經(jīng)典的CNN 模型已經(jīng)不能滿足當(dāng)前社會人工智能技術(shù)的需要。在醫(yī)療、金融、交通等領(lǐng)域,CNN 已經(jīng)不能很好地解決一些復(fù)雜的圖像處理的問題,如圖像旋轉(zhuǎn)、指靜脈識別等。因此,為了解決CNN現(xiàn)有的問題,膠囊網(wǎng)絡(luò)在此之上進(jìn)行改進(jìn),通過新的算法和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提升模型的能力,增加應(yīng)用場景,滿足圖像處理領(lǐng)域的需求。
1.2.1 膠囊網(wǎng)絡(luò)背景
上述介紹的所有卷積神經(jīng)網(wǎng)絡(luò)模型中,都存在一個根本性的缺點,即從上一層至下一層傳遞的是標(biāo)量,導(dǎo)致CNN無法考慮到底層對象之間的空間關(guān)系。眾所周知標(biāo)量沒有方向,因此不能表示低層特征和高層特征的關(guān)系,同時CNN的池化層會丟失非常多的有用信息,因此CNN 在識別具有空間關(guān)系的特征時存在很大局限性。于是,2017年Hinton等人提出了一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)[18],膠囊網(wǎng)絡(luò)是當(dāng)今圖像識別領(lǐng)域最先進(jìn)的技術(shù)之一,在CNN 的基礎(chǔ)上能夠達(dá)到更好的效果。
與CNN 不同的是,膠囊不再是以單個神經(jīng)元的形式出現(xiàn),而是一組神經(jīng)元的集合,這個集合可以是向量也可以是矩陣[19],膠囊和神經(jīng)元的差異如表2 所示。多個膠囊構(gòu)成一個隱藏層,深淺兩層隱藏層之間的關(guān)系則通過動態(tài)路由算法確定。與卷積神經(jīng)網(wǎng)絡(luò)隱藏層中的特征圖不同,膠囊的組成形式非常靈活,動態(tài)路由算法沒有固定的模版,并且是單獨計算深淺兩層隱藏層中每個膠囊之間的關(guān)系。動態(tài)路由的計算方式?jīng)Q定了深淺兩層隱藏層之間是動態(tài)連接的關(guān)系,因此模型可以自動篩選更有效的膠囊,從而提高性能。CapsNet 解決了CNN對物體大幅度旋轉(zhuǎn)之后識別能力低下及物體之間的空間辨識度差的兩個缺陷。
表2 膠囊和神經(jīng)元的差異
1.2.2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)
由Hinton等[18]提出的膠囊網(wǎng)絡(luò)模型,又稱向量膠囊網(wǎng)絡(luò)。此膠囊網(wǎng)絡(luò)結(jié)構(gòu)較淺,由卷積層、PrimaryCaps(主膠囊)層、DigitCaps(數(shù)字膠囊)層構(gòu)成,結(jié)構(gòu)如圖2所示[18]。輸入部分為28×28的MNIST手寫數(shù)字圖片,輸出部分是一個10維向量。其中,卷積層操作結(jié)束后,主膠囊層將卷積層提取出來的特征圖轉(zhuǎn)化成向量膠囊,隨后通過動態(tài)路由算法將主膠囊層和數(shù)字膠囊層連接輸出最終結(jié)果。第一層卷積層使用的卷積核大小為9×9,深度為256,步長為1,并且使用Relu激活函數(shù)。第二層主膠囊層采用8組大小為9×9,深度為32,步長為2的卷積核,對第一層卷積后得到的特征圖進(jìn)行8 次卷積操作,得到8組6×6×32的特征圖,隨后將特征圖展平,最終得到向量神經(jīng)元大小為1 152×8,即1 152 個膠囊,每個膠囊由一個8 維向量組成。第三層全連接層輸出10 個16維向量的膠囊,由第二層主膠囊層經(jīng)過卷積操作后得到的膠囊通過動態(tài)路由算法計算得出,圖2 中Wij為動態(tài)路由的轉(zhuǎn)化矩陣。
圖2 膠囊網(wǎng)絡(luò)編碼器結(jié)構(gòu)圖
膠囊網(wǎng)絡(luò)允許多個分類同時存在,因此不能再使用傳統(tǒng)交叉熵?fù)p失函數(shù),而是采用了間隔損失的方式作為損失函數(shù),間隔損失如公式(1)所示:
式中,Lk為經(jīng)過計算得到的間隔損失;Tk為第k分類的存在值,若存在則取1,否則取0;m+、m-和λ分別取0.9、0.1、0.5。
CapsNet的解碼器結(jié)構(gòu)如圖3所示[18],解碼器用來重構(gòu)圖像,共有3個全連接層,接受DigitCaps層輸出的10個16 維向量,也就是16×10 矩陣,重構(gòu)出一幅和輸入層大小28×28相同的圖像。
圖3 膠囊網(wǎng)絡(luò)解碼器結(jié)構(gòu)圖
1.2.3 動態(tài)路由算法
上文已介紹過膠囊是一組神經(jīng)元的集合,它的輸出是一個多維向量,因此它可以用來表示實體的一些屬性信息,其模長可以用來表示實體出現(xiàn)概率,模長值越大,表示該實體存在可能性越大。若實體的特征位置發(fā)生變化,膠囊輸出的向量對應(yīng)的模長不會變化,只改變其方向,實現(xiàn)同變性。
神經(jīng)膠囊的工作原理如圖4 所示[20],可以簡單概括為4個步驟,即矩陣轉(zhuǎn)化、輸入加權(quán)、加權(quán)求和以及非線性變換。
圖4 神經(jīng)膠囊工作過程圖
圖4 中ui為輸入向量,第一步即將此向量與矩陣Wij相乘得到向量Uj,做矩陣轉(zhuǎn)化。ui為輸入層圖片的低層特征,例如人臉的單個實體部分,比如嘴、鼻子、眼睛等。而Wij包含低層特征和高層特征的空間關(guān)系以及其他重要關(guān)系,通過矩陣轉(zhuǎn)化操作得到向量Um,即高級特征。
式中,cij表示膠囊i連接至膠囊j的連接概率;bij表示膠囊i連接至膠囊j的先驗概率。
cij是由softmax函數(shù)計算獲得的,softmax函數(shù)的結(jié)果是非負(fù)數(shù),且每個獨立的cij相加總和為1,因此c表示概率,softmax函數(shù)計算方法如公式(3)所示。
式中,sj表示l層膠囊的總輸入。
式中,vj表示l+1 層的膠囊輸出。
第四步就是對sj進(jìn)行非線性變換得到vj,采用激活函數(shù)如公式(5)所示,其中公式中第一部分的作用是壓縮,如果sj很長,第一項約等于1,反之如果sj很短,第一項約等于0。第二部分的作用是將向量sj單位化,因此第二項的長度為1。此步驟的主要功能就是控制vj的長度不超過1,同時保持vj和sj同方向。經(jīng)過此步驟,輸出向量vj的長度在0~1之間,因此可通過vj的長度確定具有某個特征的概率。
在動態(tài)路由第一次迭代過程中,因bij都被初始化為0,耦合系數(shù)cij此時都相等,所以l層的膠囊i要傳遞給l+1 層中的哪個高級膠囊j的概率是平等的。經(jīng)過這四個工作步驟,最終以的結(jié)果來更新bij,經(jīng)過r次迭代后,輸出vj。
動態(tài)路由算法偽代碼如下:
動態(tài)路由算法作為膠囊網(wǎng)絡(luò)的核心,對于整個膠囊網(wǎng)絡(luò)的應(yīng)用起到了決定性的作用。正是膠囊網(wǎng)絡(luò)使用這種非模板化的算法,使得模型在對圖像、文字等目標(biāo)進(jìn)行識別時,可以將目標(biāo)姿態(tài)、形狀、位置等關(guān)鍵信息進(jìn)行學(xué)習(xí),盡可能多地學(xué)習(xí)到目標(biāo)的特征,同時保留重要特征,不輕易丟棄任何一個有用特征。因此,動態(tài)路由算法超越CNN 的固有卷積模式,膠囊網(wǎng)絡(luò)成為當(dāng)前人工智能領(lǐng)域最先進(jìn)的技術(shù)之一。
計算機(jī)的圖像識別過程通常分為兩大步驟:圖像特征提取和圖像分類預(yù)測。首先對輸入圖片進(jìn)行預(yù)處理,處理為適合特征提取的形式,然后再提取圖像的特征,隨后對特征圖像進(jìn)行分類預(yù)測,過程如圖5所示[21]。
圖5 圖像識別過程
圖像預(yù)處理操作的意義主要是為了增強(qiáng)目標(biāo)圖像信息,同時可以減少很多干擾,能夠更好地進(jìn)行圖像特征提取?;谏疃葘W(xué)習(xí)的圖像分類方法和傳統(tǒng)的圖像分類方法相比的關(guān)鍵優(yōu)勢在于,其能通過深層架構(gòu)自動學(xué)習(xí)更多深層含義的數(shù)據(jù)特征,無需人工干預(yù)即可找到特征,效果顯著地增強(qiáng)了圖像分類的效果。目前常用于圖像分類的數(shù)據(jù)集如表3所示,由上至下在數(shù)據(jù)量和復(fù)雜程度上逐漸遞增。
2.1.1 CNN和膠囊網(wǎng)絡(luò)應(yīng)用對比
為了探究經(jīng)典CNN模型和膠囊網(wǎng)絡(luò)識別精度的差異性,Anuradha 等[26]比較了4 種模型AlexNet、VGGNet和GoogleNet 與CapsNet 在擴(kuò)展MNIST 數(shù)據(jù)集上的應(yīng)用,同時展示了膠囊網(wǎng)絡(luò)在目標(biāo)檢測中的最高精度,并證明膠囊網(wǎng)絡(luò)只需要少量的數(shù)據(jù)就可以提供更好的性能。其使用的數(shù)據(jù)集是擴(kuò)展MNIST(EMNIST)[27],EMNIST 是一組手寫字符數(shù)字,從NIST 專用數(shù)據(jù)庫19中提取,并轉(zhuǎn)換為28×28像素的圖像格式。此數(shù)據(jù)集中提供了6 種不同的拆分,它們是ByClass、ByMerge、Balanced、字母、數(shù)字和MNIST,EMNIST 語料庫的示例如圖6 所示[26]。實驗中使用了EMNIST Balanced數(shù)據(jù)集,EMNIST Balanced數(shù)據(jù)集包含一組字符,每個類具有相同數(shù)量的樣本。它包含47 個類,131 600 個圖像分為112 800個訓(xùn)練圖像和18 800個測試圖像。
表3 不同數(shù)據(jù)集的特點
圖6 EMNIST語料庫
此研究將Balanced EMNIST數(shù)據(jù)集分為50%、75%和100%分別進(jìn)行測試,CapsNet在測試結(jié)果中的精度分別為95.7%、98.9%、99.7%。研究表明,CapsNet 帶來了總體上最好的性能,其準(zhǔn)確率超過其他所有模型,在識別圖像中得到了較好的效果。
2.1.2 CNN結(jié)合膠囊層的應(yīng)用
通過將現(xiàn)有CNN模型與膠囊網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合方式可以提升識別精度,Hollósi等[28]選取了VGG、ResNet和DenseNet三種魯棒性很強(qiáng)的神經(jīng)網(wǎng)絡(luò),通過增加膠囊層的方式來提升神經(jīng)網(wǎng)絡(luò)的精度,與未增加膠囊層的原始網(wǎng)絡(luò)進(jìn)行精度對比。每個神經(jīng)網(wǎng)絡(luò)模型中均使用包含兩層膠囊層的相同膠囊塊,膠囊塊第一層包括256個卷積核,第二層包含10 個膠囊,輸出向量為16 維,采用動態(tài)路由算法,共有3 條路由。分別使用CIFAR-10 和MNIST 數(shù)據(jù)集進(jìn)行測試,兩個數(shù)據(jù)集均進(jìn)行了一些修改,將圖像旋轉(zhuǎn)24°、48°、72°、96°、120°、144°、168°、192°、216°、240°、264°、288°、312°和336°,同時隨機(jī)翻轉(zhuǎn)圖像水平和垂直方向。測試時采用不同的數(shù)據(jù)集大小,分別為(1 250,250),(2 500,500),(5 000,1 000),(10 000,2 000),(20 000,4 000)和(50 000,10 000),第一個值為訓(xùn)練集的大小,第二個值為測試集大小。經(jīng)過測試,其中增加了膠囊層的DenseNet網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集采用的(50 000,10 000)和(20 000,4 000)兩種大小方案中,分別由45.27%和36.88%提升至64.02%和59.98%。同時增加了膠囊層的DenseNet網(wǎng)絡(luò)在MNIST數(shù)據(jù)集中采用的(20 000,4 000)方案中精度提升最為明顯,由58.75%提升至95.35%。實驗結(jié)果表明,使用修改后的數(shù)據(jù)集降低了神經(jīng)網(wǎng)絡(luò)原本的精度,使用膠囊塊可提升精度,采用膠囊單元的網(wǎng)絡(luò)普遍比傳統(tǒng)方法精度更高。采用膠囊層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練速度比原始神經(jīng)網(wǎng)絡(luò)快,同時膠囊網(wǎng)絡(luò)識別旋轉(zhuǎn)物體相比傳統(tǒng)CNN 模型更具優(yōu)勢。
2.1.3 小規(guī)模數(shù)據(jù)集應(yīng)用
以深度學(xué)習(xí)為代表的人工智能技術(shù)正在蓬勃發(fā)展,并已應(yīng)用于很多領(lǐng)域。然而深度學(xué)習(xí)也有一些局限性:它更適合于大量的數(shù)據(jù),與小規(guī)模的數(shù)據(jù)集沒有特別的相關(guān)性。由此引出的一個問題即深度學(xué)習(xí)是否適用于小數(shù)據(jù)訓(xùn)練一直是一個有爭議的話題。有學(xué)者提出,當(dāng)數(shù)據(jù)相對較少時,深度學(xué)習(xí)的表現(xiàn)并不優(yōu)于其他傳統(tǒng)方法,相反,有時效果甚至比傳統(tǒng)方法差。某種程度上,這種說法是正確的:深度學(xué)習(xí)需要從數(shù)據(jù)中自動學(xué)習(xí)特征,通常只有在大量訓(xùn)練數(shù)據(jù)的情況下才有可能,尤其是對于一些輸入樣本高維的情況,例如圖像。
神經(jīng)網(wǎng)絡(luò)使用數(shù)據(jù)擴(kuò)充技術(shù)可以起到提升準(zhǔn)確率的作用,Zhang 等[29]以Kaggle 中的2 000 張“貓vs 狗”比賽的圖片作為訓(xùn)練數(shù)據(jù)集,同時額外選取400張進(jìn)行測試,根據(jù)數(shù)據(jù)集的特點,對數(shù)據(jù)集采用了幾種預(yù)處理技術(shù),包括最大最小范數(shù)、調(diào)整大小和數(shù)據(jù)擴(kuò)充等。使用數(shù)據(jù)擴(kuò)充技術(shù)后,模型不會發(fā)現(xiàn)任何兩幅完全相同的圖像,這將有助于抑制過度擬合,使模型更具普遍性。最后采用CNN 和CapsNet 對使用了數(shù)據(jù)擴(kuò)充技術(shù)和未使用數(shù)據(jù)擴(kuò)充技術(shù)的兩種情況分別測試,測試結(jié)果如表4所示。不使用數(shù)據(jù)擴(kuò)充技術(shù)時,CNN 的精度為68%,CapsNet為73%,使用了數(shù)據(jù)擴(kuò)充技術(shù)時,CNN為76.5%,CapsNet 為81.5%。實驗結(jié)果表明,CapsNets 在小規(guī)模數(shù)據(jù)集上的性能優(yōu)于傳統(tǒng)的CNN。此外,當(dāng)不使用擴(kuò)充技術(shù)的訓(xùn)練數(shù)據(jù)時,CapsNet 的性能明顯優(yōu)于CNN,這個情況表明CapsNet 在數(shù)據(jù)量相對較小的情況下和CNN 相比具有更好的泛化能力,能夠較好地抵抗過擬合,正是膠囊具有同變性的特性,才可以更好地探索特征屬性直接的關(guān)系,因此這是一個非常重要的優(yōu)勢。
表4 分類精度比較
2.1.4 不同仿射變換的應(yīng)用
膠囊網(wǎng)絡(luò)在識別空間位置信息上具有優(yōu)勢,付家慧等[30]從可視化角度研究了膠囊網(wǎng)絡(luò)在平移、旋轉(zhuǎn)等仿射變換的特征。實驗結(jié)果的準(zhǔn)確性通過三種仿射變換的損失值來表示。最終發(fā)現(xiàn)經(jīng)過600次epoch也沒有真正達(dá)到收斂,但每個batch 中的100 張圖片的總損失函數(shù)值能夠降低至10 以下,最后得到的生成圖像非常接近目標(biāo)圖像。研究表明:在膠囊網(wǎng)絡(luò)的內(nèi)部,每個膠囊模塊都能夠?qū)W習(xí)到一種姿態(tài),這種姿態(tài)適用于大多數(shù)的手寫數(shù)字,同時每個膠囊模塊得到的特征姿態(tài)均對最終結(jié)果存在一定貢獻(xiàn)。與卷積神經(jīng)網(wǎng)絡(luò)不同的地方在于,膠囊網(wǎng)絡(luò)在搭建模型時就考慮到位置信息,最終生成結(jié)果得到的模塊特征輸出是從初始位置信息轉(zhuǎn)化而成的,膠囊網(wǎng)絡(luò)最后確實學(xué)到了手寫數(shù)字圖像經(jīng)過變換的圖像信息。因此,膠囊網(wǎng)絡(luò)對于實體姿態(tài)、位置和方向等信息的處理明顯優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。
2.1.5 指靜脈識別應(yīng)用
指靜脈識別技術(shù)在現(xiàn)代應(yīng)用中隨處可見,CNN 在指靜脈識別過程中存在信息丟失的問題,余成波等[31]提出了一種基于膠囊網(wǎng)絡(luò)的指靜脈識別算法。膠囊網(wǎng)絡(luò)以向量的形式封裝指靜脈的多維特征,這些特征會被保存在網(wǎng)絡(luò)中,而不是丟失后再進(jìn)行恢復(fù)。實驗采用60 000張圖片作為訓(xùn)練集,10 000張圖片作為測試集,同時進(jìn)行圖像增強(qiáng)與裁減操作。經(jīng)過測試,如表5 所示,CapsNets的識別率逐漸增加,在訓(xùn)練次數(shù)為30 000時精度達(dá)到99.7%,loss值為0.010 7。經(jīng)過對比,CapsNets展現(xiàn)出了令人驚訝的準(zhǔn)確率,在準(zhǔn)確率上相比VGG 增加了13.6%,同時loss 值最終收斂到0.01。當(dāng)CapsNets 迭代到2 000 次的時候,就開始逼近90%的準(zhǔn)確率,同時loss值降低至0.2,最終收斂于98.6%的準(zhǔn)確率。而VGG迭代比較平穩(wěn),迭代200 次時網(wǎng)絡(luò)精度趨近84%,后期并無太大提升,最終精度為85%,loss值為0.21。
表5 CapsNets訓(xùn)練的識別率和loss值
研究表明CapsNets比CNN更加適合進(jìn)行指靜脈識別,二者對比如表6 所示。膠囊網(wǎng)絡(luò)結(jié)構(gòu)簡單,網(wǎng)絡(luò)深度遠(yuǎn)小于VGG,且訓(xùn)練速度非???,只用了VGG 網(wǎng)絡(luò)訓(xùn)練時間的1/8,同時其空間特性將靜脈的特征保留完整,能夠得到非常好的結(jié)果。
表6 CapsNets與VGG對比
2.1.6 膠囊網(wǎng)絡(luò)優(yōu)化方法
為了提高膠囊網(wǎng)絡(luò)的效率和泛化能力,Zou 等[32]提出了一種新的膠囊網(wǎng)絡(luò)激活函數(shù)exping,同時在損失函數(shù)中加入了最小重量損失Wloss。實驗采用MNIST 數(shù)據(jù)集對原始壓縮激活函數(shù)、exping激活函數(shù)和exping加Wloss 進(jìn)行測試,測試中使用相同的參數(shù)。表7 展示了不同方法對手寫數(shù)字集MNIST 的識別精度,原始壓縮激活函數(shù)的準(zhǔn)確率為99.71%,使用exping 激活函數(shù)的準(zhǔn)確率為99.72%,使用exping 加Wloss 的準(zhǔn)確率為99.75%。此研究表明,經(jīng)過改進(jìn)的膠囊網(wǎng)絡(luò)提高了網(wǎng)絡(luò)收斂速度,提高了網(wǎng)絡(luò)泛化能力,提高了網(wǎng)絡(luò)效率,因此具有很大的使用價值。
表7 不同方法對MINST測試集的識別精度
除了改變激活函數(shù)和損失函數(shù)的方式,還可以通過改變膠囊層的架構(gòu)來提升網(wǎng)絡(luò)的精度。Xiong等[33]通過引入卷積膠囊層(Conv-Caps-Layer),借助現(xiàn)有CNN 深層架構(gòu)可以提取高維特征的思想,加深了CapsNet的結(jié)構(gòu),大大提高了性能。同時提出了一種新的池操作——膠囊池(CapsPool),用來減少參數(shù)的數(shù)量,還能保留功能。實驗使用CIFAR-10數(shù)據(jù)集測試,如表8所示,此研究提出的DeeperCaps模型訓(xùn)練準(zhǔn)確率達(dá)到96.88%,測試準(zhǔn)確率達(dá)到81.29%。在MNIST數(shù)據(jù)集上測試,Deeper-Caps 模型測試準(zhǔn)確率達(dá)到99.84%。通過添加膠囊池,訓(xùn)練精度和測試精度只降低了1%,但能夠顯著減少50%的參數(shù)數(shù)量,大幅節(jié)省訓(xùn)練資源。此研究提出的DeeperCaps模型在數(shù)據(jù)集Cifar10上得到了迄今為止最強(qiáng)的CapsNet結(jié)果,Caps池在保持性能的同時減少了層間參數(shù)的一半,將CapsNet推向了最先進(jìn)的CNN架構(gòu)。
表8 DeeperCaps與Caps-Pool的精度對比%
為了探究影響膠囊網(wǎng)絡(luò)識別效率的因素,郭宏遠(yuǎn)等[34]采用了三種優(yōu)化措施:使用衰變學(xué)習(xí)率代替恒定學(xué)習(xí)率、使用Google 提出的Swish 激活函數(shù)代替relu 激活函數(shù),以及使用較低的batch size。衰變學(xué)習(xí)率相較于恒定學(xué)習(xí)率,其后期收斂效果更好。Swish 激活函數(shù)是谷歌提出的一種新型激活函數(shù),其雖與Relu函數(shù)類似,但最終性能更加突出。更小的batch size有利于卷積層對于局部特征的捕捉。衰變學(xué)習(xí)率設(shè)置為0.9,batch size采用32 來替代常規(guī)的128。實驗使用Fashion-MNIST與MNIST 兩個數(shù)據(jù)集進(jìn)行對比。進(jìn)行優(yōu)化前CapsNet在MNIST上測試的錯誤率為0.36%,而優(yōu)化后的錯誤率為0.30%。優(yōu)化前CapsNet 在Fashion-MNIST 上的錯誤率為9.40%,優(yōu)化后的錯誤率為8.56%。實驗結(jié)果證明了更小的batch size同樣對于膠囊神經(jīng)網(wǎng)絡(luò)中的膠囊層具有增強(qiáng)局部特征捕捉能力的效果。
近年來,隨著互聯(lián)網(wǎng)中文本數(shù)據(jù)的顯著增長,文本分類則越來越被人們關(guān)注。文本分類是自然語言處理中的一個基本問題,它的目標(biāo)是自動將文本文檔分類到一個或多個預(yù)定義類別中,使用戶更容易找到所需的信息。因此文本分類在信息抽取、問答、情感分類和語言推理等眾多應(yīng)用中起著至關(guān)重要的作用。受深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺和自然語言處理領(lǐng)域巨大進(jìn)步的推動,深度學(xué)習(xí)算法如卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)已成為主流文本分類方法。以往的文本分類方法在提供大量標(biāo)注訓(xùn)練數(shù)據(jù)的情況下能夠取得顯著的效果,然而這種性能依賴于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自同一數(shù)據(jù)分布的假設(shè)很難將學(xué)習(xí)到的文本分類模型推廣到新的領(lǐng)域并應(yīng)用。在推理過程中,人類視覺系統(tǒng)會智能地將部分分配給整體,而不必硬編碼與透視相關(guān)的模式[35]。因此,膠囊網(wǎng)絡(luò)具備捕捉局部和整體之間的內(nèi)在空間關(guān)系的特性可以構(gòu)成視點不變的知識,并自動推廣到新的視點。這種部分和整體的關(guān)系在自然語言中稱為語義合成,詞組和句子意義的分析是基于語義組合原則的。膠囊可以是一組神經(jīng)元,其活動向量代表特定語義特征的實例化參數(shù),因此膠囊網(wǎng)絡(luò)可以用于文本分類。
2.2.1 靜態(tài)路由和動態(tài)路由的應(yīng)用
Kim等[36]提出一種簡單的路由方法,稱之為靜態(tài)路由,使用這種方式成功降低了動態(tài)路由計算復(fù)雜度,同時提高了分類精度。通過7種基準(zhǔn)數(shù)據(jù)集對5種不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測試,使用靜態(tài)路由方式的精度普遍高于動態(tài)路由0.1%~6%不等。同時,他們提出使用ELU 門傳遞信息,無論在哪種路由情況下,精度都是最高的。在文本分類方面,CapsNet 優(yōu)于CNN,能夠達(dá)到更好的效果。
Yang 等[37]研究了用于文本分類的動態(tài)路由膠囊網(wǎng)絡(luò),提出了三種策略來減少噪音膠囊的干擾。他們使用一個主要由N-gram 卷積層、初級膠囊層、卷積膠囊層和全連接膠囊層組成的模型。通過6 個不同的分類基準(zhǔn)數(shù)據(jù)集對11種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測試,膠囊網(wǎng)絡(luò)在6個數(shù)據(jù)集中的其中4 個達(dá)到了所有網(wǎng)絡(luò)結(jié)構(gòu)中的最好效果。同時,在其余兩個數(shù)據(jù)集中,膠囊網(wǎng)絡(luò)的結(jié)果處于中上等水平。通過對比,膠囊網(wǎng)絡(luò)在文本分類時明顯優(yōu)于CNN,在將單標(biāo)簽文本分類轉(zhuǎn)換為多標(biāo)簽文本分類時,也具備顯著的優(yōu)勢。
2.2.2 評論識別和情緒分析的應(yīng)用
在當(dāng)今時代,網(wǎng)絡(luò)中具有攻擊性和負(fù)面的評論非常常見。Srivastava 等[38]提出了一種單模型膠囊網(wǎng)絡(luò)用來在評論中識別具有攻擊性的評論,他們的模型分為4層:文字嵌入層、特征提取層、膠囊層和卷積膠囊層,同時使用焦點損失代替標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)。膠囊網(wǎng)絡(luò)可利用動態(tài)路由的過程來減輕一些噪聲膠囊干擾,焦點損失可以防止在訓(xùn)練中大量簡單的負(fù)樣本對檢測器造成的嚴(yán)重影響。通過3 種數(shù)據(jù)集對11 種神經(jīng)網(wǎng)絡(luò)模型測試,這種單模型膠囊網(wǎng)絡(luò)在每個數(shù)據(jù)集中的表現(xiàn)都是最優(yōu)的,達(dá)到了這些模型中最高的精度,特別在ROCAUC 數(shù)據(jù)集的測試結(jié)果中,他們的模型用于文本分類的準(zhǔn)確率高達(dá)98.46%。膠囊網(wǎng)絡(luò)以其獨有的特性在評論識別中達(dá)到了非常好的效果。
一篇關(guān)于情緒分析的研究文章[39]將遞歸神經(jīng)網(wǎng)絡(luò)與膠囊式網(wǎng)絡(luò)結(jié)合進(jìn)行情緒分析。研究者為一個特定的情緒類別設(shè)計了一個膠囊,例如“積極”和“消極”。膠囊由狀態(tài)、屬性和3 個模塊(表示、概率、重構(gòu))組成,表示模塊通過注意機(jī)制構(gòu)建膠囊表示,模型中使用的膠囊結(jié)構(gòu)能夠模擬情緒,并且無需任何語言知識模型即可輸出情感傾向。通過基準(zhǔn)數(shù)據(jù)集Movie Review and Stanford Sentiment Treebank,以及專有數(shù)據(jù)集Hospital Feedback對12種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行測試,他們提出的RNN-Capsule模型在眾多網(wǎng)絡(luò)模型中脫穎而出,達(dá)到了非常理想的效果,尤其在情感分類方面高達(dá)91.6%的準(zhǔn)確率,達(dá)到了目前為止最先進(jìn)的性能。
2.2.3 動態(tài)路由和壓縮函數(shù)的優(yōu)化
為了更好地保留文本特征,增加特征多樣性,驗證動態(tài)路由迭代次數(shù)和壓縮函數(shù)對模型的影響,沈煒域等[40]構(gòu)建包含多尺寸多層卷積的膠囊網(wǎng)絡(luò)和自注意力網(wǎng)絡(luò)的CapSA模型驗證模型效果。實驗使用Headlines和Review Sentiment數(shù)據(jù)集測試,結(jié)果如表9所示,僅限制迭代輪數(shù)為5 輪時,CapSA 模型在第2 輪路由迭代能夠得到較好的分類效果,后續(xù)增加的迭代次數(shù)并沒有使得效果提升。模型如果達(dá)到理想的收斂狀態(tài),需要更多的路由迭代次數(shù),亦需要非常多的數(shù)據(jù)迭代才能達(dá)成,會造成更大的計算代價。
表9 CapSA在兩種數(shù)據(jù)集上不同迭代輪數(shù)的F1與正確率
CapSA 模型上還嘗試了4 種不同的壓縮方案。方案1是,方案2是方案3 是,方案4 是在路由迭代中使用,進(jìn)行最后一輪迭代輸出時使用。對比4 種方案的訓(xùn)練損失變化,結(jié)果為方案2的損失下降速度是最快的,其收斂效果也達(dá)到最好。研究表明不同的動態(tài)路由迭代輪數(shù)對模型的收斂效果非常敏感,適當(dāng)?shù)南蛄繅嚎s方案同樣會影響效果。
膠囊網(wǎng)絡(luò)有很多優(yōu)勢,朱應(yīng)釗等[20]提出膠囊網(wǎng)絡(luò)具有3個優(yōu)勢特性。第一點即所需訓(xùn)練數(shù)據(jù)量較少,神經(jīng)膠囊的引入,能夠保留輸入對象的詳細(xì)屬性信息。其中屬性信息中包含了輸入對象的姿態(tài)、位置、大小、旋轉(zhuǎn)等信息,膠囊網(wǎng)絡(luò)能夠?qū)W(xué)習(xí)到的東西推廣到新場景中。因此,對發(fā)生平移、旋轉(zhuǎn)、縮放等操作的同一對象依然可以識別正確,同時還能從不同角度進(jìn)行識別。所需要的訓(xùn)練數(shù)據(jù)量少的優(yōu)勢,使得膠囊網(wǎng)絡(luò)更接近人腦。第二點即不易受多類別重疊的干擾,膠囊網(wǎng)絡(luò)有能力處理對象重疊的復(fù)雜場景,通過每一個特定部分的屬性和存在預(yù)測高級對象的屬性和存在,同時對比預(yù)測結(jié)果之間的一致性,若達(dá)成一致則增加路由權(quán)重,不一致則減少路由權(quán)重。因此,一個膠囊的輸出只需路由到下一層對應(yīng)的膠囊中,即下一層的膠囊能獲取更清晰的輸入信號,將多類別重疊的模糊性進(jìn)行轉(zhuǎn)換,從而實現(xiàn)對重疊對象的識別和預(yù)測。第三個優(yōu)勢即膠囊網(wǎng)絡(luò)抵御白盒對抗性攻擊能力較強(qiáng)。因深度學(xué)習(xí)的各種網(wǎng)絡(luò)模型在各個領(lǐng)域廣泛使用,其防御對抗性攻擊的能力備受大家關(guān)注。經(jīng)過研究,發(fā)現(xiàn)膠囊網(wǎng)絡(luò)有著較強(qiáng)的抵御能力,尤其是對于白盒的對抗性攻擊,相比卷積神經(jīng)網(wǎng)絡(luò),膠囊網(wǎng)絡(luò)則在這一方面更加出色。一種典型的白盒對抗性攻擊的方法FGSM發(fā)揮作用時,卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率會斷崖式下降至20%以下,與此同時膠囊網(wǎng)絡(luò)卻能夠持續(xù)保持70%以上的準(zhǔn)確率。膠囊網(wǎng)絡(luò)的優(yōu)勢突出、應(yīng)用廣泛,本文主要列舉圖像識別和文本分類兩大方面的應(yīng)用和優(yōu)化,如表10、表11所示。
膠囊網(wǎng)絡(luò)在很多領(lǐng)域的應(yīng)用都展現(xiàn)出其獨特的魯棒性,無論是圖像識別領(lǐng)域還是文本分類領(lǐng)域,不管是直接使用膠囊網(wǎng)絡(luò)結(jié)構(gòu)還是改變現(xiàn)有結(jié)構(gòu)的網(wǎng)絡(luò)將膠囊層加入其中,都呈現(xiàn)出了令人驚訝的效果。在現(xiàn)有CNN結(jié)構(gòu)中加入膠囊層提升精度的同時還能夠提升訓(xùn)練速度,對于小數(shù)據(jù)集的應(yīng)用,膠囊網(wǎng)絡(luò)的泛化能力非常強(qiáng)。膠囊網(wǎng)絡(luò)在處理空間信息中具有明顯的優(yōu)勢,能夠?qū)⒖臻g特征保留完整,善于處理實體位置、姿態(tài)以及方向信息,且網(wǎng)絡(luò)結(jié)構(gòu)淺、訓(xùn)練速度快、空間特征保留完整。即使網(wǎng)絡(luò)迭代前期能夠達(dá)到一個不錯的準(zhǔn)確率,但是網(wǎng)絡(luò)迭代后期仍然能夠平穩(wěn)提升準(zhǔn)確率并降低loss值,達(dá)到更好的效果。不同的激活函數(shù)能夠提升膠囊網(wǎng)絡(luò)的泛化能力、收斂速度,改變膠囊層架構(gòu)、batch size、學(xué)習(xí)率等也能優(yōu)化膠囊網(wǎng)絡(luò)的效果。動態(tài)路由迭代次數(shù)也是影響準(zhǔn)確率的因素之一,適當(dāng)?shù)牡螖?shù)能夠使得網(wǎng)絡(luò)性能達(dá)到最理想的狀態(tài)。膠囊網(wǎng)絡(luò)有能力處理對象重疊的復(fù)雜場景,這也是其在眾多神經(jīng)網(wǎng)絡(luò)模型中脫穎而出的其中一個原因。同時,膠囊網(wǎng)絡(luò)對于白盒的對抗性攻擊還有著較強(qiáng)的抵御能力,這種抵御能力遠(yuǎn)超卷積神經(jīng)網(wǎng)絡(luò)。因此,膠囊網(wǎng)絡(luò)具有很大的潛力,還需要進(jìn)行探索。
盡管研究者在深度學(xué)習(xí)的交叉領(lǐng)域已取得了諸多膠囊網(wǎng)絡(luò)的相關(guān)成果,但是膠囊網(wǎng)絡(luò)的發(fā)展并不完善,在某些方面仍然受到現(xiàn)有技術(shù)制約,存在很多問題需要研究者去解決。因此,未來可以在以下方面增強(qiáng)膠囊網(wǎng)絡(luò)的識別能力,從而提升膠囊網(wǎng)絡(luò)的性能。
(1)提高識別速度
現(xiàn)代深度學(xué)習(xí)模型的識別速度很大程度上影響模型的整體性能,在膠囊網(wǎng)絡(luò)的動態(tài)路由算法中,對于目標(biāo)特征的每個位置都被準(zhǔn)確地以向量形式封裝在膠囊里。因此動態(tài)路由算法內(nèi)部的迭代耗時長,迭代次數(shù)多,大大降低識別效率。盡管準(zhǔn)確率比諸多深度學(xué)習(xí)模型都要優(yōu)異,但識別速度還有很大的提升空間。膠囊網(wǎng)絡(luò)不光可以采用向量形式表示,也可以采用矩陣進(jìn)行表示。矩陣可減少大量的參數(shù),同時降低計算量,提高計算速度。此表示方式在以后的研究中可作為一個重點突破的方向,其對膠囊網(wǎng)絡(luò)提高識別速度具有重大意義。同時,GPU集群技術(shù)使用的越來越普遍,雖然一定程度上提升了計算能力,但仍然不足以滿足膠囊網(wǎng)絡(luò)需要的強(qiáng)大大計算能力。因此,未來的研究方向可以著手于降低網(wǎng)絡(luò)參數(shù)、提升GPU計算能力、提升動態(tài)路由算法效率等方向來提升膠囊網(wǎng)絡(luò)的識別速度。
(2)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)
膠囊網(wǎng)絡(luò)在識別MNIST手寫數(shù)據(jù)集上表現(xiàn)極其優(yōu)異,精度趨近于100%,但由于手寫數(shù)字為28×28的灰度圖像,規(guī)模較小,內(nèi)容較簡單,特征較明顯,因此膠囊網(wǎng)絡(luò)在小規(guī)模的圖像處理中幾乎具有最好的性能,但是在大規(guī)模的圖像處理過程上仍然有待提高。目前膠囊網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)很淺,和眾多典型CNN 網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成了鮮明的對比。未來可以通過適當(dāng)加深網(wǎng)絡(luò)結(jié)構(gòu),探索適合識別大規(guī)模圖像的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行研究,以此打造一個可以識別不同規(guī)模大小的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步優(yōu)化網(wǎng)絡(luò)處理過程,獲得更出色的效果。
表10 膠囊網(wǎng)絡(luò)的應(yīng)用總結(jié)
(3)優(yōu)化壓縮函數(shù)
壓縮函數(shù)在膠囊網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)揮非常重要的作用,不同的壓縮方案效果不同。在膠囊網(wǎng)絡(luò)原始的壓縮函數(shù)中,參數(shù)中常數(shù)值的改變對損失值、精度能夠造成很大的影響。因此,未來在提升膠囊網(wǎng)絡(luò)性能時,可探索其他不同的壓縮函數(shù),試驗每種壓縮函數(shù)的效果,尋求一個能夠提升現(xiàn)有性能的壓縮函數(shù),同時搭配合適的網(wǎng)絡(luò)結(jié)構(gòu)以及優(yōu)化過的路由算法。探究更加合適的壓縮函數(shù)將會對膠囊網(wǎng)絡(luò)的性能帶來突破,同時對膠囊網(wǎng)絡(luò)的發(fā)展也具有重大意義,如何界定一個合適的壓縮方案將成為一個很重要的研究內(nèi)容,將作為日后膠囊網(wǎng)絡(luò)的研究重點。
(4)優(yōu)化損失函數(shù)
膠囊網(wǎng)絡(luò)采用了間隔損失的方式作為損失函數(shù),因其可對多個目標(biāo)進(jìn)行分類,所以不再采用傳統(tǒng)交叉熵函數(shù)的方式。適當(dāng)?shù)膿p失函數(shù)可減少負(fù)面信息對模型的不良影響,能夠盡快地將預(yù)測結(jié)果與真實結(jié)果靠近,達(dá)到訓(xùn)練模型的預(yù)期目的。損失函數(shù)對模型的性能具備一定程度上的影響,目前可以將損失函數(shù)作為膠囊網(wǎng)絡(luò)的主要改變方向,損失函數(shù)不光對膠囊網(wǎng)絡(luò)具有重要意義,也對整個神經(jīng)網(wǎng)絡(luò)的改進(jìn)與優(yōu)化存在非常重要的作用。
表11 膠囊網(wǎng)絡(luò)的優(yōu)化總結(jié)
當(dāng)前人工神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛,未來在信息處理、模式識別、醫(yī)學(xué)影像、生物信號、市場價格預(yù)測、風(fēng)險評估、交通模式分析、車輛檢測與分類、教育,甚至心理學(xué)等領(lǐng)域都可以有顯著進(jìn)步。目前的應(yīng)用處于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用初始階段,較為簡單,經(jīng)過探索已經(jīng)有很多成熟的經(jīng)典模型用于社會發(fā)展中。但正是人工神經(jīng)網(wǎng)絡(luò)模擬人腦的特點,給科學(xué)發(fā)展帶來了無限可能。經(jīng)過發(fā)展,未來的人工神經(jīng)網(wǎng)絡(luò)會應(yīng)用在生活的方方面面,人們的生活會更便捷,例如無人駕駛汽車的普及、公安系統(tǒng)對公民信息的查詢以及錄入,公司內(nèi)部的員工打卡系統(tǒng),甚至商場里每一個商家手里的門店鑰匙,都會迎來質(zhì)的飛躍,變成不一樣的形式伴隨著社會發(fā)展。根據(jù)現(xiàn)已應(yīng)用的模型進(jìn)行改進(jìn),融合膠囊網(wǎng)絡(luò)的優(yōu)勢,能夠在目前的研究中實現(xiàn)更進(jìn)一步的發(fā)展。因此,探索膠囊網(wǎng)絡(luò)應(yīng)用的優(yōu)勢領(lǐng)域是一個有待發(fā)展的研究課題,通過探索不斷完善膠囊網(wǎng)絡(luò)的性能,能夠極大推進(jìn)人工智能技術(shù)進(jìn)步。當(dāng)前對膠囊網(wǎng)絡(luò)的探索研究仍然具有廣闊的發(fā)展空間,仍然需要更進(jìn)一步地探索膠囊網(wǎng)絡(luò)更深層的意義。