張亞飛
(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580)
近年來(lái),神經(jīng)網(wǎng)絡(luò)在圖像分類和目標(biāo)識(shí)別領(lǐng)域取得了巨大的成功[1-3]。然而,研究人員對(duì)于提升準(zhǔn)確度的追求沒(méi)有改變。因此針對(duì)神經(jīng)網(wǎng)絡(luò)的各種優(yōu)化方法層出不窮,然而已有的算法大多針對(duì)具體的問(wèn)題進(jìn)行調(diào)參,對(duì)于通用框架的改進(jìn)則相對(duì)較少。第一個(gè)原因是普適性的解決框架難以找到;第二個(gè)原因是在實(shí)際問(wèn)題中往往面對(duì)的是具體問(wèn)題,需要針對(duì)特定問(wèn)題進(jìn)行偏置歸納以便使網(wǎng)絡(luò)更符合真實(shí)數(shù)據(jù)集。
在深度學(xué)習(xí)框架設(shè)計(jì)中有一個(gè)基本原則是進(jìn)行稀疏學(xué)習(xí),使用較少的參數(shù)來(lái)表征數(shù)據(jù)特征,從而達(dá)到良好的抽象效果和泛化效果。例如針對(duì)權(quán)重的L1[4]和L2[5]正則化,L1正則化針對(duì)權(quán)重絕對(duì)值之和進(jìn)行約束,使其盡可能小,L2正則化針對(duì)權(quán)重的平方之和的平方根進(jìn)行約束,使其權(quán)重值更小,這也就限制了多項(xiàng)式中某些分量的影響,相當(dāng)于減少參數(shù)個(gè)數(shù)。然而L1和L2正則化僅僅是針對(duì)其所約束的權(quán)重矩陣的,然而針對(duì)更高一層級(jí)的同層之間的神經(jīng)元,以及更大范圍的神經(jīng)層則沒(méi)有相應(yīng)的稀疏約束來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的稀疏化。
因此,設(shè)計(jì)針對(duì)網(wǎng)絡(luò)的稀疏性約束對(duì)于提升網(wǎng)絡(luò)的泛化能力具有很大的作用,然而普通的數(shù)值型約束針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)并沒(méi)有很好的約束效果,而且如果基于人為設(shè)計(jì)進(jìn)行權(quán)重分配,那么就會(huì)因?yàn)樾枰O(shè)計(jì)的超參數(shù)太多而導(dǎo)致學(xué)習(xí)效果不佳,因此更好的分配方式是采用自動(dòng)化權(quán)重分配,即權(quán)重自學(xué)習(xí)的方式。目前最好的自學(xué)習(xí)方式是使用神經(jīng)網(wǎng)絡(luò)。同樣,可以利用神經(jīng)網(wǎng)絡(luò)的這個(gè)特點(diǎn)來(lái)學(xué)習(xí)權(quán)重分配函數(shù)。
因此,文中提出了一種可學(xué)習(xí)的權(quán)重分配機(jī)制,與注意力機(jī)制相似,該機(jī)制為神經(jīng)元與神經(jīng)元之間分配權(quán)重,為并行化的神經(jīng)層與神經(jīng)層之間分配權(quán)重。具體的做法是使用一個(gè)多層神經(jīng)網(wǎng)絡(luò)對(duì)權(quán)重分配函數(shù)進(jìn)行學(xué)習(xí)。而學(xué)習(xí)方式有別于普通的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式,首先只是單純訓(xùn)練一個(gè)目標(biāo)網(wǎng)絡(luò),訓(xùn)練完成后在網(wǎng)絡(luò)中添加權(quán)重分配網(wǎng)絡(luò),進(jìn)而固定目標(biāo)網(wǎng)絡(luò)的參數(shù),針對(duì)權(quán)重分配網(wǎng)絡(luò)進(jìn)行訓(xùn)練,迭代訓(xùn)練目標(biāo)網(wǎng)絡(luò)和權(quán)重分配網(wǎng)絡(luò)直至效果最優(yōu)。
創(chuàng)新點(diǎn):針對(duì)神經(jīng)元在設(shè)計(jì)過(guò)程中采用未對(duì)同層神經(jīng)元之間進(jìn)行權(quán)重區(qū)分的問(wèn)題,采用注意力機(jī)制對(duì)其進(jìn)行同層權(quán)重分配,通過(guò)強(qiáng)調(diào)或者弱化神經(jīng)元學(xué)習(xí)到的特征的方式來(lái)提高神經(jīng)網(wǎng)絡(luò)的精度;提出一種新的針對(duì)于注意力機(jī)制的訓(xùn)練方法,即循環(huán)迭代訓(xùn)練,首先訓(xùn)練常規(guī)神經(jīng)網(wǎng)絡(luò)關(guān)系層,然后訓(xùn)練注意力層,迭代循環(huán),直至目標(biāo)函數(shù)收斂。
文中的主要工作基于注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò),因此接下來(lái)對(duì)這兩個(gè)領(lǐng)域的工作進(jìn)行介紹。
注意力機(jī)制受人的視覺(jué)認(rèn)知啟發(fā),人的視覺(jué)在處理圖像信息的時(shí)候并不總是關(guān)注全局信息,而是根據(jù)任務(wù)目標(biāo)來(lái)重點(diǎn)關(guān)注某個(gè)具體的區(qū)域獲取最有用的信息?;趫D像上不同區(qū)域的信息來(lái)建立內(nèi)部聯(lián)系[6]指導(dǎo)注意力的轉(zhuǎn)移和決策。作為注意力機(jī)制的基礎(chǔ),人眼的注意力已經(jīng)從神經(jīng)學(xué)和認(rèn)知學(xué)上得到了充分的研究,圖像中最低層級(jí)的信息在視覺(jué)注意力中起著重要的作用[7],同時(shí)人眼關(guān)注的圖像的區(qū)域與具體的任務(wù)目標(biāo)具有很強(qiáng)的相關(guān)性[8-9]?;诖?,Volodymyr將注意力應(yīng)用于視覺(jué)圖像處理來(lái)縮減網(wǎng)絡(luò)規(guī)模進(jìn)而降低計(jì)算資源消耗,這項(xiàng)工作首次將注意力機(jī)制引入深度學(xué)習(xí)框架中[10]。在注意力機(jī)制展現(xiàn)其卓越的性能之后,越來(lái)越多的學(xué)者將注意力機(jī)制納入其研究領(lǐng)域進(jìn)行創(chuàng)新和發(fā)展,作為注意力機(jī)制的一個(gè)方向,自注意力機(jī)制已經(jīng)被成功應(yīng)用于閱讀理解、文本摘要等任務(wù)中[11-12]。
在圖卷積神經(jīng)網(wǎng)絡(luò)中,受限于圖上邊的存在依賴于具體問(wèn)題的特性,因此一般情況下在進(jìn)行圖卷積操作時(shí)會(huì)輸入一個(gè)全局的鄰接矩陣來(lái)表征圖上節(jié)點(diǎn)與節(jié)點(diǎn)的連接關(guān)系。在消息傳遞算法[13]中,每個(gè)節(jié)點(diǎn)狀態(tài)的更新是基于該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的狀態(tài),然而如何知道其鄰居是誰(shuí),這種情況下就需要用到鄰接矩陣來(lái)獲取該節(jié)點(diǎn)的鄰居信息以及存在的邊信息。而鄰接矩陣通常是作為全局信息而存在的。那么受此啟發(fā)是否可以將這種針對(duì)數(shù)據(jù)之間的鄰接矩陣約束,或者也可以稱之為稀疏約束,因?yàn)槠湎鄬?duì)于全連接形式來(lái)說(shuō),在信息與信息的關(guān)聯(lián)性上具有很大的稀疏性,反映到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上就是,神經(jīng)元與神經(jīng)元之間的連接并不需要全連接的形式,更好的方法是只選取其中重要信息的方法,就可以達(dá)到一種優(yōu)化的效果。類似于在權(quán)重矩陣中,有L1正則化和L2正則化對(duì)權(quán)重矩陣進(jìn)行稀疏化約束。
然而針對(duì)更高層級(jí),神經(jīng)元與神經(jīng)元的稀疏激活約束,神經(jīng)層與神經(jīng)層之間的稀疏約束還沒(méi)有方法涉及到相關(guān)方面。DropOut和DropConnect[14],可近似地看作神經(jīng)元之間的稀疏約束,通過(guò)屏蔽部分神經(jīng)元使其不工作來(lái)實(shí)現(xiàn),但是其具有很大的隨機(jī)性,無(wú)法獲取到一個(gè)全局有效的信息對(duì)神經(jīng)元的激活性或者稀疏性進(jìn)行約束,而稀疏性約束對(duì)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)說(shuō)同樣是重要的[15]。
在常規(guī)網(wǎng)絡(luò)中并沒(méi)有針對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所做的稀疏性約束或者稱之為神經(jīng)元權(quán)重分配機(jī)制,針對(duì)于特征選擇器所選擇出來(lái)的特征沒(méi)有施加權(quán)重系數(shù),即其對(duì)于最終結(jié)果的貢獻(xiàn)度,因此,平等對(duì)待并不能達(dá)到最優(yōu)的效果。為了解決這個(gè)問(wèn)題,提出新的權(quán)重分配機(jī)制來(lái)獎(jiǎng)勵(lì)重要的特征,減少低貢獻(xiàn)的特征權(quán)重。基于注意力機(jī)制,通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)化擬合權(quán)重分配函數(shù),分別對(duì)同層的神經(jīng)元和不同的神經(jīng)層之間進(jìn)行權(quán)重分配。其最終目的是將具有并行關(guān)系的神經(jīng)元或者神經(jīng)層看作具有競(jìng)爭(zhēng)注意力關(guān)系的目標(biāo),對(duì)其進(jìn)行自適應(yīng)權(quán)重分配。
針對(duì)注意力機(jī)制可以針對(duì)數(shù)據(jù)進(jìn)行合理分配權(quán)重的特性,其核心原理是從大量信息中找到目標(biāo)信息。按照已有的研究總結(jié)如下:加權(quán)可以作用在原圖上;加權(quán)可以作用在空間尺度上,給不同空間區(qū)域加權(quán)[16];加權(quán)可以作用在channel尺度上,給不同的通道特征加權(quán)[17];加權(quán)可以作用在不同時(shí)刻的歷史特征上,結(jié)合循環(huán)結(jié)構(gòu)添加權(quán)重[18]。上述研究證明了注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)里邊的廣泛應(yīng)用,然而,更本質(zhì)上來(lái)說(shuō),它們針對(duì)的數(shù)據(jù)處理結(jié)構(gòu)都有一個(gè)共同的特點(diǎn),即上一步處理出來(lái)的數(shù)據(jù)對(duì)于下一步數(shù)據(jù)處理模塊的重要程度是不同的。即忽略了特征與特征之間的關(guān)系。因此文中提出的是一個(gè)通用的模型優(yōu)化方法,即基于注意力機(jī)制對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性進(jìn)行約束。
在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上,權(quán)重分配主要體現(xiàn)在對(duì)下一步處理具有平行關(guān)系的輸入上,因此,在從整個(gè)神經(jīng)網(wǎng)絡(luò)處理流程來(lái)看,其所包含的是一大的平行模塊里邊包含著一個(gè)一個(gè)小的并行模塊。因?yàn)樽罱K是通過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算出來(lái)一個(gè)損失值,優(yōu)化目標(biāo)也是一個(gè)。最終其中的各種大的小的并行模塊必然要匯聚在一起,然而傳統(tǒng)上,它們單純以一種簡(jiǎn)單線性相加的方式來(lái)匯聚,可能在某些網(wǎng)絡(luò)設(shè)計(jì)的時(shí)候考慮多個(gè)優(yōu)化目標(biāo)是對(duì)其設(shè)置一個(gè)經(jīng)驗(yàn)參數(shù)用來(lái)平衡不同優(yōu)化目標(biāo)之間的比例關(guān)系,但更具體,更深入網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部的權(quán)重分配關(guān)系卻并沒(méi)有得到充分研究。在此將借助注意力機(jī)制來(lái)對(duì)此進(jìn)行權(quán)重分配和研究。
要在實(shí)際計(jì)算中準(zhǔn)確進(jìn)行注意力分配,首先要了解神經(jīng)網(wǎng)絡(luò)的具體設(shè)計(jì)流程,或者也可以稱之為數(shù)據(jù)處理流程,然后進(jìn)行逐層解析,在神經(jīng)網(wǎng)絡(luò)中最基本的處理元素是權(quán)重矩陣,而針對(duì)于權(quán)重矩陣的稀疏性約束已經(jīng)有了L1和L2正則化項(xiàng)可以選擇,接下來(lái)要面對(duì)全連接模塊權(quán)重分配。
由于全連接[19]是關(guān)注信息過(guò)多,對(duì)于輸入數(shù)據(jù)的處理并不能有效地區(qū)分重要的和非重要的數(shù)據(jù),因此在處理過(guò)程中針對(duì)非重要的數(shù)據(jù)和重要的數(shù)據(jù)以同等程度對(duì)待會(huì)引出一個(gè)問(wèn)題,即非重要的數(shù)據(jù)會(huì)對(duì)重要數(shù)據(jù)造成干擾以致神經(jīng)網(wǎng)絡(luò)無(wú)法進(jìn)一步提高擬合精度。
而在針對(duì)性解決問(wèn)題時(shí),知道全連接層中前一層的每一個(gè)神經(jīng)元對(duì)于下一層的每一個(gè)神經(jīng)元所起的作用是不一樣的,而在當(dāng)前的處理中,它們是以一種均等的方式輸入下一層,而在此要做的是基于注意力機(jī)制對(duì)其進(jìn)行自學(xué)習(xí)形式的權(quán)重分配,通過(guò)外接神經(jīng)網(wǎng)絡(luò)的形式來(lái)進(jìn)行權(quán)重分配函數(shù)的學(xué)習(xí)。即實(shí)現(xiàn)函數(shù):
W=f1(v1,v2,…,vn)
(1)
N1_input=V*W
(2)
其中,W表示全連接層中所有連接的權(quán)重向量,f表示輸入與權(quán)重之間的映射函數(shù),即注意力分配函數(shù),在這里,由于神經(jīng)網(wǎng)絡(luò)對(duì)于函數(shù)的擬合性較好,在此采用外接神經(jīng)網(wǎng)絡(luò)的形式來(lái)逼近該注意力分配函數(shù)。
圖1分別表示DropOut,DropConnect和文中方法針對(duì)網(wǎng)絡(luò)連接中的權(quán)重調(diào)整,DropOut和DropConnect僅僅是針對(duì)不同的連接隨機(jī)進(jìn)行屏蔽,截?cái)嘞鄳?yīng)的數(shù)據(jù)流。而文中的自適應(yīng)權(quán)重分配方法則針對(duì)神經(jīng)網(wǎng)絡(luò)的各個(gè)連接設(shè)置權(quán)重來(lái)強(qiáng)化或者抑制某些數(shù)據(jù)流信息的影響。這種動(dòng)態(tài)的調(diào)整是根據(jù)數(shù)據(jù)流內(nèi)容而不是隨機(jī)進(jìn)行,更有助于提升網(wǎng)絡(luò)的泛化性能。
在訓(xùn)練階段,由于文中的注意力處理模塊時(shí)外接神經(jīng)網(wǎng)絡(luò)而存在,在訓(xùn)練階段將采用迭代訓(xùn)練的方式。首先將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的注意力網(wǎng)絡(luò)全部屏蔽,單獨(dú)對(duì)于原始網(wǎng)絡(luò)進(jìn)行充分訓(xùn)練,并優(yōu)化相應(yīng)超參數(shù)以達(dá)到最優(yōu)的目標(biāo)效果。第二步將注意力網(wǎng)絡(luò)添加進(jìn)入主網(wǎng)絡(luò)中,固定主網(wǎng)絡(luò)的所有參數(shù),單獨(dú)針對(duì)于注意力網(wǎng)絡(luò)進(jìn)行訓(xùn)練直到效果最優(yōu),然后固定注意力網(wǎng)絡(luò)的參數(shù)優(yōu)化主網(wǎng)絡(luò)的參數(shù)。然后迭代訓(xùn)練直到結(jié)果的精度不變?yōu)橹梗詈髮⒅骶W(wǎng)絡(luò)和注意力網(wǎng)絡(luò)參數(shù)同時(shí)設(shè)置為可學(xué)習(xí)狀態(tài)進(jìn)而進(jìn)行最后的微調(diào)。
在實(shí)驗(yàn)中,使用TensorFlow來(lái)實(shí)現(xiàn)文中方法,使用開(kāi)源代碼以及預(yù)訓(xùn)練好的模型,在模型中相應(yīng)的模塊上添加設(shè)計(jì)的模塊,進(jìn)而進(jìn)行迭代訓(xùn)練。而在對(duì)比實(shí)驗(yàn)中,以原有實(shí)驗(yàn)精度為基礎(chǔ),發(fā)現(xiàn)所提出的模型對(duì)原有模型的精度具有明顯的提升作用。
表1展示了針對(duì)各個(gè)不同數(shù)據(jù)集所設(shè)計(jì)的深度學(xué)習(xí)模型不同層的神經(jīng)元數(shù)量以及施加在其上的注意力矩陣大小,其中結(jié)構(gòu)上第一個(gè)數(shù)字表示輸入的數(shù)據(jù)特征數(shù),中間的數(shù)字是隱層神經(jīng)元數(shù)目,后邊的數(shù)字是輸出向量維數(shù),用于和向量化的標(biāo)簽進(jìn)行比較。
表1 針對(duì)不同數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù)配置
針對(duì)于這種單隱層神經(jīng)網(wǎng)絡(luò),采用全連接作為注意力分配層,使用sigmoid激活函數(shù)生成注意力分配矩陣,然后將注意力分配矩陣與隱層輸出做內(nèi)積,在輸出層輸出結(jié)果。
對(duì)比了WDBP(weight decay back propagation)、WEBP(weight elimination back propagation)和SGLBP(smoothing group lasso BP)方法。它們作為對(duì)比算法將和文中算法一起進(jìn)行對(duì)比實(shí)驗(yàn),同時(shí)采用相同的數(shù)據(jù)集和模型配置,不同的地方在于每種算法各自采用的稀疏化方法不一樣。從表2中可以看出,在大部分情況下,文中方法在該分類任務(wù)針對(duì)該數(shù)據(jù)集具有更好的分類效果,但是在耗時(shí)上卻比較多,原因在于網(wǎng)絡(luò)設(shè)計(jì)中添加了基于注意力的權(quán)重分配層,相比于原來(lái)的網(wǎng)絡(luò)多了一些需要進(jìn)行訓(xùn)練的參數(shù),因此,計(jì)算量相比于其他網(wǎng)絡(luò)要大得多,最終導(dǎo)致比其他網(wǎng)絡(luò)耗時(shí)更長(zhǎng)。
而且從表2中可以看出,在部分情況下該網(wǎng)絡(luò)的泛化能力更好,在訓(xùn)練階段的準(zhǔn)確率相比于測(cè)試階段并沒(méi)有高出特別多,同時(shí)測(cè)試階段的準(zhǔn)確率達(dá)到了更好的效果,即訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率相差較小,同時(shí)訓(xùn)練準(zhǔn)確率已經(jīng)達(dá)到了一個(gè)比較高的水平,說(shuō)明網(wǎng)絡(luò)并沒(méi)有欠擬合。
從表2中可以看出,WEBP、SGLBP和文中方法具有相似的訓(xùn)練準(zhǔn)確度,同時(shí)都比WDBP高。然而,文中方法具有最好的測(cè)試準(zhǔn)確度,表明該方法具有更好的泛化能力。
表2 不同算法結(jié)果比較
實(shí)驗(yàn)中僅僅是使用這些方法進(jìn)行了對(duì)比,在實(shí)際應(yīng)用中,完全可以將正則化方法中最好的SGLBP方法與文中方法進(jìn)行結(jié)合從而更好地提高算法精度。因?yàn)橄啾扔谡齽t化方法,文中提出的方法針對(duì)的是神經(jīng)元的權(quán)重分配問(wèn)題,而正則化方法則是針對(duì)于稀疏化神經(jīng)網(wǎng)絡(luò),針對(duì)神經(jīng)元進(jìn)行動(dòng)態(tài)衰減,在其權(quán)重低于閾值之后進(jìn)行裁剪,避免了DropOut的隨機(jī)性。
上述實(shí)驗(yàn)為針對(duì)簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)并行神經(jīng)元的權(quán)重分配,基于此,可以發(fā)現(xiàn)注意力機(jī)制是一個(gè)比較好的權(quán)重分配方法,而在具體實(shí)現(xiàn)上擁有諸多變體可供選擇,針對(duì)不同的任務(wù)可以選用不同的具體實(shí)現(xiàn)形式。而文中提出的權(quán)重分配方法正是基于此,由于注意力的集中性,可以針對(duì)每個(gè)神經(jīng)元或者神經(jīng)層的輸入特征進(jìn)行權(quán)重調(diào)節(jié),因此,提出的更為泛化的自適應(yīng)權(quán)重調(diào)節(jié)機(jī)制能夠有效提升模型表現(xiàn)性能,將單純針對(duì)神經(jīng)網(wǎng)絡(luò)輸入輸出的注意力分配拓展到了整個(gè)神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)空間,是對(duì)神經(jīng)網(wǎng)絡(luò)正則化方法的有效補(bǔ)充。而且從實(shí)驗(yàn)結(jié)果來(lái)看,對(duì)于提升神經(jīng)網(wǎng)絡(luò)的泛化能力同樣具有很大的作用。同時(shí),從實(shí)驗(yàn)結(jié)果也可以看出,該方法是以增加計(jì)算資源的消耗,提升網(wǎng)絡(luò)模型的復(fù)雜性來(lái)提高神經(jīng)網(wǎng)絡(luò)的表現(xiàn)的,因此需要進(jìn)一步提升算法效率。
提出了一種自適應(yīng)的權(quán)重分配方法,并針對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了詳細(xì)分析和對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,該方法對(duì)于不同任務(wù)均有相應(yīng)的性能和準(zhǔn)確度的提高。然而該方法還存在一些問(wèn)題,在其計(jì)算權(quán)重分配時(shí)是通過(guò)神經(jīng)網(wǎng)絡(luò)模塊來(lái)計(jì)算,增加了較多的計(jì)算開(kāi)銷,需要進(jìn)一步提出更為有效率的權(quán)重分配方法。同時(shí)可以參考人類的視覺(jué)規(guī)律,基于信息熵的角度來(lái)進(jìn)行自適應(yīng)權(quán)重分配策略的研究。對(duì)于未來(lái)的工作,可以將這種自適應(yīng)的權(quán)重分配用于模型的自適應(yīng)稀疏化,因?yàn)楸磉_(dá)的稀疏化有助于提升網(wǎng)絡(luò)的泛化能力,同時(shí),針對(duì)注意力機(jī)制進(jìn)行進(jìn)一步壓縮處理,對(duì)不同權(quán)重進(jìn)行差距放大處理,通過(guò)訓(xùn)練得出權(quán)重分布,然后基于一定閾值將網(wǎng)絡(luò)進(jìn)行剪枝以實(shí)現(xiàn)自動(dòng)化的模型壓縮,同時(shí)平衡模型大小與精確度之間的關(guān)系。同時(shí),可以利用這種自適應(yīng)權(quán)重分配對(duì)于未知的未知特征之間的關(guān)系進(jìn)行挖掘,找出其潛在的函數(shù)映射關(guān)系。而且,由于整個(gè)訓(xùn)練網(wǎng)絡(luò)可以表征為一個(gè)圖,訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以表征為一個(gè)一個(gè)模塊,網(wǎng)絡(luò)對(duì)于數(shù)據(jù)的處理過(guò)程可以表征為模塊與模塊之間的連接,這種連接使用鄰接矩陣來(lái)進(jìn)行表征,進(jìn)而可以使用該方法對(duì)于鄰接矩陣進(jìn)行優(yōu)化,從而優(yōu)化整個(gè)網(wǎng)絡(luò)數(shù)據(jù)處理流程。