胡 璇,邢 凱,李亞鳴,王志勇,鄧洪武
(1.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027;2.中國科學(xué)技術(shù)大學(xué) 蘇州高等研究院,江蘇 蘇州 215123;3.中國科學(xué)技術(shù)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,合肥 230027)
在圖像處理領(lǐng)域,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)模型由于避免了對圖像特征的手動提取,因此在圖像識別、分割、檢測等相關(guān)的圖像處理任務(wù)上得到廣泛應(yīng)用。CNN 相比全連接神經(jīng)網(wǎng)絡(luò),主要采用兩個(gè)重要的歸納偏差。CNN卷積結(jié)構(gòu)依據(jù)局部像素關(guān)系緊密、較遠(yuǎn)像素相關(guān)性弱的先驗(yàn)認(rèn)知,采用局部連接,每個(gè)神經(jīng)元只連接上一層小范圍內(nèi)的神經(jīng)元,并且依據(jù)局部特征的位置無關(guān)性,采用權(quán)重共享,通過在整張?zhí)卣鲌D上復(fù)用卷積核,使一組卷積連接共享相同的權(quán)重。上述歸納偏差大幅降低了卷積結(jié)構(gòu)的參數(shù)規(guī)模,加快了訓(xùn)練收斂速度,卻也引入了局部敏感性,導(dǎo)致缺乏對數(shù)據(jù)的整體把握[1]。另外,特征提取中對各種不變性的捕捉也是CNN 面臨的重要挑戰(zhàn),通常認(rèn)為復(fù)用卷積核和池化操作可以使得深度CNN 對圖像的平移、形變具有某種程度的不變性,但文獻(xiàn)[2]研究證明當(dāng)圖像平移幾個(gè)像素后,多數(shù)CNN結(jié)構(gòu)的輸出會發(fā)生巨大改變。當(dāng)前的機(jī)器學(xué)習(xí)理論建立在對現(xiàn)有數(shù)據(jù)相關(guān)分析與回歸分析的基礎(chǔ)上,基于對已有數(shù)據(jù)的觀察,尋找規(guī)律、擬合模型并作出預(yù)測。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提高了擬合函數(shù)的復(fù)雜度和精確度,但擬合過程仍然依賴對現(xiàn)有數(shù)據(jù)的統(tǒng)計(jì)關(guān)聯(lián)性分析,而關(guān)聯(lián)性僅是對共現(xiàn)頻率、概率的統(tǒng)計(jì)和預(yù)測,并非從因果性上提供有說服力的解釋,因此難以判斷變量之間真正的因果關(guān)系,使得模型缺乏靈活性、適應(yīng)性及泛化性[3]。
針對圖像處理領(lǐng)域CNN 的局部敏感性問題,增大卷積核或卷積深度可以增強(qiáng)感受野,但同時(shí)也會擴(kuò)大參數(shù)規(guī)模,存在感受野和訓(xùn)練效率之間的權(quán)衡問題。從VGG[4]開始的卷積架構(gòu)普遍采用將單個(gè)較大的卷積核分解成兩層小卷積核,減少訓(xùn)練參數(shù)的同時(shí)加入更多非線性,然而過深的網(wǎng)絡(luò)會出現(xiàn)退化,因此ResNet[5]向卷積層中添加跨層旁路,通過縮短信息傳遞的有效路徑長度來保證梯度信息流動。并且自然語言處理(Natural Language Processing,NLP)中的自注意力機(jī)制也被引入圖像領(lǐng)域,用于捕獲數(shù)據(jù)中的遠(yuǎn)程交互[1],但依然存在參數(shù)多、計(jì)算量大的問題。
針對CNN 在特征提取中的不變性問題,研究人員通過增大訓(xùn)練集規(guī)模或基于變換對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),提高模型泛化能力,但該方式增加了訓(xùn)練量,通過復(fù)制跨尺度、方向和其他仿射自由度的特征來利用視點(diǎn)變化的其他影響方式會產(chǎn)生難以處理的高維特征圖[6]。因此,Inception 系列[7-9]采用并列的多尺度卷積核提取多尺度信息,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[10]利用逐層堆疊不同感受野和分辨率特征圖的金字塔模式進(jìn)行跨分辨率的信息融合,膠囊網(wǎng)絡(luò)系列[6,11-12]學(xué)習(xí)特征空間姿態(tài)和特征間位置關(guān)系的編碼,捕獲特征間一致性位置關(guān)系并構(gòu)建特征處于不同位姿的一致性表達(dá)。
在因果關(guān)系學(xué)習(xí)方面,PEARL 等[3]提出關(guān)聯(lián)、干預(yù)、反事實(shí)推理3 個(gè)層級,但基于被動觀察的數(shù)據(jù)做出預(yù)測的深度學(xué)習(xí)模型僅處于最低層級,只能基于觀察到的某一事件是否改變了觀察到的另一事件的可能性做出數(shù)據(jù)間的統(tǒng)計(jì)關(guān)聯(lián)性層次判斷,而無法預(yù)測對事件的主動干預(yù)會引起的后果。PEARL 等[3]認(rèn)為足夠強(qiáng)大準(zhǔn)確的因果模型可以利用第一層級(關(guān)聯(lián))的數(shù)據(jù)來回答第二層級(干預(yù))的問題,通過在數(shù)學(xué)上做出修正來強(qiáng)調(diào)引入干預(yù)概念的必要性。
ARORA 等[13]指出:如果數(shù)據(jù)的概率分布能被大型稀疏深度神經(jīng)網(wǎng)絡(luò)描述,則通過分析之前層激活值的相關(guān)統(tǒng)計(jì)特性,聚類輸出高度相關(guān)的神經(jīng)元,便可逐層構(gòu)建出最優(yōu)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。借鑒PEARL 和ARORA的思想,本文引入因果干預(yù),提出高維空間中概念層次的一致性表達(dá)對低維空間中的變換具有不變性的假設(shè)(即不動點(diǎn)的存在性),通過因果干預(yù)手段輔助篩選CNN卷積具有各種不變性的子結(jié)構(gòu),改善模型對純粹統(tǒng)計(jì)關(guān)聯(lián)性的依賴,篩選出模型中噪聲敏感的部分結(jié)構(gòu)。進(jìn)一步地,基于Wasserstein 距離(以下簡稱W 距離)度量類內(nèi)類間區(qū)分度并由此構(gòu)建收益函數(shù),通過基于收益的組合來捕捉長距離特征間的相關(guān)依賴,具體過程基于高斯分布下的Hessian 矩陣和協(xié)方差的互逆關(guān)系,將基于Hessian 矩陣的優(yōu)化轉(zhuǎn)化為資本資產(chǎn)定價(jià)模型(Capital Asset Pricing Model,CAPM)中最小化給定收益水平下風(fēng)險(xiǎn)的約束優(yōu)化,利用夏普比率來計(jì)算優(yōu)化方向,生成具有類間區(qū)分度的網(wǎng)絡(luò)結(jié)構(gòu),由此構(gòu)建出概念層次的穩(wěn)定特征。
圖像分類與識別是計(jì)算機(jī)視覺的基本問題,是定位、檢測、分割等任務(wù)的基礎(chǔ),面臨對觀察視角的依賴、類內(nèi)多樣性等復(fù)雜情況構(gòu)成的挑戰(zhàn)[14],傳統(tǒng)圖像分類采用人工提取特征作為可訓(xùn)練分類器的輸入,分類的準(zhǔn)確性依賴特征提取階段的設(shè)計(jì),任務(wù)艱巨且不具有普適性,無法獨(dú)立于特定任務(wù)本身[15]。
近年來,深度學(xué)習(xí)模型利用多層非線性信息處理,在自動特征提取和圖像分類上取得了豐碩成果。文獻(xiàn)[15]提出的LeNet-5 將局部感受野、共享權(quán)重和降采樣相結(jié)合,應(yīng)用在手寫數(shù)字識別等場景下,是現(xiàn)代CNN的基礎(chǔ)。文獻(xiàn)[16]提出的AlexNet在CNN 上成功使用ReLU 激活函數(shù)、定向修剪(dropout)和局部響應(yīng)歸一化(Local Response Normalization,LRN),并采用數(shù)據(jù)增強(qiáng)緩解過擬合,提高泛化能力,獲得了ImageNet 2012競賽冠軍,開啟了深度CNN 領(lǐng)跑圖像領(lǐng)域的先河。后續(xù)研究針對實(shí)際訓(xùn)練中模型深度、參數(shù)規(guī)模、梯度傳播等一系列挑戰(zhàn),對CNN 卷積結(jié)構(gòu)進(jìn)行了有針對性的優(yōu)化,模型分類性能持續(xù)提高。文獻(xiàn)[4]提出的VGGNets證明了增加網(wǎng)絡(luò)深度可以一定程度提高性能,并用2 層3×3 的卷積核代替1 層5×5,在保持感受野的前提下減少參數(shù)量,提高非線性。文獻(xiàn)[7]提出由Inception 模塊疊加成的22 層GoogLeNet,用不同大小的卷積核提取圖像不同尺度的特征再加以融合,并在卷積前用1×1卷積降維,用全局平均池化代替全連接層,從而比8 層的AlexNet 擁有更好的性能和更少的參數(shù)。Inception 的V2[8]和V3[9]版本引入了批標(biāo)準(zhǔn)化(Batch Normalization,BN),加入了對較大卷積核的分解,并指出在低層采用1×1 卷積降維會丟失信息。為解決深度模型的梯度消失問題,文獻(xiàn)[5]提出34 層的ResNet,使用跳層直連構(gòu)建兩層殘差塊,降低信息傳遞有效路徑的長度。更深的模型(50、101、152)采用帶有1×1 瓶頸結(jié)構(gòu)的三層殘差塊,進(jìn)一步減少卷積計(jì)算量。針對多尺度特征,文獻(xiàn)[10]提出FPN 結(jié)構(gòu),利用卷積網(wǎng)絡(luò)本身帶有的層次性語義特征構(gòu)建特征金字塔,用于處理大范圍尺度變化的物體,通過對特征圖上采樣和跨層融合,同時(shí)獲取頂層語義特征和底層高分辨率信息。
在深度神經(jīng)網(wǎng)絡(luò)中,獲取遠(yuǎn)程依賴關(guān)系至關(guān)重要。對于圖像數(shù)據(jù),長距離依賴關(guān)系是由深層卷積堆疊從而形成大感受野來建模的。卷積運(yùn)算在空間上是對局部鄰域進(jìn)行操作,因此只有當(dāng)反復(fù)執(zhí)行卷積時(shí),使信息在網(wǎng)絡(luò)中逐層傳播,才能捕獲遠(yuǎn)程依賴關(guān)系,在計(jì)算效率和優(yōu)化上都存在挑戰(zhàn)[1]。為此,研究人員將NLP 領(lǐng)域用于捕獲遠(yuǎn)程交互的自注意力機(jī)制引入視覺領(lǐng)域,用于增強(qiáng)或替代卷積結(jié)構(gòu)[1,17-18]。自注意力的關(guān)鍵思想是通過隱層神經(jīng)元之間的相似函數(shù)動態(tài)生成加權(quán)平均值,與池化或卷積不同,輸入信息之間的相互作用取決于信息本身,而不是由相對位置先驗(yàn)決定,使得自注意力可捕獲輸入數(shù)據(jù)中的遠(yuǎn)程交互而不增加參數(shù)的數(shù)量。文獻(xiàn)[1]提出一種二維相對自注意力機(jī)制,通過將卷積特征圖與自注意力機(jī)制產(chǎn)生的特征圖級聯(lián),用自注意力來增強(qiáng)卷積算子,可以靈活地調(diào)整自注意力通道的比例,并考慮從完全卷積到完全自注意力模型的一系列架構(gòu)。
基于圖方法的研究也是近年來的熱點(diǎn)之一,這類方法通常將數(shù)據(jù)集映射為一個(gè)圖,每個(gè)樣本對應(yīng)一個(gè)節(jié)點(diǎn),若兩個(gè)樣本具有強(qiáng)相似度與相關(guān)性,則對應(yīng)的節(jié)點(diǎn)之間存在一條強(qiáng)度正比于相似度與相關(guān)性的邊,然后通過構(gòu)造的圖來推斷無標(biāo)注數(shù)據(jù)的標(biāo)簽。這一思想在缺乏大規(guī)模標(biāo)注數(shù)據(jù)的半監(jiān)督分類任務(wù)上應(yīng)用廣泛,出現(xiàn)了很多關(guān)于構(gòu)造圖和傳播標(biāo)簽的算法,如基于b-matching[19]和基于低秩子空間[20]的圖構(gòu)造方法、基于線性鄰域的標(biāo)簽傳播算法[21]等。由于原始數(shù)據(jù)中包含噪聲污染,建立的圖可能無法準(zhǔn)確反映樣本之間的潛在關(guān)系,因此文獻(xiàn)[22]提出一種基于光滑表示的半監(jiān)督分類算法,在構(gòu)造圖之前先對原始數(shù)據(jù)進(jìn)行過濾,同時(shí)采用統(tǒng)一的框架集成圖構(gòu)造和標(biāo)簽傳播兩個(gè)步驟,有效提升了構(gòu)造圖的準(zhǔn)確性和與后續(xù)任務(wù)的關(guān)聯(lián)性。
1.2.1 W 距離
本文使用W 距離[23]來度量卷積子結(jié)構(gòu)映射到高維空間后樣本分布之間的距離。W 距離來自最優(yōu)傳輸理論,給定歐式空間中的區(qū)域X、Y?RN,分別有概率密度μ、ν,總測度相同μ(X)=ν(Y)。假設(shè)映射T:X→Y,若對任意可測集合B?Y,式(1)均成立,則此映射保持測度,記作T*μ=ν,其中*是保持測度的記號,表示映射T可以保測度地將分布μ映射到分布ν。假設(shè)任意x∈X、y∈Y的距離為c(x,y),則映射的傳輸代價(jià)C(T)是距離c(x,y)的積分,如式(2)所示。最優(yōu)傳輸映射是所有保測度的映射中使得傳輸代價(jià)最小者,如式(3)所示。最優(yōu)傳輸映射的傳輸代價(jià)被稱為是兩個(gè)概率測度之間的W 距離,如式(4)所示,其中γ是一個(gè)邊緣分布為μ、ν的聯(lián)合概率分布。
即使兩個(gè)分布的支撐集沒有重疊或重疊非常少,W 距離仍然能反映兩個(gè)概率分布的遠(yuǎn)近。另外,W 的值域沒有0 到1 的限制,因此在高維空間中比KL 散度和JS 散度更能度量空間中低維流形之間的分布距離。
1.2.2 因果干預(yù)與格蘭杰因果關(guān)系檢驗(yàn)
因果關(guān)系通常被解釋為描述某個(gè)事件對另一個(gè)事件的作用關(guān)系,后一事件被認(rèn)為是前一事件的結(jié)果。一般而言,一個(gè)事件是很多原因綜合產(chǎn)生的,而該事件又可以成為其他多個(gè)事件的原因。因此,若要量化這種因果關(guān)系往往較為困難,需要現(xiàn)代數(shù)學(xué)工具的輔助。在確定某一事件是否真正是導(dǎo)致另一事件的原因,特別在這種影響是不確定性的描述且只是在總體現(xiàn)象觀察到的情況下,就更加難以判斷[24]。
當(dāng)前的機(jī)器學(xué)習(xí)理論建立在對現(xiàn)有數(shù)據(jù)回歸分析的基礎(chǔ)上,基于對已有數(shù)據(jù)的被動觀察,尋找規(guī)律、擬合模型并做出預(yù)測。深度神經(jīng)網(wǎng)絡(luò)提高了擬合函數(shù)的復(fù)雜度和精確度,數(shù)據(jù)規(guī)模和擬合精度不斷提高,但其擬合過程仍然依賴對現(xiàn)有數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性分析,而相關(guān)性僅是對共現(xiàn)頻率的統(tǒng)計(jì),并非從因果性上提供有說服力的解釋,因此難以判斷變量之間的因果關(guān)系和方向[3]。
隨機(jī)控制實(shí)驗(yàn)是發(fā)現(xiàn)因果關(guān)系的傳統(tǒng)途徑,但受限于實(shí)驗(yàn)條件,大部分場合只能獲得被動觀察數(shù)據(jù),而無法主動干預(yù)。從被動觀察數(shù)據(jù)上探索因果關(guān)系避免了實(shí)驗(yàn)條件的限制,分為基于時(shí)序觀察數(shù)據(jù)和非時(shí)序觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法?;跁r(shí)序觀察數(shù)據(jù)的因果推斷受限于觀察手段、采樣頻率等限制,因此實(shí)際中后者具有更廣的適用范圍[25]。
本文借鑒時(shí)間序列的數(shù)據(jù)處理方法,基于干預(yù)調(diào)制,將非序列數(shù)據(jù)擴(kuò)展為序列觀察數(shù)據(jù),由序列數(shù)據(jù)的因果推斷方法來鎖定網(wǎng)絡(luò)結(jié)構(gòu)中具有不變性的部分。本文基于格蘭杰因果檢驗(yàn)來發(fā)現(xiàn)網(wǎng)絡(luò)中具有不變性的子結(jié)構(gòu),該檢驗(yàn)方法由文獻(xiàn)[26]在分析經(jīng)濟(jì)變量的因果關(guān)系時(shí)提出,將因果關(guān)系定義為基于一個(gè)時(shí)間序列的先驗(yàn)值預(yù)測另一個(gè)時(shí)間序列的能力。給定長期時(shí)間序列X和Y,如果采用X和Y序列對Y做回歸的聯(lián)合預(yù)測誤差小于只用Y序列自回歸的預(yù)測誤差,則可以認(rèn)為X對Y的預(yù)測起到了幫助,因此減小了預(yù)測誤差。在這種情況下,稱X對Y有格蘭杰因果關(guān)系。
1.2.3 夏普比率與資本資產(chǎn)定價(jià)模型
在現(xiàn)代投資組合理論中,投資者通常計(jì)算資產(chǎn)類型之間的相關(guān)性構(gòu)建投資組合,在給定的風(fēng)險(xiǎn)水平上實(shí)現(xiàn)收益最大化[24]。本文將CNN 卷積結(jié)構(gòu)提取到的有效信息類比為資產(chǎn),通過定義收益和風(fēng)險(xiǎn),借鑒資本資產(chǎn)定價(jià)模型計(jì)算有效信息的組合,由之前層激活值的相關(guān)統(tǒng)計(jì)特性,基于有效信息組合輸出為高度相關(guān)的神經(jīng)元,便可逐層構(gòu)建出最優(yōu)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),由此獲得給定風(fēng)險(xiǎn)下的最大收益(性能)。資本資產(chǎn)定價(jià)模型示意圖如圖1 所示。
圖1 資本資產(chǎn)定價(jià)模型示意圖Fig.1 Schematic diagram of CAPM
圖1中曲線為風(fēng)險(xiǎn)資產(chǎn)組合可以達(dá)到的有效前沿,若投資組合中包含無風(fēng)險(xiǎn)資產(chǎn),則組合的收益-風(fēng)險(xiǎn)關(guān)系將落在一條截距為無風(fēng)險(xiǎn)收益率rf并經(jīng)過曲線上任意一點(diǎn)A的資本配置線(Capital Allocation Line,CAL)上。對CAL 上的任意一點(diǎn)P,期望收益E(RP)由倍的風(fēng)險(xiǎn)資產(chǎn)組合期望收益E(RA)和)倍的無風(fēng)險(xiǎn)資產(chǎn)期望收益E(Rf)組成,如式(5)[27]所示,其中σP和σA分別為點(diǎn)P和A的標(biāo)準(zhǔn)差。這條直線的斜率被稱為夏普比率[28-29],又稱為報(bào)酬-波動性比率,如式(6)所示。
夏普比率刻畫了投資組合每承受一單位總風(fēng)險(xiǎn),會產(chǎn)生多少超額報(bào)酬。在給定的標(biāo)準(zhǔn)差上,夏普比率越高的投資組合擁有越高的期望收益。當(dāng)CAL 與有效前沿相切時(shí),夏普比率最高,達(dá)到資本市場線(Capital Market Line,CML)。資本市場線上的每個(gè)點(diǎn)都對應(yīng)著當(dāng)前風(fēng)險(xiǎn)下最高的期望收益。通過基于自定義收益和風(fēng)險(xiǎn)的計(jì)算挖掘CNN 卷積結(jié)構(gòu)采樣視角之間的相關(guān)性,形成聚合結(jié)構(gòu)以實(shí)現(xiàn)對有效特征信息的高效組合。
CNN 卷積結(jié)構(gòu)對變換缺乏一致性表示,雖然卷積和池化操作帶來了一定程度上的平移不變性,但對縮放、旋轉(zhuǎn)等變換依然需要針對性改進(jìn)卷積架構(gòu)[4,13]或在訓(xùn)練數(shù)據(jù)中加入對應(yīng)增強(qiáng)來實(shí)現(xiàn)對變換后目標(biāo)的認(rèn)知。借鑒流形學(xué)習(xí)中數(shù)據(jù)通常存在低于現(xiàn)實(shí)空間維度中的唯一表示這一觀點(diǎn),認(rèn)為物體在高維空間中存在概念層次的一致性表達(dá),該表達(dá)在低維空間中存在一種映射表達(dá),在特定視角下不會隨低維空間中的變換改變?;诓蛔兞坷碚摵虰rouwer 不動點(diǎn)定理,假設(shè)模型映射函數(shù)f能還原出物體概念層次的一致性表達(dá),那么f是各種變換群上的不變量,該高維表達(dá)為變換群映射下的不動點(diǎn)。將平移、縮放等變換作用在二維樣本圖像上,根據(jù)變換前后模型提取信息分布的差異,觀察模型各維度在變換作用下的穩(wěn)定性,篩選出具有不變性的模型子結(jié)構(gòu)。
由于缺乏因果穩(wěn)定性,模型不能分辨提取到的信息來自物體本身還是來自采樣過程引入的噪聲。根據(jù)文獻(xiàn)[30]的研究可知,未經(jīng)訓(xùn)練的初始網(wǎng)絡(luò)對特定數(shù)據(jù)的建模能力可以由擬合函數(shù)對輸入數(shù)據(jù)的雅可比矩陣反映,矩陣中元素相關(guān)性越弱,越能良好地對數(shù)據(jù)建模。在噪聲和干擾的影響下,輸入輸出之間的相關(guān)性很容易遭到篡改,反之,若模型的輸入輸出具有穩(wěn)定的因果關(guān)系,則不容易受到噪聲干擾。為樣本圖片加入?yún)?shù)隨時(shí)間規(guī)律變化的高斯模糊增強(qiáng),將非序列數(shù)據(jù)擴(kuò)展為序列數(shù)據(jù),由序列數(shù)據(jù)的因果推斷方法,即檢驗(yàn)輸出序列和調(diào)制序列在統(tǒng)計(jì)上的因果關(guān)系,篩選模型中具有因果穩(wěn)定性的子結(jié)構(gòu)。
基于不變性理論將平移、尺度等變換作用在樣本圖片上,基于因果干預(yù)將參數(shù)隨時(shí)間規(guī)律變化的高斯模糊添加到樣本圖片上,通過測算模型輸出分布的穩(wěn)定性,檢驗(yàn)?zāi)P偷母鞣N不變性和因果穩(wěn)定性。調(diào)制序列生成步驟具體如下:
1)從數(shù)據(jù)集中選取小規(guī)模樣本,為每一個(gè)樣本按表1 中3 種方式連續(xù)生成多張圖片。
表1 調(diào)制序列生成方式Table 1 Modulation sequence generation mode
2)生成圖片構(gòu)成調(diào)制序列,樣本整體規(guī)模為[樣本數(shù),序列長度]。
采用基于平移和尺度變換生成的調(diào)制序列,依據(jù)不變量理論來篩選預(yù)訓(xùn)練模型中具有各種不變性的子結(jié)構(gòu)。這一操作的理論依據(jù)是在變換群作用下,假設(shè)模型某部分采樣點(diǎn)有助于還原目標(biāo)在高維空間中的一致性表達(dá),則其輸出分布應(yīng)當(dāng)是穩(wěn)定的,即表現(xiàn)為模型提取到的特征信息不隨樣本的平移、尺度等變化而變化,映射到高維空間中的不動點(diǎn)。
定理1(Brouwer 不動點(diǎn))若A?RN且A為非空緊凸集,f:A→A是一個(gè)從A到A的連續(xù)函數(shù),則該函數(shù)f有一個(gè)不動點(diǎn),即存在x∈A,x=f(x)。
假設(shè)每一類物體在概念層次上都存在足夠區(qū)別于其他類的高維空間表達(dá),如圖2 所示,在理想情況下,從概念到表示的過程可以看作從一個(gè)高維空間到其自身的整體映射,則由Brouwer 不動點(diǎn)定理,無論在中間加入何種變換,映射都一定存在不動點(diǎn),即一定存在某個(gè)高維空間中的表示不受低維空間中的變換影響。假設(shè)這樣的高維空間概念表示為θ,樣本生成和采樣過程的映射為Q(·),群G是對圖片的變換 群,變換g∈G,特征提取模型為f(·)。根據(jù)Brouwer 不動點(diǎn)定理,從概念到表示的過程是一個(gè)高維空間到 其自身的整體映 射,有f(Q(θ))=θ,f(g(Q(θ)))=θ,因此f(Q(θ))=f(g(Q(θ)))。設(shè)樣本圖片為x=Q(θ),則在樣本圖片上,不變性表現(xiàn)為f(x)=f(g(x)),即模型提取到的特征信息不隨樣本的平移、旋轉(zhuǎn)、尺度等變化而變化。
圖2 概念-表示映射流程Fig.2 Mapping process of concepts-represents
不變性分析的具體步驟如下:
1)對相同調(diào)制方式的同類樣本集合通過模型卷積結(jié)構(gòu)的輸出分布,測算用W 距離度量的分布差異。
2)使用W 距離的方差衡量分布差異穩(wěn)定性,篩選出每種變換具有一定程度不變性的特征提取結(jié)構(gòu)。
采用基于高斯模糊生成的調(diào)制序列,依據(jù)序列數(shù)據(jù)的因果推斷方法來篩選預(yù)訓(xùn)練模型中具有因果穩(wěn)定性的部分,并對噪聲敏感的部分結(jié)構(gòu)進(jìn)行定向修剪。采用方差分析衡量輸出分布的穩(wěn)定性,用格蘭杰因果檢驗(yàn)判斷模型提取到的信息對調(diào)制函數(shù)的響應(yīng)。1.2.2節(jié)中介紹了格蘭杰因果檢驗(yàn)的原理和計(jì)算過程,通過檢驗(yàn)由調(diào)制序列的先驗(yàn)值預(yù)測輸出序列的能力,來判斷在給定的顯著水平下調(diào)制序列是否為輸出序列。對噪聲干擾不穩(wěn)定,又未對調(diào)制序列產(chǎn)生響應(yīng)的采樣點(diǎn)可以被認(rèn)為受到了噪聲干擾,對這樣的點(diǎn)進(jìn)行定向修剪,以便進(jìn)一步構(gòu)建穩(wěn)定特征。
基于因果干預(yù)的剪枝步驟具體如下:
1)將基于高斯模糊生成的調(diào)制序列中的同類樣本集合通過模型卷積層,獲得輸出分布。
2)測算用W 距離衡量的分布差異。
3)使用W 距離的方差衡量分布差異穩(wěn)定性,篩選出對噪聲干擾較為穩(wěn)定的采樣點(diǎn)。
4)對調(diào)制函數(shù)和輸出分布的W 距離序列進(jìn)行格蘭杰因果檢驗(yàn),篩選出對調(diào)制函數(shù)有響應(yīng)的采樣點(diǎn)。
5)對不屬于以上兩種的部分采樣點(diǎn)進(jìn)行剪枝。
模型通過優(yōu)化不斷調(diào)整連接權(quán)重,在實(shí)際應(yīng)用中有Momentum[31]、Adagrad[32]、Adam[33]等多種基于梯度的優(yōu)化方式。相比一階梯度,Shampoo[34]等基于二階梯度的優(yōu)化方式具有更快的收斂速度,但受限于計(jì)算量、內(nèi)存、通信花銷等因素,普及度不高。本文給出基于二階梯度的優(yōu)化過程與經(jīng)濟(jì)學(xué)領(lǐng)域資本資產(chǎn)定價(jià)模型中基于協(xié)方差計(jì)算投資組合的等價(jià)性,并通過加入單位風(fēng)險(xiǎn)下收益最大的約束得到最優(yōu)解。該方法首先定義同類和不同類樣本之間用W 距離衡量的區(qū)分度為無監(jiān)督的收益函數(shù),基于高斯分布假設(shè)下對數(shù)似然的二階導(dǎo)(Hessian)矩陣和協(xié)方差的互逆關(guān)系,并引入夏普比率,將基于Hessian 矩陣的最優(yōu)化問題轉(zhuǎn)化為資本資產(chǎn)定價(jià)模型中給定收益水平下最小化風(fēng)險(xiǎn)的約束優(yōu)化問題,逐層計(jì)算優(yōu)化方向,為每類目標(biāo)生成在單分類任務(wù)下能形成良好類間區(qū)分的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),構(gòu)建單分類穩(wěn)定特征,進(jìn)一步實(shí)現(xiàn)多分類。
將基于Hessian 矩陣的最優(yōu)化問題轉(zhuǎn)化為資本資產(chǎn)定價(jià)模型中給定收益水平下最小化風(fēng)險(xiǎn)的約束優(yōu)化問題,該方法依據(jù)高斯分布假設(shè)下負(fù)對數(shù)似然的二階導(dǎo)(即Hessian)與協(xié)方差的逆相等。
證明
假設(shè)期望為θ*、協(xié)方差矩陣為Vθ的高斯隨機(jī)向量θ,概率密度p(θ)如式(7)所示,負(fù)對數(shù)似然J(θ)如式(8)所示,Hessian 矩陣在(l,l′)維度下的分量如式(9)所示。由此可得Hessian 矩陣如式(10)所示。
計(jì)算CAPM 中的均值-方差前沿,即每個(gè)給定的收益水平對應(yīng)的最小方差投資組合,需先計(jì)算風(fēng)險(xiǎn)資產(chǎn)組合可能達(dá)到的有效前沿。對某個(gè)資產(chǎn)組合p,其用向量表示的風(fēng)險(xiǎn)資產(chǎn)構(gòu) 成r如 式(11)所 示,rn(n=1~N,n∈R)為組合中的單個(gè)資產(chǎn),份額w如式(12)所示,wn為資產(chǎn)rn在組合中所占的份額,每個(gè)資產(chǎn)的收益期望E(r)如式(13)所示,E(rn)為資產(chǎn)rn的收益期望,資產(chǎn)ri與rj的兩兩協(xié)方差σij(i,j=1~N,i,j∈R)如式(14)所示,由兩兩協(xié)方差構(gòu)成的協(xié)方差矩陣V如式(15)所示。對組合p而言,其收益如式(16)表示,代入式(11)、式(12)和式(13),可得收益期望如式(17)所示,代入式(14)和式(15),可得方差如式(18)所示。
在給定風(fēng)險(xiǎn)下最大化收益,等價(jià)于在給定收益期望下最小化風(fēng)險(xiǎn)=wTVw,如式(19)所示,其中,μp為給定的收益期望,e 為單位向量。為求解該最優(yōu)化問題,構(gòu)造拉格朗日輔助函數(shù)L(w,λ1,λ2),使目標(biāo)函數(shù)取得極值,如式(20)所示。求解式(20)得到份額向量最優(yōu)解,即投資組合p中每個(gè)分量的權(quán)重,如式(21)所示。
將式(21)代入目標(biāo)函數(shù)可得風(fēng)險(xiǎn)如式(22)所示。整理得到風(fēng)險(xiǎn)資產(chǎn)組合可能取到的均值-方差前沿,即圖1中的雙曲線,如式(23)所示。綜合式(10)和式(19),得到尋找Hessian 矩陣的主特征方向(如式(24)所示)與CAPM 中基于協(xié)方差矩陣計(jì)算均值方差前沿的過程(如式(25)所示)等價(jià)。由于式(24)計(jì)算Hessian 矩陣的最大主成分,式(25)計(jì)算協(xié)方差矩陣的最小主成分,因此H=V-1,而互逆矩陣的特征向量相同,對應(yīng)特征值互為倒數(shù),由此等價(jià)關(guān)系成立。在問題式(25)的約束條件中加入單位風(fēng)險(xiǎn)下收益最大的約束(限定為夏普比率最大的解),得到資本市場線及對應(yīng)切點(diǎn)的收益水平,如式(26)所示。將式(26)代入式(21),即為問題式(24)和式(25)的最優(yōu)解。
以上過程借由資本資產(chǎn)定價(jià)模型和夏普比率完成了基于二階梯度的優(yōu)化計(jì)算過程。
首先,將多分類問題轉(zhuǎn)化成一類和其他類的單分類問題。對每一個(gè)單分類問題而言,優(yōu)化目標(biāo)是最大化類間區(qū)分,即經(jīng)過特征提取后,同類樣本分布之間距離最小化,非同類樣本分布之間距離最大化,同時(shí)保證分布的穩(wěn)定性?;赪 距離定義收益函數(shù)如式(27)所示。為每類樣本取一個(gè)標(biāo)準(zhǔn)分布,Wb和Wi分別是標(biāo)準(zhǔn)分布與其他類樣本和同類樣本分布W 距離的均值。定義基于收益的損失函數(shù)如式(28)所示。
顯然,最小化損失等價(jià)于最大化收益。對經(jīng)過穩(wěn)定性篩選的節(jié)點(diǎn),計(jì)算每個(gè)節(jié)點(diǎn)(即特征空間維度)上收益的期望、協(xié)方差和相關(guān)系數(shù)。顯然,在收益期望最大的一部分維度上,不同類的樣本距離較遠(yuǎn),同類樣本趨向聚集,類別間已經(jīng)有了較好的區(qū)分?;诿總€(gè)這樣的維度來構(gòu)建通往上層的組合,組合的目標(biāo)是最大化收益和最小化風(fēng)險(xiǎn),即最大化單位風(fēng)險(xiǎn)下的收益,因此選取收益期望最大的部分組合采樣點(diǎn),加入弱相關(guān)的點(diǎn)以增強(qiáng)采樣視角多樣性,負(fù)相關(guān)的點(diǎn)以對沖方差,降低不穩(wěn)定性。
然后,依據(jù)式(26)和式(21)對每一個(gè)組合計(jì)算最優(yōu)組合權(quán)重,獲得這一層的優(yōu)化方向。計(jì)算出的權(quán)重直接用于生成上層節(jié)點(diǎn),構(gòu)建在單分類任務(wù)下具有類別區(qū)分度且較為穩(wěn)定的特征。
最后,通過Stacking 相同操作的方式逐層堆疊,逐步構(gòu)建區(qū)分度更好、穩(wěn)定更強(qiáng)的單分類特征。在完成對每一類圖像的單分類特征構(gòu)建后,借鑒自注意力機(jī)制訓(xùn)練出每一個(gè)單分類特征的權(quán)重,再將模型接入全連接層,通過監(jiān)督學(xué)習(xí)進(jìn)行分類訓(xùn)練。
基于W 距離的網(wǎng)絡(luò)結(jié)構(gòu)生成具體步驟如下:
1)為每類選取標(biāo)準(zhǔn)分布,計(jì)算類內(nèi)和類間分布的W 距離。
2)基于W 距離計(jì)算收益。
3)計(jì)算每個(gè)維度上收益的期望、協(xié)方差和相關(guān)系數(shù),基于收益期望和相關(guān)系數(shù)選取組合。
4)對每一個(gè)組合,由式(26)計(jì)算出夏普比率最大時(shí)的收益值μp,從而由式(21)計(jì)算包含每個(gè)較優(yōu)視角上的最優(yōu)組合權(quán)重。
5)利用步驟4 中計(jì)算出的權(quán)重構(gòu)建上層節(jié)點(diǎn)。
6)逐層Stacking,構(gòu)建對單分類區(qū)分度高的穩(wěn)定特征。
為驗(yàn)證本文方法的有效性,在AlexNet、ResNet50等傳統(tǒng)SOTA 預(yù)訓(xùn)練模型和ImageNet-2012 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。基于從ImageNet-2012 的1 000 類圖像數(shù)據(jù)中選取的111 類動植物數(shù)據(jù),在準(zhǔn)確率、召回率、訓(xùn)練數(shù)據(jù)量等方面對模型進(jìn)行性能評估。
實(shí)驗(yàn)使用的ImageNet 數(shù)據(jù)集類別具體如下:
1)蛇,n01728572/thunder snake、n01728920/ringneck snake、n01729322/hognose snake 等共計(jì)17 個(gè)類別。
2)蝴蝶,n02276258/admiral、n02277742/ringlet、n02279972/monarch 等共計(jì)6 個(gè)類別。
3)貓,n02123045/tabby cat、n02123159/tiger cat、n02123394/Persian cat 等共計(jì)7 個(gè)類別。
4)豹,n02128385/leopard、n02128757/snow leopard、n02128925/jaguar 共計(jì)3 個(gè)類別。
5)狗,n02085620/Chihuahua、n02085782/Japanese spaniel、n02085936/Maltese dog 等共計(jì)10 個(gè)類別。
6)魚,n01443537/goldfish、n01484850/white shark、n01491361/tiger shark 等共計(jì)6 個(gè)類別。
7)鳥,n02002724/black stork、n02006656/spoonbill、n02007558/flamingo 等共計(jì)8 個(gè)類別。
8)蜘蛛,n01773157/black and gold garden spider、n01773549/barn spider、n01773797/garden spider 等共計(jì)7 個(gè)類別。
9)猴子,n02483362/gibbon、n02487347/macaque、n02494079/squirrel monkey 等共計(jì)4 個(gè)類別。
10)蜥蜴,n01675722/banded gecko、n01677366/common iguana、n01682714/American chameleon 等共計(jì)11 個(gè)類別。
11)壁虎,n01629819/European fire salamander、n01630670/common newt、n01631663/eft 等共計(jì)5 個(gè)類別。
12)狐貍,n02119022/red fox、n02119789/kit fox、n02120079/Arctic fox 等共 計(jì)4 個(gè)類 別。
13)貍,n02441942/weasel、n02442845/mink、n02443114/polecat 等共計(jì)7 個(gè)類別。
14)牛,n02403003/ox、n02408429/water buffalo、n02410509/bison 共計(jì)3 個(gè)類別。
15)羊,n02412080/ram、n02415577/bighorn、n02417914/ibex 等共計(jì)6 個(gè)類別。
16)菌菇,n12985857/coral fungus、n12998815/agaric、n13037406/Gyromitra 等共計(jì)7 個(gè)類別。
通過干預(yù)調(diào)制得到具有多樣性的序列數(shù)據(jù),分別依據(jù)不變性和因果穩(wěn)定性對卷積結(jié)構(gòu)進(jìn)行分析。使用W 距離來衡量輸出序列分布的差異性,利用標(biāo)準(zhǔn)差來衡量W 距離序列的穩(wěn)定性。根據(jù)所有采樣點(diǎn)上W 距離標(biāo)準(zhǔn)差的分布情況,設(shè)定剪枝閾值:
其中:mmid為W 距離 序列方 差的中位數(shù);εmid為 中段數(shù)據(jù)(如1/4 至3/4 的分位點(diǎn))的標(biāo)準(zhǔn)差。根據(jù)實(shí)驗(yàn)中的具體情況,取C為4、5、6。
選取卷積結(jié)構(gòu)的中間輸出,在每類類內(nèi)分布上計(jì)算W 距離,基于方差篩選節(jié)點(diǎn)去噪。圖3 反映了在基于各種不變性的序列上計(jì)算分布W 距離情況,其中,縱軸為類內(nèi)分布W 距離標(biāo)準(zhǔn)差,橫軸為采樣點(diǎn)序號(按縱坐標(biāo)升序排列)。由圖3 可知,大約有20%的采樣點(diǎn)上的輸出分布方差較大,依據(jù)該方差分布確定閾值常數(shù)C,從而確定剪枝的閾值。基于格蘭杰因果檢驗(yàn)的剪枝與之類似,取閾值為0.01 的顯著性水平,篩去約20%的采樣點(diǎn)。
圖3 卷積結(jié)構(gòu)對噪聲的響應(yīng)與去噪效果Fig.3 Response of convolutional structure to noise and denoising effect
此時(shí)直接接入預(yù)訓(xùn)練模型的全連接層能觀察到對應(yīng)類別分類的召回率提升。圖4 給出了基于各種不變性去噪剪枝的召回率提升情況,其中,橫軸為按原模型召回率升序排列的111 類圖片,縱軸為召回率。由圖4 可以看出,大部分類別的樣本經(jīng)修剪后的模型分類召回率均有所提升,部分類別的提升甚至超過10 個(gè)百分點(diǎn),驗(yàn)證了本文方法的有效性。
圖4 去噪后的召回率提升情況Fig.4 Recall improvement after denoising
表2 給出了模型修剪前后所有類別上的平均召回率變化情況,可以看出本文修剪方法在總體上平均能夠帶來2~4 個(gè)百分點(diǎn)的分類召回率提升,表明基于不變性和因果干預(yù)的調(diào)制方式確實(shí)能篩選出模型對噪聲敏感的結(jié)構(gòu),提高模型穩(wěn)定提取特征的能力。另外,可以觀察到基于高斯模糊因果干預(yù)和尺度不變性的召回率提升相對平移不變性更大,主要原因?yàn)镃NN 卷積結(jié)構(gòu)本身具有一定程度的平移不變性,基于平移不變性的干預(yù)調(diào)制對分類性能的提升相對有限。
表2 去噪前后的召回率比較Table 2 Comparison of recall rates before and after denoising %
對經(jīng)過篩選的點(diǎn)計(jì)算W 距離、收益和最優(yōu)組合權(quán)重,構(gòu)建上層節(jié)點(diǎn)。對比組合前后,觀察到類內(nèi)類間區(qū)分度的提升和波動的降低。圖5 是隨機(jī)選擇的某個(gè)類別(tabby cat)在經(jīng)過組合前后類內(nèi)類間W 距離區(qū)分度示例,橫軸表示該層收益最好的300 個(gè)(top300)維度,縱軸表示在該維度上樣本類內(nèi)外分布的W距離。由圖5可以看到,在模型經(jīng)過優(yōu)化組合后,樣本的類間分布距離和類內(nèi)分布距離的區(qū)別更加明顯,即樣本在一些維度上的表示逐漸能夠和其他類別的樣本區(qū)分開來,波動也有所降低,穩(wěn)定性提高,表明在這些維度上正在逐步構(gòu)建單分類的穩(wěn)定特征。
圖5 組合前后的類內(nèi)類間區(qū)分度Fig.5 Distinctions between inside class and outside class before and after combination
表3 隨機(jī)選擇一些類別,觀察組合前后收益的變化,即類間分布W 距離和類內(nèi)分布W 距離的比值。由表3 中可以看出,類別整體收益提升,即樣本類內(nèi)外區(qū)分度在組合后有增大的趨勢,驗(yàn)證了本文組合方法的有效性。
表3 組合前后的收益變化Table 3 Profit changes before and after combination
將按照每個(gè)類別優(yōu)化生成的單分類特征采用自注意力機(jī)制訓(xùn)練加權(quán),再通過全連接層進(jìn)行分類。所有方法在相同的ImageNet 111類驗(yàn)證集上進(jìn)行測試。表4反映了去噪剪枝和網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化生成對分類準(zhǔn)確率的最終貢獻(xiàn),可以看出相比ResNet50 基線預(yù)訓(xùn)練模型,本文優(yōu)化模型(Ours)在ImageNet 111 類數(shù)據(jù)上測試集準(zhǔn)確率提升了約5 個(gè)百分點(diǎn)。表5 從訓(xùn)練集規(guī)模方面反映了本文方法的訓(xùn)練效率,可以看出本文優(yōu)化模型在預(yù)訓(xùn)練模型的基礎(chǔ)上只需要每類20 張圖片的小樣本用于優(yōu)化,大幅提升了訓(xùn)練效率。
表4 測試集準(zhǔn)確率比較Table 4 Comparison of accuracy of test sets %
表5 訓(xùn)練集規(guī)模比較Table 5 Comparison of training set sizes
本文提出一種基于因果干預(yù)與不變性的CNN卷積結(jié)構(gòu)圖像識別模型優(yōu)化方法,通過對非序列數(shù)據(jù)進(jìn)行基于各種不變性的干預(yù)調(diào)制,篩選出模型中具有各種不變性和因果穩(wěn)定性的子結(jié)構(gòu),改善模型對純粹統(tǒng)計(jì)關(guān)聯(lián)性的依賴,并進(jìn)一步基于對樣本類別間分布的W 距離度量,構(gòu)建組合捕捉特征間長距離相關(guān)依賴,生成具有類別區(qū)分度的優(yōu)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),構(gòu)建概念層次的穩(wěn)定特征。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的深度模型相比ResNet50 基線預(yù)訓(xùn)練模型準(zhǔn)確率約提升了5 個(gè)百分點(diǎn),并大幅降低了訓(xùn)練集規(guī)模。下一步將融合基于不變性和因果干預(yù)的分析結(jié)果,引入頻域分析等方法,對網(wǎng)絡(luò)結(jié)構(gòu)做出更精確的篩選判斷并設(shè)計(jì)更高效的優(yōu)化方法。