張紅英, 董珂臻
西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安 710049
稀疏性是高維空間中信號(hào)或者數(shù)據(jù)的普遍內(nèi)蘊(yùn)屬性,意謂可以僅用少數(shù)位于低維子空間的參數(shù)(特征變量)近似表示高維空間的復(fù)雜物理過(guò)程.例如,在壓縮感知領(lǐng)域,圖像可用小波基線性表示并得到表示系數(shù),保留較大系數(shù),對(duì)較小系數(shù)賦值為0,可得到圖像的近似表示.通過(guò)此近似表示對(duì)圖像進(jìn)行復(fù)原,基本可以恢復(fù)原圖[1].因此,圖像可通過(guò)少數(shù)系數(shù)(特征變量)近似線性表示,稱為圖像的稀疏表示.稀疏性廣泛存在于高維數(shù)據(jù)特征選擇、稀疏信號(hào)恢復(fù)以及眾多其他問(wèn)題[2-4]之中.這些問(wèn)題具有共同特點(diǎn): 在數(shù)據(jù)生成過(guò)程中,特征變量的數(shù)量大于采樣數(shù)量.具有這樣特點(diǎn)的問(wèn)題被稱為高維統(tǒng)計(jì)分析問(wèn)題.稀疏統(tǒng)計(jì)學(xué)習(xí)正是處理這類問(wèn)題的有效方法.
近10年來(lái),深度學(xué)習(xí)在人臉識(shí)別、語(yǔ)音處理和文本分析等領(lǐng)域獲得空前成功,在眾多任務(wù)上均達(dá)到接近甚至超越人類的性能表現(xiàn).然而,大量的網(wǎng)絡(luò)參數(shù)會(huì)帶來(lái)訓(xùn)練代價(jià)巨大、容易過(guò)擬合等問(wèn)題,網(wǎng)絡(luò)的黑箱特性也導(dǎo)致模型可解釋性較弱.稀疏統(tǒng)計(jì)學(xué)習(xí)固有的約簡(jiǎn)特性和強(qiáng)可解釋性,提供了解決上述問(wèn)題的一種可能.將稀疏統(tǒng)計(jì)學(xué)習(xí)與深度學(xué)習(xí)結(jié)合,成為受到廣泛關(guān)注的熱點(diǎn)領(lǐng)域.相關(guān)研究大致可以分為基于稀疏建模的深度學(xué)習(xí)方法和數(shù)據(jù)驅(qū)動(dòng)的稀疏統(tǒng)計(jì)分析方法.前者通過(guò)稀疏建模的思想與方法,進(jìn)行深度神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法的設(shè)計(jì).后者則利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表示能力,通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表示,并應(yīng)用于稀疏統(tǒng)計(jì)學(xué)習(xí)模型.越來(lái)越多的研究集中于該領(lǐng)域,并獲得了令人欣喜的成果.
本文從經(jīng)典的稀疏統(tǒng)計(jì)學(xué)習(xí)方法出發(fā),回顧經(jīng)典的稀疏回歸分析方法,并對(duì)深度神經(jīng)網(wǎng)絡(luò)與稀疏統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的研究進(jìn)行簡(jiǎn)要綜述.
回歸分析方法作為統(tǒng)計(jì)數(shù)據(jù)分析強(qiáng)有力的工具之一,一直是統(tǒng)計(jì)學(xué)的研究熱點(diǎn),同時(shí)也被廣泛應(yīng)用于自然科學(xué)及社會(huì)科學(xué)的各個(gè)領(lǐng)域.回歸分析旨在描述輸出變量與特征變量的關(guān)系,并進(jìn)行統(tǒng)計(jì)建模和推斷.近年來(lái),隨著計(jì)算與數(shù)據(jù)采集能力的持續(xù)提高,高維數(shù)據(jù)逐漸成為回歸分析的重要對(duì)象.為得到正定解,在高維數(shù)據(jù)回歸分析中,一般使用基于稀疏性假設(shè)的正則化框架.本節(jié)將在正則化框架下,綜述稀疏回歸分析的各類模型.
(1)
模型(1)稱為統(tǒng)計(jì)學(xué)習(xí)的正則化框架,其中L(·)是損失函數(shù),P(·)是正則項(xiàng),λ是正則化參數(shù).特定的正則化框架會(huì)使模型的解具有正定性、光滑性和稀疏性等性質(zhì),從而提高了模型的精度和可解釋性.不同的方法常根據(jù)不同的先驗(yàn)信息選擇不同的損失函數(shù)和正則項(xiàng).
稀疏性假設(shè)是針對(duì)高維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模和分析的重要手段.稀疏性假設(shè)意指在統(tǒng)計(jì)模型中,僅少數(shù)特征變量對(duì)輸出產(chǎn)生重要影響.基于稀疏性假設(shè),稀疏回歸分析旨在基于回歸分析框架對(duì)高維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模、分析和推斷.
因僅少數(shù)特征變量產(chǎn)生重要影響,變量選擇便成為稀疏回歸分析中的關(guān)鍵問(wèn)題.最優(yōu)子集選擇[5]則是最直接的變量選擇方法.
對(duì)于多元線性回歸模型
y=Xβ+ε
(2)
其中X=(x1,x2,…,xp),β=(β1,β2,…,βp)T,ε是隨機(jī)噪聲.最優(yōu)子集選擇在所有包含m(0≤m≤p)個(gè)變量的模型中,選擇擬合效果最好(殘差最小)的一個(gè).
最優(yōu)子集的選擇可以被納入統(tǒng)計(jì)學(xué)習(xí)的正則化框架,可以被看作是基于L0-正則項(xiàng)的最小二乘模型.假設(shè)‖β‖0是向量β的L0-范數(shù),其中L0-范數(shù)表示向量β中的非零元素個(gè)數(shù),則基于L0-懲罰的最小二乘估計(jì)準(zhǔn)則為
(3)
當(dāng)‖β‖0=m時(shí),模型(3)的解等價(jià)于最優(yōu)子集選擇的結(jié)果.求解模型(3)是NP-難問(wèn)題[6],已知算法均無(wú)法在多項(xiàng)式時(shí)間內(nèi)有效解決.因此,求解過(guò)程通常需要進(jìn)行近似.值得指出的是,一些準(zhǔn)則例如AIC準(zhǔn)則[7]、BIC準(zhǔn)則[8]、HQIC準(zhǔn)則[9]等也是L0-正則化模型.
求解模型(3)的NP-難問(wèn)題,一個(gè)重要方法就是利用正則化框架進(jìn)行松弛處理.
Tikhonov正則化方法通過(guò)利用控制函數(shù)光滑性的懲罰項(xiàng)解決積分方程不可解或者有無(wú)窮多解的問(wèn)題,是一種標(biāo)準(zhǔn)的求解非適定積分方程的方法.以求解逆問(wèn)題的觀點(diǎn)來(lái)看,嶺回歸模型可以認(rèn)為是Tikhonov正則化方法的特例[10],其形式為
(4)
模型(4)用L2-正則項(xiàng)代替模型(3)中的L0-正則項(xiàng),具有解析解,并具有收縮性質(zhì),即迫使參數(shù)β的所有元素趨向于0,卻不恰等于0.因此,模型(4)不具有變量選擇性質(zhì),且在參數(shù)較大時(shí)會(huì)帶來(lái)偏差.
文獻(xiàn)[11]提出了基于線性回歸模型的非負(fù)絞刑模型.該模型可看作3個(gè)步驟:
(ii) 求解模型
(5)
非負(fù)絞刑模型具有變量選擇性質(zhì),并且可以得到比最優(yōu)子集選擇和逐步選擇方法更加穩(wěn)定的解.
受到非負(fù)絞刑模型的啟發(fā),文獻(xiàn)[12]提出了Lasso模型.該模型使用L1-正則項(xiàng)替代最優(yōu)子集選擇中的L0-正則項(xiàng).幾乎在同一時(shí)期,L1-正則項(xiàng)同樣被用于信號(hào)處理領(lǐng)域的基追蹤方法[13].基于L1-正則項(xiàng)的Lasso模型具有形式
(6)
Lasso懲罰具有變量選擇性質(zhì),且是L0-范數(shù)的最緊凸松弛,在特定條件下,兩者的解完全等價(jià).大量的研究顯示,基于L1-正則項(xiàng)的Lasso模型具有強(qiáng)可解釋性、統(tǒng)計(jì)有效性[14]和計(jì)算高效性等良好性質(zhì),因此得到了廣泛關(guān)注和應(yīng)用.
Lasso模型在變量選擇過(guò)程中,通過(guò)對(duì)全部特征變量的系數(shù)施加相同程度的懲罰進(jìn)行系數(shù)收縮,以達(dá)到將與響應(yīng)變量無(wú)關(guān)的冗余變量壓縮為0的目的.然而,這會(huì)使得與響應(yīng)變量相關(guān)的目標(biāo)變量的系數(shù)也受到相同程度的壓縮,導(dǎo)致回歸系數(shù)的估計(jì)是有偏的.
為得到無(wú)偏或者近似無(wú)偏的估計(jì),文獻(xiàn)[15]提出了自適應(yīng)Lasso模型.自適應(yīng)Lasso模型具有形式
(7)
其中,w∈Rp是已知的權(quán)重向量.自適應(yīng)Lasso模型采用重新加權(quán)的L1-范數(shù),能夠修正Lasso模型的過(guò)度估計(jì),并且具有Oracle性質(zhì).
Lasso模型的另一個(gè)缺陷是無(wú)法妥善處理特征變量間具有高相關(guān)性的數(shù)據(jù).當(dāng)一組特征變量?jī)蓛芍g相關(guān)性很高時(shí),Lasso模型傾向于只選擇其中任意一個(gè); 當(dāng)n
p且特征變量間有強(qiáng)相關(guān)性時(shí),Lasso模型的性能遜于嶺回歸模型.為了克服此缺陷,文獻(xiàn)[16]提出了彈性網(wǎng)模型.該模型的懲罰項(xiàng)是Lasso懲罰與嶺回歸懲罰的凸組合,具體形式為
(8)
當(dāng)特征變量高相關(guān)時(shí),彈性網(wǎng)模型會(huì)使這些變量的系數(shù)趨向于相同,因此,彈性網(wǎng)模型可以選到全部相關(guān)的特征變量.
另一種研究特征變量間相關(guān)性的方法是利用其組結(jié)構(gòu),將特征變量分組,研究不同組的特征變量與輸出之間的關(guān)系.組Lasso模型[17]就用來(lái)解決此類問(wèn)題,其形式為
(9)
當(dāng)某個(gè)組在組Lasso模型擬合中被選中時(shí),該組中的所有系數(shù)均不為0,因此無(wú)法處理組內(nèi)個(gè)別目標(biāo)變量的回歸系數(shù)不為0的情況.為了實(shí)現(xiàn)組內(nèi)稀疏性,稀疏組Lasso模型[18-19]對(duì)組Lasso模型進(jìn)行了改進(jìn),其形式為
(10)
其中λ1,λ2≥0.模型(10)可以同時(shí)實(shí)現(xiàn)組間與組內(nèi)稀疏性.當(dāng)λ1=0時(shí),模型(10)退化為組Lasso模型; 當(dāng)λ2=0時(shí),模型(10)退化為L(zhǎng)asso模型.
Lasso模型無(wú)法處理連續(xù)變量數(shù)據(jù).為克服這個(gè)缺陷,融合Lasso模型[20]對(duì)Lasso模型進(jìn)行了擴(kuò)展,其具體形式為
(11)
其中λ1,λ2≥0,Bβ=[β1-β2,β2-β3,…,βp-1-βp]T.模型(11)通過(guò)促使相鄰系數(shù)趨于相同以保證獲得稀疏解以及數(shù)據(jù)的局部連續(xù)性.
除了上述參數(shù)回歸模型之外,一些基于稀疏正則化框架的非參數(shù)模型也得到了廣泛研究.非參數(shù)回歸往往受到“維數(shù)災(zāi)難”的困擾,因此近似方法對(duì)于該類模型至關(guān)重要.加法模型正是此類近似方法,該模型為
(12)
通過(guò)在加法模型上應(yīng)用Lasso懲罰,文獻(xiàn)[21]提出了稀疏加法模型
(13)
任何非參數(shù)方法均可以用于擬合模型(13).Backfitting算法[22]同樣適用于計(jì)算模型(13).
L0-正則化模型中L0-范數(shù)是向量中非零元素的個(gè)數(shù),為非凸非連續(xù)函數(shù).因此,L0-正則化模型是基于非凸正則項(xiàng)的稀疏回歸模型.
文獻(xiàn)[23-25]發(fā)現(xiàn)Lasso估計(jì)需要在特定條件下才具有較好的變量估計(jì)和選擇特性,且即使在這些條件下,Lasso估計(jì)仍存在偏差.為克服上述缺陷,可采用非凸的0 (14) 文獻(xiàn)[26]提出了bridge回歸模型 (15) 其中0<γ.模型(15)搭起了最優(yōu)子集選擇與嶺回歸之間的橋梁.當(dāng)0<γ<1時(shí),正則項(xiàng)是非凸的,其等價(jià)于0 (16) (17) (18) 其中 且 (19) (20) 使得D=DZ+E.模型(20)利用增廣拉格朗日乘子方法(ALM)[40]和Half閾值算子進(jìn)行求解. (21) 并提出了求解的迭代算法,同時(shí)證明了其收斂性. (22) EKh和Ekv分別表示水平方向和豎直方向的運(yùn)算. (23) 使得R=S+T,T=Z+C.其中 ⊙是張量核范數(shù)[46],表示張量秩的最緊凸松弛.模型(23)通過(guò)基于交替方向最小化(ADM)[47]的增廣拉格朗日乘子法(ALM)進(jìn)行優(yōu)化求解[40]. 鑒于非凸正則項(xiàng)的顯著優(yōu)勢(shì),除0 (24) 其中,pλ(βi)的形式為 (25) 其中λ≥0,a>2.SCAD正則項(xiàng)可以產(chǎn)生具有Oracle性質(zhì)的估計(jì). 文獻(xiàn)[49]提出了極小極大凹正則項(xiàng)(MCP),其形式為 (26) 其中a>1.模型(26)理論上近似無(wú)偏,且具有Oracle性質(zhì). SCAD和MCP均為Folded Concave懲罰函數(shù),分別是軟閾值方法和硬閾值方法的拓展.SCAD是連續(xù)的,但MCP不連續(xù). 過(guò)去10年,深度神經(jīng)網(wǎng)絡(luò)的研究取得了空前的成功,尤其在圖像、語(yǔ)音、文本等任務(wù)上表現(xiàn)出色.深度神經(jīng)網(wǎng)絡(luò)研究的成功極大地拓寬了處理高維數(shù)據(jù)方法的邊界,提高了處理能力.然而,現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和應(yīng)用中通常被當(dāng)作“黑箱”,其內(nèi)部原理依然不清晰,可解釋性較差,因而無(wú)法嚴(yán)格保證模型性能.另外,現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)參數(shù)量巨大,訓(xùn)練過(guò)程需要大量訓(xùn)練數(shù)據(jù).這使得深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的計(jì)算消耗巨大,常需要龐大的計(jì)算資源支持,效率較低. 作為處理高維數(shù)據(jù)的經(jīng)典方法,稀疏統(tǒng)計(jì)分析方法依據(jù)統(tǒng)計(jì)理論和不同先驗(yàn)信息建模,通常有較強(qiáng)的可解釋性.同時(shí),稀疏統(tǒng)計(jì)分析方法并不依靠大量訓(xùn)練數(shù)據(jù),求解過(guò)程也僅需要少量迭代便能達(dá)到較好性能,因而計(jì)算消耗較小,效率較高.如何將稀疏統(tǒng)計(jì)分析方法與深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),使模型兼具兩種方法優(yōu)點(diǎn),逐漸成為廣受關(guān)注的熱點(diǎn)問(wèn)題. 已有研究大致可以分為兩個(gè)方向: 基于稀疏建模的深度學(xué)習(xí)方法和基于數(shù)據(jù)驅(qū)動(dòng)的稀疏統(tǒng)計(jì)分析方法.本節(jié)將針對(duì)這兩方面的相關(guān)方法進(jìn)行綜述. 基于稀疏建模的深度學(xué)習(xí)方法通過(guò)稀疏統(tǒng)計(jì)分析方法進(jìn)行數(shù)據(jù)建模,并據(jù)此進(jìn)行深度神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法的設(shè)計(jì).此類方法通常包含深度神經(jīng)網(wǎng)絡(luò)展開(kāi)、神經(jīng)網(wǎng)絡(luò)剪枝、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索等主題.本文以深度神經(jīng)網(wǎng)絡(luò)展開(kāi)為例進(jìn)行介紹. 深度神經(jīng)網(wǎng)絡(luò)展開(kāi)是基于稀疏建模的深度學(xué)習(xí)方法的典型代表.深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)通常需要交替地進(jìn)行線性和非線性的變換,其中非線性變換借由ReLU等激活函數(shù)完成.此類結(jié)構(gòu)與稀疏統(tǒng)計(jì)學(xué)習(xí)模型中的閾值迭代算法十分類似,其中閾值算子可以看作激活函數(shù).鑒于這種聯(lián)系,將稀疏編碼算法展開(kāi)成為神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)展開(kāi)方法逐漸受到關(guān)注. 早期的深度網(wǎng)絡(luò)展開(kāi)方法可以追溯到文獻(xiàn)[50]的工作,為了提高稀疏編碼算法的計(jì)算效率,提出了一種端到端的學(xué)習(xí)方法(LISTA).該算法將求解稀疏編碼問(wèn)題的ISTA迭代算法[51]的每一步迭代看作循環(huán)神經(jīng)網(wǎng)絡(luò)的一層,由此得到一個(gè)多層循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)學(xué)習(xí)參數(shù),自動(dòng)地學(xué)得字典和稀疏編碼. 稀疏編碼問(wèn)題的目標(biāo)是求解模型(27)的稀疏編碼: (27) 其中λ>0,W∈Rn×m是過(guò)完備字典.ISTA迭代算法是求解稀疏編碼模型(27)的常用方法之一.其迭代過(guò)程為 (28) 其中Sλ是逐元素的軟閾值算子,其在每個(gè)元素上定義為 Sλ(x)=sign(x)·max{‖x‖-λ,0} (29) xl+1=Sλ{(lán)Wtxl+Wey}l=0,1,… (30) 仔細(xì)觀察公式(30)可以發(fā)現(xiàn),ISTA迭代算法的每一步迭代中,輸入xl經(jīng)過(guò)線性變換和軟閾值算子,得到新的xl+1.這可以看作深度神經(jīng)網(wǎng)絡(luò)中的一層,其中軟閾值算子對(duì)應(yīng)于神經(jīng)網(wǎng)絡(luò)中的激活函數(shù).執(zhí)行L步迭代相當(dāng)于連接了L層的深度神經(jīng)網(wǎng)絡(luò).基于此,LISTA將ISTA展開(kāi)為深度神經(jīng)網(wǎng)絡(luò),其訓(xùn)練損失函數(shù)為 (31) LISTA通過(guò)將稀疏編碼算法展開(kāi)為深度神經(jīng)網(wǎng)絡(luò),以一種可學(xué)習(xí)的方式獲得了稀疏編碼問(wèn)題的解.該模型基于稀疏編碼算法,有著強(qiáng)可解釋性.同時(shí),該模型在計(jì)算效率上有著顯著的優(yōu)勢(shì).實(shí)驗(yàn)表明,在達(dá)到同一精度的條件下,該模型比某些經(jīng)典ISTA方法快將近20倍. 此外,其他針對(duì)稀疏編碼問(wèn)題的算法同樣可以被展開(kāi)為深度神經(jīng)網(wǎng)絡(luò).例如,文獻(xiàn)[52-54]將ADMM算法展開(kāi)為神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[55-57]將近端梯度下降算法展開(kāi)為深度神經(jīng)網(wǎng)絡(luò),均獲得了不錯(cuò)的表現(xiàn). 除了深度神經(jīng)網(wǎng)絡(luò)展開(kāi)外,稀疏統(tǒng)計(jì)學(xué)習(xí)方法在深度學(xué)習(xí)的其他方面也有著廣泛的應(yīng)用.例如,神經(jīng)網(wǎng)絡(luò)正則化方法Dropout[58]因其可誘導(dǎo)核范數(shù)[59-61]而可被看作探索網(wǎng)絡(luò)稀疏結(jié)構(gòu)的方式之一; 深度神經(jīng)網(wǎng)絡(luò)的初始化權(quán)重方法[62]、特征標(biāo)準(zhǔn)化方法[63]等訓(xùn)練方法看作稀疏信號(hào)恢復(fù)或低秩矩陣恢復(fù)算法中的等距約束性質(zhì)[64],從而保證模型的性能表現(xiàn). 實(shí)際應(yīng)用中,稀疏統(tǒng)計(jì)分析方法常依賴于手工得到的低階特征,表示能力有限.特征表示的好壞往往對(duì)模型性能有著重要影響.基于數(shù)據(jù)驅(qū)動(dòng)的稀疏統(tǒng)計(jì)分析方法通常建立在傳統(tǒng)稀疏統(tǒng)計(jì)分析模型基礎(chǔ)之上,利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力,學(xué)習(xí)數(shù)據(jù)的高階特征,并應(yīng)用于稀疏統(tǒng)計(jì)分析方法之中,以提升模型性能. 深度哈希學(xué)習(xí)便是數(shù)據(jù)驅(qū)動(dòng)的稀疏回歸分析模型的應(yīng)用之一.文獻(xiàn)[65]提出了深度語(yǔ)義排序模型(DSRH),將深度卷積神經(jīng)網(wǎng)絡(luò)整合到哈希函數(shù)中,共同學(xué)習(xí)特征表示及哈希函數(shù),并保持特征表示與哈希編碼之間的相似性,擺脫了手工特征語(yǔ)義表示能力的限制.同時(shí),該方法利用編碼多層次相似度信息的排序表來(lái)指導(dǎo)深度哈希函數(shù)的學(xué)習(xí).文獻(xiàn)[66]提出了深度監(jiān)督哈希模型(DSH),該模型基于卷積神經(jīng)網(wǎng)絡(luò)框架設(shè)計(jì),將成對(duì)的圖像(相似或者不相似)作為訓(xùn)練輸入以學(xué)習(xí)近似離散的二元哈希編碼表示. 相比于含有兩階段過(guò)程的深度哈希學(xué)習(xí)方法,端到端的深度哈希學(xué)習(xí)方法以其能大幅提高所學(xué)哈希編碼的表示能力而受到廣泛關(guān)注.文獻(xiàn)[67]將卷積神經(jīng)網(wǎng)絡(luò)引入哈希學(xué)習(xí)方法,提出了一種深度監(jiān)督哈希學(xué)習(xí)方法(DPSH).模型首先通過(guò)網(wǎng)絡(luò)學(xué)習(xí)圖像的特征表示,然后將此特征表示通過(guò)哈希函數(shù)映射為哈希編碼.模型以端到端的方式,通過(guò)衡量成對(duì)標(biāo)簽相似性的損失函數(shù)同時(shí)學(xué)習(xí)特征表示和哈希編碼.為了進(jìn)一步探索標(biāo)簽信息,文獻(xiàn)[68]在DPSH基礎(chǔ)上增加了一個(gè)判別項(xiàng)用以更新二值編碼.文獻(xiàn)[69]利用錨點(diǎn)圖設(shè)計(jì)出深度監(jiān)督哈希學(xué)習(xí)方法(DAGH),可以更加高效地獲得哈希編碼.模型通過(guò)構(gòu)建樣本錨點(diǎn)子集,并建立錨點(diǎn)與哈希編碼之間聯(lián)系的方式達(dá)到提高計(jì)算效率的目的. 深度典型相關(guān)分析也是數(shù)據(jù)驅(qū)動(dòng)的稀疏多元分析方法的代表之一.文獻(xiàn)[70]提出了早期的深度典型相關(guān)分析方法(Deep CCA).該方法先用深度神經(jīng)網(wǎng)絡(luò)分別求出兩個(gè)視圖的投影向量,然后通過(guò)最大化兩個(gè)投影向量的相關(guān)性進(jìn)行求解.Deep CCA在訓(xùn)練過(guò)程中需要將全部訓(xùn)練數(shù)據(jù)作為一個(gè)批次,因此不能應(yīng)對(duì)大規(guī)模的數(shù)據(jù).為解決該問(wèn)題,文獻(xiàn)[71]提出了隨機(jī)Deep CCA(SDCCA).該模型將神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練嵌入交替最小二乘方法,以適應(yīng)小批次隨機(jī)優(yōu)化.文獻(xiàn)[72]針對(duì)多模態(tài)數(shù)據(jù),提出了基于深度典型相關(guān)分析的處理方法DCCA.該模型利用深度全連接網(wǎng)絡(luò)學(xué)習(xí)文本數(shù)據(jù)的特征,并利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)圖像數(shù)據(jù)的特征.隨后兩個(gè)模態(tài)的數(shù)據(jù)被當(dāng)作兩個(gè)視圖的數(shù)據(jù)矩陣輸入典型相關(guān)分析框架.深度自編碼器同樣被用于典型相關(guān)分析.文獻(xiàn)[73]基于CCA框架提出了深度典型相關(guān)自編碼器(DCCAE),將典型相關(guān)分析與深度自編碼器進(jìn)行結(jié)合,達(dá)到了更好的性能.文獻(xiàn)[74]提出了相關(guān)神經(jīng)網(wǎng)絡(luò)(CorrNet)以進(jìn)一步描述重構(gòu)誤差.該模型可以利用已存在的一個(gè)視圖準(zhǔn)確恢復(fù)另一個(gè)視圖. 大數(shù)據(jù)時(shí)代,作為傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)經(jīng)典方法的稀疏統(tǒng)計(jì)學(xué)習(xí),在高維數(shù)據(jù)處理領(lǐng)域發(fā)揮著舉足輕重的作用,基于稀疏假設(shè)的正則化框架帶來(lái)了大量高效的高維數(shù)據(jù)處理方法.同時(shí),隨著深度學(xué)習(xí)的革命性進(jìn)展,結(jié)合稀疏統(tǒng)計(jì)學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)以兼取兩種方法優(yōu)點(diǎn)的研究也日趨受到重視.本文綜述了稀疏統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典模型,簡(jiǎn)要介紹了傳統(tǒng)稀疏統(tǒng)計(jì)學(xué)習(xí)與現(xiàn)代深度學(xué)習(xí)相結(jié)合的研究進(jìn)展.然而,目前針對(duì)此類結(jié)合的研究還有巨大的探索空間,接下來(lái),對(duì)未來(lái)研究方向提出一些展望: 1) 由于傳統(tǒng)優(yōu)化理論與算法的局限性,目前稀疏統(tǒng)計(jì)學(xué)習(xí)的研究多集中于求解凸目標(biāo)函數(shù).但實(shí)際應(yīng)用中頻繁遇到損失函數(shù)和正則項(xiàng)非凸的情形.同時(shí),非凸正則項(xiàng)通常具有更好的統(tǒng)計(jì)性質(zhì).因此,對(duì)于含有非凸損失和非凸正則項(xiàng)的模型,包括算法的設(shè)計(jì)與收斂性的證明,都是值得進(jìn)一步研究的方向. 2) 由于傳統(tǒng)的稀疏統(tǒng)計(jì)學(xué)習(xí)方法通?;谧钚《藫p失,其數(shù)據(jù)服從高斯分布.然而,現(xiàn)實(shí)應(yīng)用中數(shù)據(jù)常常并不服從高斯分布.同時(shí),高斯分布對(duì)異常點(diǎn)敏感的特性也限制了它的應(yīng)用.因此,探索基于更加魯棒的損失函數(shù)的稀疏統(tǒng)計(jì)學(xué)習(xí)方法,例如基于分位數(shù)回歸的稀疏統(tǒng)計(jì)學(xué)習(xí)方法等也值得進(jìn)一步的研究. 3) 深度網(wǎng)絡(luò)展開(kāi)方法的研究目前也集中于具有凸性的稀疏編碼方法.對(duì)帶有非凸正則項(xiàng)的稀疏編碼算法進(jìn)行展開(kāi),包括算法效率和性能的研究,還需要更進(jìn)一步的探索.另外,深度網(wǎng)絡(luò)展開(kāi)方法的理論研究還很初步,其性能表現(xiàn)也有進(jìn)一步提升的空間,這些均為需要進(jìn)一步研究的問(wèn)題. 4) 傳統(tǒng)稀疏統(tǒng)計(jì)學(xué)習(xí)的建模往往嵌入了數(shù)據(jù)本身的先驗(yàn)信息,大量的經(jīng)典方法在理論和性能上都有著不錯(cuò)的表現(xiàn).同時(shí),針對(duì)不同數(shù)據(jù)、不同問(wèn)題的新型深度神經(jīng)網(wǎng)絡(luò)也不斷涌現(xiàn)出來(lái).探索更適合特定問(wèn)題的深度神經(jīng)網(wǎng)絡(luò)特征表示與傳統(tǒng)稀疏統(tǒng)計(jì)算法的結(jié)合,最大限度地發(fā)揮兩種方法的優(yōu)點(diǎn),也是值得進(jìn)一步研究的方向.1時(shí),Lq-正則項(xiàng)不滿足稀疏性;L1-正則項(xiàng)不滿足無(wú)偏性; 當(dāng)0≤q<1時(shí),Lq-正則項(xiàng)不滿足連續(xù)性.基于此,文獻(xiàn)[48]提出了SCAD模型.SCAD模型的形式為
2 深度稀疏統(tǒng)計(jì)分析
2.1 基于稀疏建模的深度學(xué)習(xí)方法
2.2 基于數(shù)據(jù)驅(qū)動(dòng)的稀疏統(tǒng)計(jì)分析方法
3 總結(jié)
西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年4期