• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度神經(jīng)網(wǎng)絡(luò)平均場理論綜述

    2024-03-21 02:25:06顏夢玫楊冬平
    計(jì)算機(jī)應(yīng)用 2024年2期
    關(guān)鍵詞:深度

    顏夢玫,楊冬平

    (1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國科學(xué)院海西研究院 泉州裝備制造研究中心,福建 泉州 362200;3.之江實(shí)驗(yàn)室 混合增強(qiáng)智能研究中心,杭州 311101)

    0 引言

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)最初主要應(yīng)用于參數(shù)初始化的預(yù)訓(xùn)練過程[1],后來利用具有深度的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)識別圖像[2]。DNN 吸引了眾多研究者的關(guān)注,由此掀起了深度學(xué)習(xí)的熱潮。然而,盡管DNN 在應(yīng)用領(lǐng)域取得了顯著的成功,但其背后的決策機(jī)理仍不夠明確。目前,深度學(xué)習(xí)方法仍然是一門高度實(shí)踐的藝術(shù),充滿許多啟發(fā)式的技巧,并非一門精確的科學(xué)。這一缺陷對于金融、醫(yī)療、公共安全和國防等領(lǐng)域通常是致命的[3]。因此,需要構(gòu)建一個(gè)成熟的DNN 理論指導(dǎo)深度學(xué)習(xí)中的廣泛工程應(yīng)用,進(jìn)而優(yōu)化深度學(xué)習(xí)算法。盡管近年來在深度學(xué)習(xí)理論方面取得一些成效,但大部分工作專注研究單個(gè)隱藏層網(wǎng)絡(luò),深度網(wǎng)絡(luò)的理論在很大程度上仍懸而未決。

    DNN 與傳統(tǒng)的淺層網(wǎng)絡(luò)的本質(zhì)區(qū)別在于網(wǎng)絡(luò)的深度,而DNN 成功的一個(gè)關(guān)鍵因素在于它的高表達(dá)性:一方面,它可以緊湊地以一種淺層網(wǎng)絡(luò)無法做到的方式表達(dá)輸入空間的高度復(fù)雜函數(shù)。此外,DNN 可以將輸入空間中的高度彎曲流形在隱含層空間中解耦為扁平流形,有利于簡單地線性讀出。這些DNN 的直覺理解完全可以通過現(xiàn)有的平均場理論(Mean Field Theory,MFT)來描述、分析和探討[4]。MFT 不僅可用于描述與分析特定DNN 的訓(xùn)練過程[5],還可以探討DNN 的泛化性能及關(guān)鍵因素[6]。這些理論研究成果,讓人們看到MFT 在構(gòu)建一個(gè)統(tǒng)一理解DNN 運(yùn)行機(jī)制理論框架中是一個(gè)非常重要的基本理論方法。

    近年來,美國斯坦福大學(xué)Ganguli 團(tuán)隊(duì)[4]利用動力學(xué)平均場理論(Dynamic Mean Field Theory,DMFT)和黎曼幾何[7]研究了DNN 的高表達(dá)性:信息在DNN 中有效傳播機(jī)制和全局曲率隨深度指數(shù)增長。基于DMFT 的信息有效傳播機(jī)制最早起源于20 世紀(jì)80 年代Sompolinsky 等[8]開創(chuàng)性提出的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,通過DMFT 分析發(fā)現(xiàn)系統(tǒng)隨參數(shù)變化可以從有序態(tài)相變到混沌態(tài),以及發(fā)現(xiàn)混沌邊緣(Edge of Chaos,EoC)的相變點(diǎn)。Ganguli 團(tuán)隊(duì)利用離散時(shí)間的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型[9],將該模型中的時(shí)間點(diǎn)替換成DNN 中網(wǎng)絡(luò)的層數(shù)號,發(fā)現(xiàn)網(wǎng)絡(luò)在EoC 的參數(shù)下呈現(xiàn)出更高的表達(dá)能力。

    從MFT 的角度研究DNN 的初始化,發(fā)現(xiàn)了兩個(gè)影響網(wǎng)絡(luò)訓(xùn)練的性質(zhì):前向信息傳播對于不同樣本的表達(dá)性(Expressivity)和反向梯度傳播的可訓(xùn)練性(Trainability)。在隨機(jī)DNN 中,由表達(dá)性和可訓(xùn)練性確定的超參數(shù)范圍已經(jīng)得到了實(shí)驗(yàn)驗(yàn)證[10-15],當(dāng)網(wǎng)絡(luò)初始化在EoC 附近時(shí),其表達(dá)性和測試精度都會較高。此外,研究發(fā)現(xiàn),誤差的有效反向傳播需要網(wǎng)絡(luò)參數(shù)滿足所謂的動力等距(Dynamical Isometry,DI)條件[16-18]。在這種條件下,研究人員成功訓(xùn)練了在沒有批量歸一化和殘差網(wǎng)絡(luò)結(jié)構(gòu)幫助下的單純一萬層的CNN[11]。

    對于隨機(jī)初始化的DNN,通過MFT 更進(jìn)一步地發(fā)現(xiàn),在網(wǎng)絡(luò)無限寬的極限(網(wǎng)絡(luò)被過度參數(shù)化)下[19]:如果只訓(xùn)練網(wǎng)絡(luò)的最后一層,可以用神經(jīng)網(wǎng)絡(luò)高斯過程(Neural Network Gaussian Process,NNGP)核的核無嶺(Ridgeless)回歸描述網(wǎng)絡(luò)的訓(xùn)練[20],DNN 與NNGP 的內(nèi)在聯(lián)系使人們可以確切地用貝葉斯推斷回歸訓(xùn)練DNN;如果訓(xùn)練所有的層,可以用神經(jīng)正切核(Neural Tangent Kernel,NTK)[5]描述,這種描述使人們可以直接研究DNN 中無窮維的函數(shù)空間和超級復(fù)雜的參數(shù)空間。

    事實(shí)上,深度學(xué)習(xí)中的關(guān)鍵泛化現(xiàn)象也發(fā)生在核方法中:要理解深度學(xué)習(xí)中的泛化,必須先理解核方法中的泛化。哈佛大學(xué)Pehlevan 團(tuán)隊(duì)[6]利用MFT 推導(dǎo)出了核回歸的平均泛化誤差的解析表達(dá)式,提出DNN 泛化的關(guān)鍵因素在于核與任務(wù)的本征譜匹配度。這個(gè)理論揭示了各種泛化現(xiàn)象,包括訓(xùn)練過程中泛化誤差表現(xiàn)出的非單調(diào)行為。該理論進(jìn)一步指出,核回歸的歸納偏置為學(xué)習(xí)曲線的非單調(diào)行為提供了機(jī)理上的理解,并為所謂的“雙重下降”現(xiàn)象[21]提供見解。

    因此,MFT 為研究DNN 的運(yùn)行機(jī)理提供了一個(gè)非常重要的基本理論手段。MFT 能從理論角度初步探索深度學(xué)習(xí)中的初始化、訓(xùn)練過程和泛化機(jī)制,進(jìn)而可以在工程上指導(dǎo)深度學(xué)習(xí)算法進(jìn)行改進(jìn)和優(yōu)化[22]。然而,目前國內(nèi)基于深度學(xué)習(xí)理論的相關(guān)科研人員缺少對DNN 在深度學(xué)習(xí)中取得顯著成功的內(nèi)在機(jī)理的廣泛認(rèn)識,特別是MFT 在理解DNN運(yùn)行機(jī)制中發(fā)揮的基礎(chǔ)性作用。本文對DNN 現(xiàn)有MFT 的研究進(jìn)行了整理和回顧,從網(wǎng)絡(luò)初始化、訓(xùn)練過程和網(wǎng)絡(luò)泛化性能這三個(gè)方面的理論理解入手,并在各種人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)中進(jìn)行了相關(guān)對比分析,關(guān)于DNN 內(nèi)在機(jī)理的理解與邏輯框架如圖1 所示。此外,本文還分析了該領(lǐng)域仍存在的難點(diǎn)并展望未來研究趨勢,為進(jìn)一步深入研究深度學(xué)習(xí)理論提供參考。

    圖1 MFT在理解DNN內(nèi)在機(jī)理的研究框架Fig.1 Research framework of MFT in understanding intrinsic mechanisms of DNN

    1 深度神經(jīng)網(wǎng)絡(luò)初始化

    DNN 初始化從以下兩個(gè)特性分析:前向信息傳播對于不同樣本的表達(dá)性和反向梯度傳播的可訓(xùn)練性。這兩種特性分別對應(yīng)DNN 中的EoC 和DI,如圖2 所示。

    圖2 DNN前向信息傳播和反向梯度傳播的兩個(gè)特性Fig.2 Two characteristics of forward information propagation and backward gradient propagation in DNN

    1.1 混沌邊緣

    1.1.1 隨機(jī)網(wǎng)絡(luò)動力學(xué)

    通過Sompolinsky 等[8]研究的隨機(jī)非對稱耦合相互作用的N個(gè)非線性神經(jīng)元網(wǎng)絡(luò)的連續(xù)時(shí)間動態(tài)模型,當(dāng)N→∞時(shí),運(yùn)用自洽MFT,可以發(fā)現(xiàn)在增益參數(shù)g>0 時(shí)的臨界值處發(fā)生有序態(tài)到混沌態(tài)的相變。EoC 相變點(diǎn)處的系統(tǒng)狀態(tài)具有無窮長時(shí)間關(guān)聯(lián)的性質(zhì),該網(wǎng)絡(luò)的動力學(xué)可由N個(gè)耦合的一階微分方程描述[8](符號定義見表1),即

    表1 相關(guān)變量定義與對比Tab.1 Definition and comparison of relevant variables

    該性質(zhì)在具有離散時(shí)間動力學(xué)的系統(tǒng)中也成立。Molgedey 等[9]在此基礎(chǔ)上將動態(tài)模型的時(shí)間t離散化,研究在外部噪聲影響下的隨機(jī)非對稱全連接網(wǎng)絡(luò)的離散時(shí)間動力學(xué),即

    1.1.2 神經(jīng)網(wǎng)絡(luò)動力學(xué)

    用神經(jīng)網(wǎng)絡(luò)層數(shù)l取代離散的時(shí)間變量t,用權(quán)重矩陣W代替突觸連接Jij,每層l有Nl個(gè)神經(jīng)元,由輸入x0引發(fā)的前饋動力學(xué)(符號定義見表1)即為:

    其中?為非線性激活函數(shù)。在每層寬度足夠大的極限下,即Nl?1,單輸入向量x0的長度q0在網(wǎng)絡(luò)傳播中會發(fā)生變化。對于大Nl,可以得到ql的高斯分布迭代式:

    同樣,兩個(gè)輸入x0,1和x0,2的高斯積分形式可表示為:

    其中:z1和z2為獨(dú)立的標(biāo)準(zhǔn)高斯變量為u1和u2相關(guān)高斯變量的協(xié)方差矩陣。

    圖3 有序態(tài)-混沌態(tài)的相變圖Fig.3 Ordered state-chaotic state phase transition diagram

    可以直觀地把χ(σw,σb)作為判斷臨界的序參量。控制有序態(tài)-混沌態(tài)的參數(shù)對比見表2。

    表2 控制相變的參數(shù)Tab.2 Parameters controlling phase transition

    總的來說,這是EoC 性質(zhì)在神經(jīng)網(wǎng)絡(luò)中的重要理論分析,結(jié)合MFT 深入分析了信號在通過大型隨機(jī)前饋網(wǎng)絡(luò)的確定性性質(zhì),揭示了由權(quán)重和偏置的統(tǒng)計(jì)函數(shù)控制的有序態(tài)到混沌態(tài)相變的存在,并且發(fā)現(xiàn)在相變點(diǎn)上有限深度演化的暫態(tài)混沌是深度隨機(jī)網(wǎng)絡(luò)具有指數(shù)表達(dá)性的基礎(chǔ)。

    1.1.3 混沌邊緣的具體應(yīng)用

    EoC在深度神經(jīng)網(wǎng)絡(luò)參數(shù)初始化中起重要作用。Mishkin等[23]認(rèn)為一個(gè)好的初始化條件很有必要:初始化參數(shù)設(shè)置得當(dāng),網(wǎng)絡(luò)可以訓(xùn)練得很深,訓(xùn)練精度在EoC 附近甚至可達(dá)到100%。表3 顯示了EoC 在不同網(wǎng)絡(luò)的作用,其中對比了有無EoC情況下達(dá)到目標(biāo)準(zhǔn)確率所需要的迭代次數(shù)。從表3中可以明顯看出,使用EoC初始化時(shí),所需迭代次數(shù)更少;在沒有EoC下,無論目標(biāo)準(zhǔn)確率如何設(shè)置,所需迭代次數(shù)都比有EoC時(shí)多。雖然全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等網(wǎng)絡(luò)在EoC 附近初始化可以訓(xùn)練得很深,但對于Dropout 網(wǎng)絡(luò),它的最大網(wǎng)絡(luò)層數(shù)的設(shè)定是有上限的[10]。

    表3 EoC在各種人工神經(jīng)網(wǎng)絡(luò)中的作用Tab.3 Roles of EoC in various ANNs

    給定損失函數(shù)為L 時(shí),反向傳播方程可表示為:

    由式(7)可知,χ(σw,σb)控制有序態(tài)-混沌態(tài)的相變,可由ξ?是否發(fā)散表示相變,ξ?與χ、g控制相變的詳細(xì)取值對比如表2 所示。

    若梯度不獨(dú)立,邊界參數(shù)需修正[25]。由MFT 可知:

    前面的ξ?通過計(jì)算得出(6ξ2),而在梯度不獨(dú)立的假設(shè)下,可通過計(jì)算整體的得到新的ξ?(12ξ1與12ξ2)。

    1.2 混沌邊緣特性

    1.2.1 表達(dá)性與復(fù)雜性

    神經(jīng)網(wǎng)絡(luò)的表達(dá)能力取決于它的網(wǎng)絡(luò)架構(gòu),更深的網(wǎng)絡(luò)可表達(dá)更復(fù)雜的功能。對于分段線性函數(shù)網(wǎng)絡(luò),比如ReLU(Rectified Linear Unit)激活函數(shù)網(wǎng)絡(luò),它的網(wǎng)絡(luò)表達(dá)能力可以用不同線性區(qū)域數(shù)度量,也可以通過將網(wǎng)絡(luò)調(diào)整為接近線性狀態(tài)使網(wǎng)絡(luò)具有高表達(dá)能力[26]。Serra 等[27]從理論和實(shí)驗(yàn)的角度進(jìn)行相關(guān)驗(yàn)證。

    1.2.2 信息傳播與反向傳播

    通過MFT 研究隨機(jī)權(quán)重和偏差分布的未訓(xùn)練的神經(jīng)網(wǎng)絡(luò)動力學(xué)行為,可以定義一種可訓(xùn)練的深度尺度,并且該深度尺度自然而然地限制了隨機(jī)網(wǎng)絡(luò)傳播信號的最大深度[10]。由此可見,神經(jīng)網(wǎng)絡(luò)的隨機(jī)權(quán)重初始化在深度學(xué)習(xí)分析中起著重要作用。盡管這些網(wǎng)絡(luò)由隨機(jī)矩陣構(gòu)建,可以用隨機(jī)矩陣?yán)碚摚≧andom Matrix Theory,RMT)分析,但對于非線性網(wǎng)絡(luò),現(xiàn)有的數(shù)學(xué)結(jié)果并不能直接利用。為此,Pennington 等[28]在逐點(diǎn)(Pointwise)非線性化神經(jīng)網(wǎng)絡(luò)中利用自由概率論方法將RMT 應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)。另外,Yang等[26]的理論表明,梯度信號隨深度呈指數(shù)增長,無法通過調(diào)整初始權(quán)重方差或調(diào)整非線性激活函數(shù)消除爆炸性梯度。他們認(rèn)為批量歸一化本身就是梯度爆炸的原因,對于沒有跳躍連接(Skip connections)的普通批量歸一化無法在DNN 訓(xùn)練。雖然無法完全消除梯度爆炸,但可以盡可能調(diào)整網(wǎng)絡(luò)為線性狀態(tài)以減少梯度爆炸的影響,提高沒有殘差連接的深度歸一化網(wǎng)絡(luò)的可訓(xùn)練性。

    1.2.3 網(wǎng)絡(luò)可訓(xùn)練能力

    經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)在前向輸入傳播和反向梯度傳播時(shí),都隨深度表現(xiàn)出指數(shù)行為。其中前向動力學(xué)指數(shù)行為導(dǎo)致輸入空間幾何形狀快速崩潰,反向動力學(xué)指數(shù)行為導(dǎo)致梯度急劇消失或爆炸。在EoC 假設(shè)下,網(wǎng)絡(luò)在穩(wěn)定態(tài)和混沌態(tài)之間的邊界徘徊,保持輸入空間的幾何形狀和梯度信息流,從而增強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練能力。Yang 等[29]將此理念用于殘差網(wǎng)絡(luò),從理論和經(jīng)驗(yàn)上證明了Xavier 或He 等[30]的方案等常見初始化對于殘差網(wǎng)絡(luò)并非最優(yōu),因?yàn)闆Q定最優(yōu)初始化的方差取決于網(wǎng)絡(luò)深度,與EoC 相關(guān)。Hayou 等[31]從不同激活函數(shù)網(wǎng)絡(luò)的層面上,用MFT 分析了EoC 對可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化的作用。

    1.3 動力等距

    1.3.1 Jacobian矩陣

    DNN 能很好進(jìn)行訓(xùn)練的原因是:反向傳播過程中的梯度既沒消失也未發(fā)生爆炸,維持在一種穩(wěn)定的狀態(tài)。因此,需逐步剖析梯度更新與傳播的內(nèi)在機(jī)理,旨在改進(jìn)與優(yōu)化現(xiàn)有網(wǎng)絡(luò)算法。對于損失函數(shù)為L 的網(wǎng)絡(luò),它的梯度鏈?zhǔn)礁驴梢员硎緸椋?/p>

    其中:xL表示最后一層的輸入,xl表示第l層的輸入。要想梯度更新能順利從最后一層傳到前面層,需要保證的值在1 附近,Saxe 等[17]將初步定義為一種端到端Jacobian 矩陣,即

    該Jacobian 矩陣捕獲了輸入擾動經(jīng)過網(wǎng)絡(luò)傳播對輸出的影響。

    DI 概念首次被Saxe 等[17]提出,即滿足輸入-輸出Jacobian 矩陣的奇異值分布在1 附近:

    其中:Dl是對角矩陣,它的矩陣元素滿足對于Jacobian 矩陣譜的理論計(jì)算,需要用到自由概率論中的S變換將Dl和Wl拆成單獨(dú)兩項(xiàng)計(jì)算,具體計(jì)算過程如圖4 所示,上部分框圖表示W(wǎng)l的S 變換過程,下部分框圖表示最終Jacobian 矩陣JJT的S 逆變換過程。為簡便計(jì)算,考慮求解矩陣JJT的譜分布,其特征值開根號即為Jacobian 矩陣的特征值。其中:①表示Stieltjes transform;②得到矩生成函數(shù)MX;③為功能函數(shù)的逆變換過程;④為S 變換;⑤為S 變換過程的合并:

    圖4 Jacobian矩陣譜計(jì)算流程Fig.4 Computing flow of Jacobian matrix spectrum

    如果A和B為兩個(gè)相互獨(dú)立的隨機(jī)矩陣,它們隨機(jī)矩陣乘積的 S 變換就是它們 S 變換的乘積,即SAB(z)=SA(z)SB(z)。⑥為Dl的S變換的中間求解過程,與③和④相同。⑦得到JJT的逆矩生成函數(shù)。⑧因?yàn)镴JT矩陣特別龐大且復(fù)雜,已經(jīng)不能用式子表示,只能通過隱式求解來數(shù)值計(jì)算矩陣JJT的矩生成函數(shù)。⑨類似于過程②。通過⑩則可以求得最終矩陣JJT的譜密度表現(xiàn)形式。最后,根據(jù)不同激活函數(shù)?的設(shè)定,可以將Jacobian 矩陣譜的形態(tài)劃分為Bernoulli 類和Smooth 類[32]兩類。對于某些特殊的權(quán)重矩陣,可以利用隨機(jī)矩陣?yán)碚撉蠼馓卣髯V,比如隨機(jī)高斯非對稱實(shí)矩陣譜分布服從Girko 定律(整圓率)[33],對稱則服從半圓率[34];如果是稀疏矩陣或者是厄米與非厄米矩陣,可以采用空腔方法或復(fù)本方法求解。

    1.3.2 動力等距的具體應(yīng)用

    由前文可知:DNN 的前向傳播體現(xiàn)了高表達(dá)性,可通過EoC 性質(zhì)刻畫;而反向傳播則更注重網(wǎng)絡(luò)的可訓(xùn)練性,梯度傳播的穩(wěn)定性可用DI 刻畫,即梯度既不會消失也不會爆炸。這兩種結(jié)論已經(jīng)在全連接網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)[10]、CNN[11]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[12]和殘差神經(jīng)網(wǎng)絡(luò)(ResNets)[13]等得到實(shí)驗(yàn)驗(yàn)證,當(dāng)滿足DI 時(shí),網(wǎng)絡(luò)的訓(xùn)練速度會特別快[17],在沒有批量歸一化和殘差結(jié)構(gòu)幫助下,還能成功訓(xùn)練一萬層CNN[11]。表4 中列舉了使用DI 后與原網(wǎng)絡(luò)的測試精度對比,其中“—”表示沒有DI 條件時(shí)網(wǎng)絡(luò)不能訓(xùn)練。

    表4 DI對各種人工神經(jīng)網(wǎng)絡(luò)測試精度的提升作用Tab.4 Role of DI in improvement of test accuracies for various ANNs

    對于Jacobian 矩陣譜,不同網(wǎng)絡(luò)的不同Dl可用自由概率論求解,具體對比分析如表5 所示。其中滿足DI 正交化的方式大致可以分為三種:直接隨機(jī)權(quán)重矩陣正交化、設(shè)定權(quán)重矩陣S 變換后的特征值為0,以及Jacobian 矩陣譜的特征值為1 或-1。另外Yang 等還從數(shù)學(xué)層面對神經(jīng)網(wǎng)絡(luò)中的平均場性質(zhì)進(jìn)行了進(jìn)一步的理論分析,比如,EoC 處的殘差網(wǎng)絡(luò)[29]、批量歸一化中的平均場[26]和無限寬的超參數(shù)網(wǎng)絡(luò)[35]等。

    滿足DI 的DNN 可通過以下兩個(gè)方面構(gòu)建:

    1)隨機(jī)正交化。對于深度線性網(wǎng)絡(luò),可以通過正交權(quán)重初始化實(shí)現(xiàn)DI,這已被證明可以顯著提高學(xué)習(xí)速度,比沒有實(shí)現(xiàn)DI 的網(wǎng)絡(luò)學(xué)習(xí)速度快幾個(gè)量級[17]。在非線性情況下,通過自由概率論的強(qiáng)大工具分析計(jì)算深度網(wǎng)絡(luò)輸入輸出Jacobian 行列式的整個(gè)奇異值分布。在此基礎(chǔ)上,Xiao 等[11]提出了一種用于生成隨機(jī)初始正交卷積核算法,能訓(xùn)練一萬層或更多層的Vanilla CNN。Rodríguez 等[36]在正則化基礎(chǔ)上,研究了一種局部強(qiáng)制特征正交性的新型正則化技術(shù)(OrthoReg),在特征去相關(guān)中施加局部約束消除負(fù)相關(guān)特征權(quán)重之間的干擾,使正則化器能達(dá)到更高的去相關(guān)邊界,更有效地減少過擬合。這種正則化技術(shù)可以直接運(yùn)用于權(quán)重上并適用于全卷積神經(jīng)網(wǎng)絡(luò)。此外,Xie 等[37]利用不同濾波器組之間的正交性的正則化器變體加強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練性,還結(jié)合了殘差結(jié)構(gòu)在ImageNet 數(shù)據(jù)集實(shí)現(xiàn)了相關(guān)性能比較。對于較難訓(xùn)練的RNN,Arjovsky 等[38]構(gòu)建了一種歸一化權(quán)重矩陣新架構(gòu),使它的特征值的絕對值恰好為1 以優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程。另一種更簡單的解決方案是使用單位(Identity)矩陣或其縮放(Scaled)版本初始化循環(huán)權(quán)重矩陣[39]。在DNN中,Li 等[40]介紹了一種正交DNN,建立了一個(gè)新的泛化誤差界。在CNN 中也有相關(guān)正交性的應(yīng)用[41]。Guo 等[42]提出一種新的正交特征變換Ortho-GConv,用于增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)主干,以穩(wěn)定模型訓(xùn)練并提高模型的泛化性能。

    2)等距懲罰項(xiàng)。雖然可以直接設(shè)置正交化條件以滿足DI 初始化,但在訓(xùn)練過程中很難保證,需要對損失函數(shù)設(shè)置相關(guān)DI 的約束條件,使網(wǎng)絡(luò)在訓(xùn)練過程中也一直保持DI 性質(zhì)。初始化、歸一化和殘差連接被認(rèn)為是訓(xùn)練非常深的CNN并獲得最先進(jìn)性能的三種不可或缺的技術(shù),文獻(xiàn)[43]中通過在初始化和訓(xùn)練期間強(qiáng)制卷積核接近等距,也可以訓(xùn)練沒有歸一化或殘差連接的深度Vanilla CNN。

    2 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程

    用MFT 研究DNN 的過參數(shù)化網(wǎng)絡(luò),可以將前向初始化近似為高斯過程,反向梯度訓(xùn)練過程近似為NTK。

    2.1 過參數(shù)化網(wǎng)絡(luò)

    在神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)學(xué)習(xí)過程中,訓(xùn)練誤差和泛化誤差不能同時(shí)兼顧,它們之間為此消彼長的關(guān)系。但是Belkin 等[21]發(fā)現(xiàn)當(dāng)參數(shù)足夠多時(shí),訓(xùn)練誤差和泛化誤差之間可以保持一種平衡。因此,過參數(shù)化,即在極限條件下網(wǎng)絡(luò)寬度趨向無窮,從某種程度上具有一定優(yōu)勢。Huang 等[44]從不同數(shù)據(jù)集的層面,對比分析了過參數(shù)化的優(yōu)勢,發(fā)現(xiàn)參數(shù)越多的網(wǎng)絡(luò)具有更高的測試精度和更強(qiáng)的泛化能力。Arora 等[45]揭示了兩層網(wǎng)絡(luò)在過參數(shù)化情況下對任意數(shù)據(jù)進(jìn)行泛化的原因。Du 等[46]認(rèn)為兩層神經(jīng)網(wǎng)絡(luò)成功的原因之一是隨機(jī)初始化的一階方法,如梯度下降,即使目標(biāo)函數(shù)是非凸的和非光滑的,也可以在訓(xùn)練過程中達(dá)到零損失的狀態(tài)[47]。雖然具有隨機(jī)初始化的基于梯度的算法可以收斂至過參數(shù)化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練損失函數(shù)的全局最小值,但是保證全局收斂的神經(jīng)網(wǎng)絡(luò)寬度條件非常嚴(yán)格。Zou 等[48]采用一種更溫和(Milder)的過參數(shù)化條件,對DNN 訓(xùn)練過程中的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)的全局收斂性進(jìn)行了改進(jìn)分析。

    2.2 高斯過程

    過參數(shù)化的網(wǎng)絡(luò)易于平均場理論分析。因?yàn)樵趨?shù)趨于無窮的極限條件下可以用現(xiàn)有的一些理論解釋,例如,熱力學(xué)極限定律、統(tǒng)計(jì)力學(xué)等。另外,參數(shù)多使得知道的先決條件也多,可以用貝葉斯推斷網(wǎng)絡(luò)的參數(shù)[19],即使計(jì)算量太大也可以用變分方法或者蒙特卡洛采樣大致估計(jì)。

    在中心極限定理下,無限寬的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)等價(jià)于高斯過程,不管有多少網(wǎng)絡(luò)層數(shù),不用進(jìn)行任何訓(xùn)練也可以對DNN 進(jìn)行貝葉斯推斷。高斯過程對于分類函數(shù)的每一個(gè)類都可以提供具體的先驗(yàn)分布,它聯(lián)系神經(jīng)網(wǎng)絡(luò)和核方法,將表示網(wǎng)絡(luò)輸出與輸出之間關(guān)系的核矩陣叫作NNGP 核。對于式(4)所示網(wǎng)絡(luò),若為單層神經(jīng)網(wǎng)絡(luò),則可以得到網(wǎng)絡(luò)輸出的分布為即高斯核的均值為μ1、方差為K1,每個(gè)變量之間都與i無關(guān)。此時(shí)其中C(x,x')的引入來源于Neal等[19],所以單層網(wǎng)絡(luò)的NNGP 核可以表示為:

    對于深層網(wǎng)絡(luò),它的NNGP 核表示為:

    協(xié)方差矩陣可進(jìn)一步簡寫為:

    然而,不同的激活函數(shù)?會生成不同的NNGP 核,對于ReLU 非線性函數(shù),它的F?為確定的arccosine 核;而對于Tanh,F(xiàn)?只能采用線性插值的方法數(shù)值求解。

    給定數(shù)據(jù)集D={(x1,t1),(x2,t2),…,(xn,tn)},(x,t)為輸入-目標(biāo),用函數(shù)h(x)對測試點(diǎn)x*進(jìn)行貝葉斯預(yù)測,并且網(wǎng)絡(luò)輸出值為h≡(h1,h2,…,hn),多元高斯先驗(yàn)分布則可表示為h*,h|x*,x~N (0,K),其中協(xié)方差矩陣:

    得到NNGP 核就可得到所有訓(xùn)練數(shù)據(jù)之間的關(guān)系和先驗(yàn),采用貝葉斯推斷預(yù)測新的測試數(shù)據(jù)的網(wǎng)絡(luò)輸出,所以此時(shí)只需計(jì)算新產(chǎn)生的,不同神經(jīng)網(wǎng)絡(luò)的NNGP 核公式對比如表6 所示。

    表6 各種人工神經(jīng)網(wǎng)絡(luò)的NNGP公式Tab.6 NNGP formulas for various ANNs

    2.3 高斯過程等價(jià)網(wǎng)絡(luò)

    通過研究具有多個(gè)隱藏層的隨機(jī)全連接寬前饋網(wǎng)絡(luò)與具有遞歸內(nèi)核定義的高斯過程之間的關(guān)系,發(fā)現(xiàn)隨著網(wǎng)絡(luò)寬度增加,表示網(wǎng)絡(luò)的隨機(jī)分布函數(shù)逐步收斂到高斯過程[50]。除FCN 外,在無限多卷積濾波器限制下的CNN 也可以看作高斯過程[51],Novak 等[52]還對比了有無池化層的多層CNN 的類似等價(jià)性。對于貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network,BNN),即便其中一些隱藏層(稱為“瓶頸”)保持在有限寬度,也可以收斂到高斯過程[53]。Pretorius 等[54]則研究了噪聲正則化(例如Dropout)對NNGP 的影響,并將它們的行為與噪聲正則化DNN 中的信號傳播理論聯(lián)系起來。上述相關(guān)網(wǎng)絡(luò)的高斯過程近似等價(jià)是在無限寬的條件下,Lee 等[55]對無限寬網(wǎng)絡(luò)和有限寬網(wǎng)絡(luò)的NNGP 對比研究,并通過對權(quán)重衰減進(jìn)行逐層縮放(Layer-wise scaling),改進(jìn)了有限寬網(wǎng)絡(luò)中的泛化能力。

    盡管高斯過程理論具有吸引力,但它卻不能捕獲特征學(xué)習(xí)(Feature learning),而特征學(xué)習(xí)卻是理解可訓(xùn)練網(wǎng)絡(luò)的關(guān)鍵要素。Naveh 等[56]考慮在大型訓(xùn)練集上使用噪聲梯度下降訓(xùn)練DNN,推導(dǎo)出自洽的高斯過程理論以解釋強(qiáng)大的有限D(zhuǎn)NN 和它的特征學(xué)習(xí)效果。另外,也有從熱力學(xué)理論的角度分析有限超參數(shù)化CNN 的特征學(xué)習(xí),并也適用于有限寬DNN[57]。

    2.4 神經(jīng)正切核

    對于DNN 動力學(xué)的研究還有另外一個(gè)分支:從NTK 角度觀察。NNGP 核是關(guān)于神經(jīng)網(wǎng)絡(luò)輸出與輸出之間的協(xié)方差矩陣,而NTK 則是在此基礎(chǔ)上將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核方法聯(lián)系起來研究梯度與梯度之間的關(guān)系。NTK 由Jacot等[5]首次提出,他們認(rèn)為神經(jīng)網(wǎng)絡(luò)在參數(shù)空間的梯度下降與在NTK 下函數(shù)空間的梯度下降等效,所以NTK 可以用于描述神經(jīng)網(wǎng)絡(luò)中無限寬DNN 在梯度下降訓(xùn)練過程中演化的核,而這個(gè)核在無限寬極限下會趨于一個(gè)確定的核,并且在梯度下降的過程中保持不變[58]。針對全批量梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[46],可以對輸出進(jìn)行一階泰勒展開,用一個(gè)接近無限寬網(wǎng)絡(luò)的線性模型近似[59],因此該無限寬網(wǎng)絡(luò)的動力學(xué)行為可以用一個(gè)常微分方程(Ordinary Differential Equation,ODE)表述,這種無限寬極限的動力學(xué)就叫作NTK域(Regime)或惰性訓(xùn)練域(Lazy training regime)。

    另外,Arora 等[60]提出了一種高效算法計(jì)算卷積架構(gòu)的NTK,即CNTK(Convolutional Neural Tangent Kernel),文獻(xiàn)[61]結(jié)合CNN 高斯過程內(nèi)核的回歸對CNTK 算法進(jìn)行了改進(jìn),提高了內(nèi)核的性能;然而,上述文獻(xiàn)作者只研究了淺層網(wǎng)絡(luò)的無限寬極限(NTK 域)影響。Hayou 等[62]發(fā)現(xiàn)EoC 初始化對于NTK 也有一定的好處,并將NTK 與MFT 聯(lián)系起來,對DNN 中的SGD 訓(xùn)練和NTK 訓(xùn)練進(jìn)行了對比。

    2.4.1 核的定義

    考慮FCN 的輸入為h0(x;θ)=x,每一層的輸出為為 經(jīng)過激活函數(shù)后,網(wǎng)絡(luò)最后一層輸出為fθ(x)表示為:

    其中FL:RP→F,代表將參數(shù)θ映射到F空間中的函數(shù)fθ,P表示網(wǎng)絡(luò)參數(shù)量。

    對于任意L層的初始化網(wǎng)絡(luò)來說當(dāng)N1,N2,…,NL-1→∞時(shí),NTK 中的ΘL收斂于一個(gè)確定極限核,即

    其中dNL代表維度為NL,與高斯核有關(guān)的遞歸關(guān)系如下:

    2.4.2 線性網(wǎng)絡(luò)動力學(xué)

    用ft(x) ≡表示神經(jīng)網(wǎng)絡(luò)在t時(shí)刻的輸出,令ωt≡θt-θ0,將輸出網(wǎng)絡(luò)進(jìn)行一階泰勒展開可得:

    定義的損失函數(shù)為L,梯度流(Gradient flow)則可表示為=-η?θL,根據(jù)鏈?zhǔn)椒▌t有:

    因此,神經(jīng)網(wǎng)絡(luò)的動力學(xué)可由一個(gè)ODE 描述,無限寬的網(wǎng)絡(luò)就是一個(gè)關(guān)于參數(shù)的線性模型,它可以證明在梯度下降過程中NTK 始終保持不變且具有穩(wěn)定性,損失函數(shù)最終也會收斂為全局最小值,而且網(wǎng)絡(luò)非常寬時(shí),權(quán)重在訓(xùn)練過程中和初始權(quán)重相比變化也不大。針對不同的神經(jīng)網(wǎng)絡(luò)并參考文獻(xiàn)[63-64]中的模型定義,NTK 的公式對比總結(jié)如表7所示。

    表7 各種人工神經(jīng)網(wǎng)絡(luò)的NTK公式Tab.7 NTK formulas for various ANNs

    2.4.3 網(wǎng)絡(luò)的訓(xùn)練過程特征

    NTK 使用梯度流對DNN 訓(xùn)練的這種動力學(xué)在無限寬的極限下稱作NTK 域或惰性訓(xùn)練域。NTK 網(wǎng)絡(luò)參數(shù)的初始化為高斯初始化,而對于DI,它的網(wǎng)絡(luò)初始化可看作正交初始化。在淺層網(wǎng)絡(luò)中,無論是在DI 條件下,還是處于NTK 域中,正交初始化和高斯初始化的效果都一樣。但是當(dāng)打破該NTK 領(lǐng)域時(shí),即增大學(xué)習(xí)率或固定網(wǎng)絡(luò)寬度以增大網(wǎng)絡(luò)深度時(shí),由于DI 對DNN 訓(xùn)練的提升作用,此時(shí)網(wǎng)絡(luò)將不再處于NTK 域中[65]。

    總的來說,NTK 在無限寬神經(jīng)網(wǎng)絡(luò)下有兩個(gè)非常有用且重要的性質(zhì):一是在無限寬網(wǎng)絡(luò)中,若參數(shù)θ0在以某種分布進(jìn)行初始化,那么在該初始值下的NTKΘ(θ0)是一個(gè)確定的函數(shù),不管初始值為多少,最終總會收斂到一個(gè)確定的核函數(shù),且與初始化無關(guān);二是無限寬網(wǎng)絡(luò)中的Θ(θt)不會隨著網(wǎng)絡(luò)訓(xùn)練而變化,即訓(xùn)練中參數(shù)的改變并不會引起核函數(shù)的變化?;诖?,可以將無限寬網(wǎng)絡(luò)的訓(xùn)練過程理解為簡單的關(guān)于核函數(shù)的梯度下降法,其中核函數(shù)固定,只取決于網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)等。在Neal[19]的結(jié)論基礎(chǔ)上,可以將這個(gè)用梯度下降收斂的極值概率分布看作一個(gè)隨機(jī)過程??傊琋TK針對梯度下降法提出,是關(guān)于梯度核的收斂,是訓(xùn)練過程的一種表現(xiàn)形式;而高斯過程是初始化網(wǎng)絡(luò)收斂到高斯核,并未涉及訓(xùn)練過程。

    2.4.4 神經(jīng)正切核的具體應(yīng)用

    將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核回歸過程建立等價(jià)關(guān)系后,就可以解決無限寬神經(jīng)網(wǎng)絡(luò)在實(shí)際中的表現(xiàn)問題,此時(shí)只需測試使用NTK 的核回歸預(yù)測器即可。Arora 等[60]在CIFAR-10 上對圖像分類數(shù)據(jù)集測試了NTK,因?yàn)閷τ趫D像數(shù)據(jù)集需要使用CNN 才能獲得良好的性能,所以擴(kuò)展NTK 構(gòu)造適用于CNN 的CNTK,并測試了它們在CIFAR-10 上的性能。實(shí)驗(yàn)發(fā)現(xiàn)CNTK 是非常強(qiáng)大的內(nèi)核,而且全局平均池化可以顯著提高CNN 和CNTK 的分類準(zhǔn)確性,據(jù)此認(rèn)為許多改善神經(jīng)網(wǎng)絡(luò)性能的技術(shù)在某種意義上通用。同樣,除了全局平均池化外,希望其他技巧也可以提高NTK 內(nèi)核性能,比如批量歸一化或者殘差連接層,NTK 不僅應(yīng)用在FNN、CNN 和RNN[66]上,也應(yīng)用于GNN[63],這幾種網(wǎng)絡(luò)的NTK 性能對比如表8 所示。對于NTK 的Python 代碼運(yùn)算,可以直接導(dǎo)入相關(guān)函數(shù)包[67]或者使用JAX[68],另外還可以通過Jacobian 構(gòu)造和分解NTK 向量積等方法[69]加速有限寬網(wǎng)絡(luò)的NTK 計(jì)算。此外,Yang[70]從隨機(jī)神經(jīng)網(wǎng)絡(luò)收斂到高斯過程,再到通過NTK預(yù)測梯度下降的訓(xùn)練動態(tài),在數(shù)學(xué)上重新推導(dǎo)了經(jīng)典的隨機(jī)矩陣結(jié)果。人們還設(shè)計(jì)了Tensor programs 來單獨(dú)闡述任意RNN 架構(gòu)網(wǎng)絡(luò)的高斯過程[71]、任意架構(gòu)的NTK[64]、NTK 訓(xùn)練動力學(xué)的泛化性能[72],以及無限寬網(wǎng)絡(luò)的特征學(xué)習(xí)[73]。對于DNN 中的可訓(xùn)練性和泛化性,Xiao 等[74]從NTK 的角度制定了一系列架構(gòu)的可訓(xùn)練和泛化的必要條件。

    表8 各種人工神經(jīng)網(wǎng)絡(luò)的NTK性能Tab.8 Performance of NTK in various ANNs

    3 深度神經(jīng)網(wǎng)絡(luò)泛化性能

    第2 章中介紹了過參數(shù)化網(wǎng)絡(luò)的優(yōu)勢,可以在無限寬極限下,將網(wǎng)絡(luò)初始化后信息在網(wǎng)絡(luò)中的傳遞過程用NNGP 核表示,而網(wǎng)絡(luò)參數(shù)的訓(xùn)練過程用NTK 表示,并在一定程度上能描述有限寬網(wǎng)絡(luò)。本章將著重介紹過參數(shù)化可以帶來好的泛化能力的原因、影響泛化性能的因素以及泛化性能的預(yù)測。

    Arora 等[45]通過研究兩層網(wǎng)絡(luò)的過度參數(shù)化,利用依賴于數(shù)據(jù)復(fù)雜性的度量,改進(jìn)了獨(dú)立于網(wǎng)絡(luò)規(guī)模的泛化界限。此外,根據(jù)Belkin 等[21]發(fā)現(xiàn)的過參數(shù)化后的訓(xùn)練誤差-泛化誤差關(guān)系,SGD 方法可能隱含地限制了訓(xùn)練網(wǎng)絡(luò)的復(fù)雜性(圖5)。一些實(shí)驗(yàn)現(xiàn)象也表明,當(dāng)SGD 的極小值處于很寬的能量景觀(Landscape)平面時(shí)網(wǎng)絡(luò)會有很強(qiáng)的泛化能力[75]。對于簡單兩層神經(jīng)網(wǎng)絡(luò),通過適當(dāng)縮放利用分布動力學(xué)(Distributional Dynamics,DD)的特定非線性偏微方程(Partial Differential Equation,PDE)捕獲SGD 動力學(xué),進(jìn)而解釋SGD 收斂到具有近乎理想泛化誤差的網(wǎng)絡(luò)的原因[76]。另外,從統(tǒng)計(jì)物理中能量與熵的角度進(jìn)行剖析[77],理論推導(dǎo)證實(shí)了實(shí)驗(yàn)上的直觀現(xiàn)象,其中批量大?。˙atchsize)影響了SGD 的隨機(jī)性,隨機(jī)噪聲會自發(fā)地使SGD 走向?qū)挼臉O小值。

    圖5 訓(xùn)練誤差與泛化誤差曲線示意圖Fig.5 Schematic diagram of training error and generalization error curves

    3.1 泛化性能影響因素

    人工神經(jīng)網(wǎng)絡(luò)的泛化能力通常是指它識別未經(jīng)訓(xùn)練的樣本的能力。泛化問題主要可以分為兩大類:一是“弱泛化”,可理解為“魯棒性(Robustness)”,即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)來自同一分布;二是“強(qiáng)泛化”,可看作一種“理解(Understanding)”能力,即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不同,需要使它在訓(xùn)練集上學(xué)習(xí)的模型在測試集上也表現(xiàn)良好。影響網(wǎng)絡(luò)泛化性能的因素主要如下:

    1)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)現(xiàn)網(wǎng)絡(luò)復(fù)雜性與樣本復(fù)雜性之間的平衡,最主要的方法就是剪枝(Pruning),是決策樹學(xué)習(xí)算法中對付“過擬合”的主要手段,它的基本策略包括預(yù)剪枝(Prepruning)和后剪枝(Post-pruning)[78]。由于后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支,一般情況下它的泛化性能優(yōu)于預(yù)剪枝。雖然剪枝網(wǎng)絡(luò)可以主動去掉一些分支降低過擬合風(fēng)險(xiǎn),但是有些時(shí)候也會加劇過擬合。例如,當(dāng)通過網(wǎng)絡(luò)修剪增加模型稀疏性時(shí),測試性能因網(wǎng)絡(luò)過擬合變差,即使減輕過擬合可以提升測試性能,但最后也會因忘記有用信息而變得更差。He 等[79]把網(wǎng)絡(luò)剪枝有時(shí)加劇過擬合的現(xiàn)象稱為“稀疏雙重下降”。針對該現(xiàn)象,他們還通過彩票假設(shè)機(jī)制提出了一種新的學(xué)習(xí)距離解釋,即稀疏模型的學(xué)習(xí)距離曲線(從初始參數(shù)到最終參數(shù))可能與稀疏雙重下降的曲線很好地相關(guān)。

    2)訓(xùn)練樣本。神經(jīng)網(wǎng)絡(luò)作為一種非參數(shù)模型,所有信息都來源于訓(xùn)練樣本集,訓(xùn)練樣本集對泛化性能的影響有時(shí)超過網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性對泛化性能的影響[80-81]。在DNN 的訓(xùn)練過程中使用模型參數(shù)的梯度信噪比(Gradient Signal-to-Noise Ratio,GSNR),即梯度的平方均值和方差與數(shù)據(jù)分布的比值,可以建立模型參數(shù)的GSNR 與泛化差距之間的定量關(guān)系:較大的GSNR 會導(dǎo)致更好的泛化性能[82]。另外,通過泛化鴻溝(Generalization gap)預(yù)測訓(xùn)練數(shù)據(jù)和網(wǎng)絡(luò)參數(shù)的泛化差距,得到可以實(shí)現(xiàn)更好泛化的新的訓(xùn)練損失函數(shù)[83]。對于使用反向傳播算法訓(xùn)練的前饋分層神經(jīng)網(wǎng)絡(luò),通過在訓(xùn)練樣本中引入加性噪聲也可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力[84]。Vyas 等[85]從自然數(shù)據(jù)集出發(fā),分析了NTK 泛化的局限性,研究認(rèn)為真實(shí)網(wǎng)絡(luò)和NTK 之間的本質(zhì)區(qū)別不僅是幾個(gè)百分點(diǎn)測試精度的差距。

    3)學(xué)習(xí)機(jī)制。學(xué)習(xí)策略對網(wǎng)絡(luò)機(jī)制的泛化性能影響較為復(fù)雜,主要源于鞍點(diǎn)和局部極值問題。在相同學(xué)習(xí)誤差和網(wǎng)絡(luò)結(jié)構(gòu)條件下,泛化誤差因到達(dá)不同的局部極值點(diǎn)而不同??梢酝ㄟ^約束網(wǎng)絡(luò)學(xué)習(xí)模型(約束條件與目標(biāo)函數(shù))、全局與局部最優(yōu)算法選擇、訓(xùn)練終止準(zhǔn)則和初始權(quán)重與歸一化等改善前饋網(wǎng)絡(luò)泛化性能。對于隨機(jī)高斯的權(quán)重初始化,很少有工作考慮到特征各向異性的影響,大多數(shù)都是假設(shè)高斯權(quán)重為獨(dú)立同分布。而Pehlevan 等[86]則據(jù)此推導(dǎo)出具有多層高斯特征模型的學(xué)習(xí)曲線,并且表明第一層特征之間存在相關(guān)性可以幫助網(wǎng)絡(luò)泛化,而后幾層的結(jié)構(gòu)通常有害,闡明了權(quán)重結(jié)構(gòu)如何影響一類簡單的可解模型中的泛化。除此之外,在損失函數(shù)加入懲罰項(xiàng)是當(dāng)前比較常用的正則化優(yōu)化方式,相關(guān)正則化技術(shù)還有Dropout[87]、權(quán)值噪聲和激活噪聲等。

    3.2 泛化性能理論

    3.2.1 SGD的最優(yōu)值收斂

    定義損失函數(shù)

    其中R(θ)為正則化函數(shù),yi為網(wǎng)絡(luò)輸出,由SGD 引起的網(wǎng)絡(luò)參數(shù)更新可以表示為:

    其中:ηt表示學(xué)習(xí)率,Bt表示隨機(jī)從訓(xùn)練集中選取數(shù)據(jù)的批量大小。根據(jù)Langevin 方程以及梯度流的定義,可以將SGD寫成下述形式,即

    此時(shí),η(t)表示一種隨機(jī)噪聲,表示所有數(shù)據(jù)點(diǎn)同時(shí)輸入與批量輸入對網(wǎng)絡(luò)輸出產(chǎn)生影響的差異,如下所示:

    過參數(shù)化網(wǎng)絡(luò)擁有好的泛化性,可能得益于SGD 的作用,Jastrz?bski 等[88]認(rèn)為影響SGD 最小值有3 個(gè)因素,即學(xué)習(xí)率、批量尺寸和梯度協(xié)方差,并且認(rèn)為學(xué)習(xí)率與批量大小的比值是影響SGD 動態(tài)和最終最小值寬度的關(guān)鍵決定因素,比率值越高,最小值范圍越寬,泛化效果越好。

    SGD 的下降趨勢取決于噪聲的方向及大小。當(dāng)網(wǎng)絡(luò)的訓(xùn)練過程收斂到一定狀態(tài)時(shí),可分兩種情況分析:一種是因?yàn)榈暨M(jìn)了寬的局部最小值,可以通過額外添加噪聲[89]使梯度繼續(xù)下降,朝著更低極小值走去;另一種是處于鞍點(diǎn),就需要新的算法逃離鞍點(diǎn)[90]。

    3.2.2 內(nèi)核與泛化誤差

    給定P個(gè)觀察樣本輸入xμ服從分布p(x),假設(shè)樣本的標(biāo)簽yμ帶有噪聲其中關(guān)于p(x)平方可積,εμ為添加的零均值噪聲,方差滿足關(guān)系對上述P個(gè)樣本的數(shù)據(jù)集,核回歸問題[6]可以描述為:

    其中:λ為嶺(Ridge)參數(shù),H 是由其再生核K(x,x')和輸入分布p(x)唯一確定的再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)[91],表示RKHS 內(nèi)積,希爾伯特范數(shù)懲罰項(xiàng)控制f的復(fù)雜性[92]。

    泛化誤差,即估計(jì)量f*與數(shù)據(jù)分布和數(shù)據(jù)集的平均真實(shí)目標(biāo)值之間的均方誤差,可表示為:

    Eg從平均上衡量所學(xué)習(xí)的函數(shù)與從同一分布采樣的未知(和已知)數(shù)據(jù)的目標(biāo)一致程度。式(33)的分析可以使用無序系統(tǒng)統(tǒng)計(jì)物理學(xué)中的復(fù)本方法[93]。

    利用Mercer 分解方法,將核K(x,x')分解成關(guān)于正交的特征函數(shù)項(xiàng){?ρ}:

    特征值{ηρ}和特征向量{?ρ}構(gòu)成RKHS 的完整基。通過特征圖(Feature map),可將式(34)右邊項(xiàng)設(shè)置為正交基,用于計(jì)算任何核和數(shù)據(jù)分布的核回歸泛化誤差。另外,還可以用該泛化誤差公式很好地描述低至幾個(gè)樣本數(shù)據(jù)集的平均學(xué)習(xí)曲線,由于訓(xùn)練集的隨機(jī)抽樣,學(xué)習(xí)曲線的走勢會隨著數(shù)據(jù)集樣本量的增加而衰減。對式(33)的解進(jìn)行實(shí)驗(yàn)分析,一個(gè)直接的觀察是它的譜偏差:若誤差沿特征函數(shù)的收斂越快,則在沒有噪聲限制下的特征值就越高[6]。

    基于上述核回歸泛化理論,可以計(jì)算從淺層FCN 到深度CNN 等DNN 訓(xùn)練中的泛化差距(Gap)。Misiakiewicz 等[94]用RKHS 的內(nèi)核特征計(jì)算高維單層卷積核中的任何給定函數(shù)的漸進(jìn)泛化誤差。

    3.3 泛化性能內(nèi)核預(yù)測

    在無限寬網(wǎng)絡(luò)極限下,基于高斯過程和NTK 過程的內(nèi)核演化可以預(yù)測網(wǎng)絡(luò)的泛化性能。Simon 等[91]推導(dǎo)出一種預(yù)測核回歸泛化的新理論,不僅可以準(zhǔn)確預(yù)測測試均方誤差,還可以預(yù)測網(wǎng)絡(luò)學(xué)習(xí)函數(shù)的所有一階和二階統(tǒng)計(jì)量,并且可以準(zhǔn)確預(yù)測有限寬網(wǎng)絡(luò)。針對不同架構(gòu)的DNN,還可以利用重尾自正則化(Heavy-Tailed Self-Regularization,HTSR)[95],在不查看測試數(shù)據(jù)的情況下預(yù)測何種DNN 具有最佳測試準(zhǔn)確性。Bordelon 等[96]通過自洽動力場理論分析了用梯度流訓(xùn)練的無限寬度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)。此外,他們還分析了使用梯度下降和生物學(xué)相關(guān)機(jī)制(反饋對齊)訓(xùn)練的無限寬深度網(wǎng)絡(luò),并認(rèn)為DMFT 能比較學(xué)習(xí)規(guī)則中的特征和預(yù)測動態(tài),內(nèi)核的演化也可以用DMFT 自洽地決定[97]。Cohen 等[98]則利用類物理學(xué)的方法,準(zhǔn)確地預(yù)測了足夠深的DNN 在多項(xiàng)式回歸問題上的學(xué)習(xí)曲線。

    Canatar 等[99]分析內(nèi)核與網(wǎng)絡(luò)目標(biāo)函數(shù)的對齊方式(Kernel alignment),用內(nèi)核表示DNN 學(xué)習(xí)的有用數(shù)據(jù),并在實(shí)驗(yàn)上研究了訓(xùn)練期間由層數(shù)演化的內(nèi)核,當(dāng)內(nèi)核可由淺層到較深層進(jìn)行表示時(shí),網(wǎng)絡(luò)可更好地進(jìn)行泛化。此外,Pehlevan 團(tuán)隊(duì)[6]通過研究核回歸的泛化誤差描述了相關(guān)無限寬過參數(shù)化的神經(jīng)網(wǎng)絡(luò)的泛化能力,并且使用統(tǒng)計(jì)力學(xué)相關(guān)技術(shù)推導(dǎo)出了適用于任何內(nèi)核和數(shù)據(jù)分布的泛化誤差的解析表達(dá)式,結(jié)合真實(shí)和合成數(shù)據(jù)集以及多種內(nèi)核,闡明了內(nèi)核回歸的歸納偏置,并用簡單函數(shù)解釋數(shù)據(jù)表征了內(nèi)核與學(xué)習(xí)任務(wù)的兼容性。

    4 未來方向

    深度神經(jīng)網(wǎng)絡(luò)平均場理論被廣泛用于指導(dǎo)深度學(xué)習(xí)中的工程設(shè)計(jì),但在DNN 中的初始化、訓(xùn)練過程以及泛化預(yù)測這3 個(gè)階段上依然存在一定的挑戰(zhàn):

    1)初始化階段。盡管MFT 在DNN 的應(yīng)用中取得了一定成效,還可以和統(tǒng)計(jì)力學(xué)相結(jié)合,從能量的角度出發(fā)理解DNN 的隨機(jī)初始化及表征能力[100],但在訓(xùn)練過程中可能會破壞好的初始化,這時(shí)該如何拯救尚未可知。已有研究從正則化的角度讓網(wǎng)絡(luò)在訓(xùn)練過程中盡量保持好的網(wǎng)絡(luò)狀態(tài),如上述提到的加入等距懲罰項(xiàng)等方法,但還未達(dá)到完全可以保障的效果。要想真正地探究DNN 的初始化機(jī)制,EoC 和DI這樣的初始化理論可能還遠(yuǎn)遠(yuǎn)不夠,特別是在EoC 和DI 之外是否存在更好的算法可以彌補(bǔ)不理想的初始化狀態(tài),這對發(fā)展更加可靠的DNN 具有重要的指導(dǎo)意義。因此,利用MFT 進(jìn)一步深入研究DNN 初始化的作用機(jī)制是非常有意義的方向之一。

    2)訓(xùn)練階段。既然NTK 可以在理論上描述任意深度L的神經(jīng)網(wǎng)絡(luò),那為何實(shí)際實(shí)驗(yàn)中進(jìn)行的卻是淺層網(wǎng)絡(luò)?一個(gè)可能的原因是較大的網(wǎng)絡(luò)寬度意味著影響輸出的神經(jīng)元很多,連接這些神經(jīng)元的權(quán)重發(fā)生一點(diǎn)細(xì)微變化都可能導(dǎo)致網(wǎng)絡(luò)輸出變化很大;另一種可能的原因是對于初始化不滿足訓(xùn)練條件的DNN,即不滿足EoC 和DI 條件,梯度不能從網(wǎng)絡(luò)的最后一層反向傳播至輸入層。另外,對于有限寬網(wǎng)絡(luò),NTK也并不能完全適用[85],實(shí)際實(shí)驗(yàn)中真實(shí)的網(wǎng)絡(luò)寬度也不可能接近無窮,NTK 理論終歸和實(shí)驗(yàn)有偏差,還需改善現(xiàn)有理論,以更好地衡量有限寬或深度網(wǎng)絡(luò)的訓(xùn)練能力。

    3)泛化階段。雖然泛化理論在預(yù)測方面取得了一定的突破,但也有局限性:第一,該理論需要在完整數(shù)據(jù)集上進(jìn)行核的特征分解,導(dǎo)致計(jì)算量龐大;第二,對于DNN 的內(nèi)核描述受到限制,不能捕獲更多有用的深度學(xué)習(xí)現(xiàn)象;第三,該理論使用高斯近似假設(shè),即使實(shí)驗(yàn)驗(yàn)證無誤,但放寬高斯近似假設(shè)后對于新的實(shí)驗(yàn)見解仍未知。另外,Pehlevan 的泛化理論基于核回歸,而對于非核回歸等問題目前還沒有類似于核回歸泛化理論的理論。特別是當(dāng)深度神經(jīng)網(wǎng)絡(luò)在做特征學(xué)習(xí)時(shí)處于非NTK 區(qū)域,目前的泛化理論研究還處于初期階段,任重而道遠(yuǎn)。

    5 結(jié)語

    本文從隨機(jī)網(wǎng)絡(luò)的動力學(xué)模型出發(fā),回顧并綜述了DNN的初始化MFT 理論及其對DNN 學(xué)習(xí)性能的重要性,以及過參數(shù)化和無限寬極限下的各種MFT 理論,介紹了訓(xùn)練過程中收斂性和泛化性的相關(guān)MFT 理論進(jìn)展。目前對DNN 的工作原理的理解還很粗淺,要想解析DNN 的內(nèi)部機(jī)理開發(fā)和改進(jìn)工程算法,還需要更多的理論實(shí)驗(yàn)探索,從更深層次的角度用MFT 理論理解DNN 的工作原理。

    猜你喜歡
    深度
    深度理解不等關(guān)系
    四增四減 深度推進(jìn)
    深度理解一元一次方程
    深度觀察
    深度觀察
    深度觀察
    深度觀察
    芻議深度報(bào)道的深度與“文”度
    新聞傳播(2016年10期)2016-09-26 12:14:59
    提升深度報(bào)道量與質(zhì)
    新聞傳播(2015年10期)2015-07-18 11:05:40
    微小提議 深度思考
    欧美3d第一页| av网站免费在线观看视频| 成人黄色视频免费在线看| 久久人人爽人人爽人人片va| 麻豆成人午夜福利视频| 欧美一级a爱片免费观看看| 亚洲成色77777| 九九在线视频观看精品| 亚洲av欧美aⅴ国产| 亚洲欧美精品专区久久| 乱码一卡2卡4卡精品| 色5月婷婷丁香| 在线观看av片永久免费下载| 激情五月婷婷亚洲| 国产精品一区www在线观看| av在线老鸭窝| 身体一侧抽搐| 国国产精品蜜臀av免费| 亚洲人与动物交配视频| 国产淫语在线视频| 1000部很黄的大片| 国产亚洲午夜精品一区二区久久| 国产精品99久久99久久久不卡 | 成人无遮挡网站| 欧美日韩亚洲高清精品| 免费看光身美女| 国产高清有码在线观看视频| 成年免费大片在线观看| 国产在线男女| 欧美精品一区二区大全| 九色成人免费人妻av| 毛片女人毛片| 99久久精品一区二区三区| 成人亚洲欧美一区二区av| 精品国产乱码久久久久久小说| 久久影院123| 国产中年淑女户外野战色| 成年女人在线观看亚洲视频| 日韩人妻高清精品专区| 欧美精品国产亚洲| 中文乱码字字幕精品一区二区三区| 久久精品国产亚洲av天美| 一个人看的www免费观看视频| 日韩伦理黄色片| 久久99热这里只频精品6学生| 热re99久久精品国产66热6| kizo精华| 18禁裸乳无遮挡动漫免费视频| av线在线观看网站| 天天躁日日操中文字幕| 97热精品久久久久久| 一本久久精品| 亚洲欧美中文字幕日韩二区| 国产69精品久久久久777片| 美女高潮的动态| 啦啦啦啦在线视频资源| 久久精品国产a三级三级三级| 成人美女网站在线观看视频| 免费看不卡的av| 女性生殖器流出的白浆| 午夜福利在线观看免费完整高清在| 男人舔奶头视频| 亚洲av成人精品一二三区| 有码 亚洲区| 一级毛片我不卡| 国产视频内射| www.av在线官网国产| 亚洲欧美精品专区久久| av卡一久久| 九九爱精品视频在线观看| 国产在线免费精品| 日本vs欧美在线观看视频 | 乱系列少妇在线播放| 精品视频人人做人人爽| 纵有疾风起免费观看全集完整版| 国产伦精品一区二区三区视频9| 欧美性感艳星| 婷婷色综合www| 久久韩国三级中文字幕| 精品久久久精品久久久| av女优亚洲男人天堂| 狠狠精品人妻久久久久久综合| 亚洲三级黄色毛片| 熟女av电影| 全区人妻精品视频| 国产极品天堂在线| 日韩制服骚丝袜av| 在线观看三级黄色| 嫩草影院新地址| 毛片女人毛片| 丝瓜视频免费看黄片| 欧美高清成人免费视频www| .国产精品久久| 国产在线免费精品| 深爱激情五月婷婷| 乱系列少妇在线播放| 狂野欧美激情性bbbbbb| 久久精品久久精品一区二区三区| 成年人午夜在线观看视频| tube8黄色片| 国产高清不卡午夜福利| 少妇被粗大猛烈的视频| 久久久久久久精品精品| 亚洲欧美一区二区三区国产| 久久这里有精品视频免费| 天堂中文最新版在线下载| www.色视频.com| 欧美日韩视频高清一区二区三区二| 国产精品熟女久久久久浪| 女的被弄到高潮叫床怎么办| 成人一区二区视频在线观看| www.av在线官网国产| 亚洲精品aⅴ在线观看| 九九久久精品国产亚洲av麻豆| 高清av免费在线| 国产高清有码在线观看视频| 国产片特级美女逼逼视频| 如何舔出高潮| 色视频www国产| 精品人妻一区二区三区麻豆| 欧美老熟妇乱子伦牲交| 在线观看国产h片| 一级毛片我不卡| 免费在线观看成人毛片| 国产成人a区在线观看| 亚洲久久久国产精品| 高清黄色对白视频在线免费看 | 欧美国产精品一级二级三级 | 五月开心婷婷网| 观看免费一级毛片| 青春草视频在线免费观看| 欧美最新免费一区二区三区| 亚洲精品视频女| 五月玫瑰六月丁香| 超碰av人人做人人爽久久| 乱系列少妇在线播放| 久久精品熟女亚洲av麻豆精品| 免费观看av网站的网址| 亚洲成人中文字幕在线播放| 深爱激情五月婷婷| av卡一久久| 精品久久久精品久久久| 亚洲av成人精品一区久久| 免费看不卡的av| 国产熟女欧美一区二区| 91aial.com中文字幕在线观看| 男女边吃奶边做爰视频| 一本久久精品| 美女视频免费永久观看网站| 在线精品无人区一区二区三 | 国产黄色视频一区二区在线观看| 国产爽快片一区二区三区| 欧美人与善性xxx| 日本av免费视频播放| 97在线视频观看| 美女内射精品一级片tv| 麻豆乱淫一区二区| 亚洲精品一二三| 少妇人妻一区二区三区视频| 色视频在线一区二区三区| 男人狂女人下面高潮的视频| 久久av网站| 欧美xxⅹ黑人| 久久久久久伊人网av| 男女边吃奶边做爰视频| 亚洲四区av| 新久久久久国产一级毛片| 欧美日本视频| 午夜福利高清视频| 我的女老师完整版在线观看| 久久精品久久精品一区二区三区| 久久精品夜色国产| 国产色婷婷99| 日本免费在线观看一区| 少妇人妻久久综合中文| 日本av手机在线免费观看| 韩国高清视频一区二区三区| 日韩视频在线欧美| 午夜日本视频在线| a级毛片免费高清观看在线播放| 欧美精品亚洲一区二区| 最近最新中文字幕大全电影3| 人妻制服诱惑在线中文字幕| 99热国产这里只有精品6| 午夜免费鲁丝| 亚洲精品中文字幕在线视频 | a级毛色黄片| 久久久久久久亚洲中文字幕| 亚洲,欧美,日韩| 午夜福利在线观看免费完整高清在| 国产精品av视频在线免费观看| 在线观看国产h片| 久久久久性生活片| 日韩视频在线欧美| 永久网站在线| 成人国产av品久久久| 一级毛片久久久久久久久女| 国产免费又黄又爽又色| 久久久久精品久久久久真实原创| 99热6这里只有精品| www.av在线官网国产| 一级片'在线观看视频| 亚洲av综合色区一区| 日本-黄色视频高清免费观看| 99九九线精品视频在线观看视频| 国产成人a区在线观看| 国产午夜精品久久久久久一区二区三区| 精品久久久精品久久久| 日韩电影二区| 国产高潮美女av| 菩萨蛮人人尽说江南好唐韦庄| 我要看黄色一级片免费的| 人妻 亚洲 视频| 国产精品国产三级专区第一集| 丰满迷人的少妇在线观看| 欧美成人a在线观看| 亚洲四区av| 国产免费又黄又爽又色| 国产精品国产三级专区第一集| 国产男女内射视频| 熟女人妻精品中文字幕| 伊人久久精品亚洲午夜| 九九久久精品国产亚洲av麻豆| 97热精品久久久久久| 99热这里只有精品一区| 欧美老熟妇乱子伦牲交| 1000部很黄的大片| 亚洲一级一片aⅴ在线观看| 成年人午夜在线观看视频| 国产成人午夜福利电影在线观看| 这个男人来自地球电影免费观看 | 一级毛片aaaaaa免费看小| 亚洲激情五月婷婷啪啪| 人妻制服诱惑在线中文字幕| 内射极品少妇av片p| 国产高清不卡午夜福利| 亚洲国产精品专区欧美| 国产精品一区二区在线不卡| 国产老妇伦熟女老妇高清| 丝袜脚勾引网站| 香蕉精品网在线| 亚洲精品一区蜜桃| 精品亚洲乱码少妇综合久久| 午夜视频国产福利| 久久久久国产网址| 成人亚洲精品一区在线观看 | 久久国内精品自在自线图片| 啦啦啦啦在线视频资源| 亚洲人成网站在线观看播放| 国产精品成人在线| 色哟哟·www| 免费观看性生交大片5| 卡戴珊不雅视频在线播放| 欧美丝袜亚洲另类| 干丝袜人妻中文字幕| 天堂俺去俺来也www色官网| 少妇精品久久久久久久| 色网站视频免费| 亚洲精品亚洲一区二区| 国产精品福利在线免费观看| 久久久久久伊人网av| 国国产精品蜜臀av免费| 久久影院123| 最近中文字幕高清免费大全6| 亚洲av综合色区一区| 水蜜桃什么品种好| 欧美 日韩 精品 国产| 一个人看视频在线观看www免费| 国产 一区精品| 婷婷色综合大香蕉| 中文精品一卡2卡3卡4更新| 亚洲国产色片| 国产深夜福利视频在线观看| 九九爱精品视频在线观看| 久久精品国产亚洲av涩爱| 一区二区三区精品91| 天堂8中文在线网| 在线亚洲精品国产二区图片欧美 | av免费在线看不卡| 欧美成人a在线观看| 国产无遮挡羞羞视频在线观看| 男女无遮挡免费网站观看| 男女边摸边吃奶| 日韩中文字幕视频在线看片 | 国产爱豆传媒在线观看| 精品国产乱码久久久久久小说| 成人无遮挡网站| 日韩视频在线欧美| 欧美最新免费一区二区三区| 精品久久国产蜜桃| 性色avwww在线观看| 美女视频免费永久观看网站| 日韩成人伦理影院| 99re6热这里在线精品视频| 久久精品人妻少妇| 在线观看一区二区三区| 日韩中文字幕视频在线看片 | 精品一品国产午夜福利视频| 国产精品成人在线| 久久午夜福利片| 一级爰片在线观看| freevideosex欧美| 六月丁香七月| 国产伦精品一区二区三区四那| 黄片wwwwww| 99久久精品国产国产毛片| 欧美激情国产日韩精品一区| 黑人高潮一二区| a 毛片基地| 久久久久久久久久成人| av免费在线看不卡| 啦啦啦啦在线视频资源| 大香蕉久久网| 亚洲国产欧美在线一区| 乱系列少妇在线播放| 久久鲁丝午夜福利片| 亚洲国产欧美在线一区| 建设人人有责人人尽责人人享有的 | 免费黄色在线免费观看| 秋霞伦理黄片| 欧美日韩视频精品一区| 我要看黄色一级片免费的| 国产伦在线观看视频一区| 少妇丰满av| 国产淫片久久久久久久久| 亚洲最大成人中文| 久久久久久伊人网av| 建设人人有责人人尽责人人享有的 | 制服丝袜香蕉在线| av一本久久久久| 久久久久久久久久久丰满| 91久久精品电影网| 亚洲欧美日韩卡通动漫| 精品一区二区三卡| 亚洲av中文av极速乱| 男女国产视频网站| 美女高潮的动态| 国产在线免费精品| 精品久久国产蜜桃| 精品久久久精品久久久| 麻豆精品久久久久久蜜桃| 国产成人freesex在线| 国产 一区精品| 亚洲四区av| 99国产精品免费福利视频| 亚洲av成人精品一二三区| 人妻少妇偷人精品九色| 99re6热这里在线精品视频| 日韩精品有码人妻一区| 国产成人a∨麻豆精品| 亚洲精品成人av观看孕妇| 丝瓜视频免费看黄片| 熟女电影av网| 少妇人妻一区二区三区视频| 国产高清三级在线| 亚洲av欧美aⅴ国产| 最近中文字幕高清免费大全6| 中文字幕久久专区| 九九久久精品国产亚洲av麻豆| 建设人人有责人人尽责人人享有的 | 久久人妻熟女aⅴ| 亚洲aⅴ乱码一区二区在线播放| 免费黄频网站在线观看国产| 欧美精品一区二区大全| 久久99热这里只频精品6学生| 又爽又黄a免费视频| 日韩人妻高清精品专区| 啦啦啦中文免费视频观看日本| 人妻 亚洲 视频| 精品一区二区免费观看| 老司机影院成人| 麻豆成人av视频| 97超视频在线观看视频| 久久久久性生活片| 一级毛片黄色毛片免费观看视频| 偷拍熟女少妇极品色| 成人综合一区亚洲| 搡女人真爽免费视频火全软件| 麻豆乱淫一区二区| 国产成人freesex在线| 国产 一区精品| 王馨瑶露胸无遮挡在线观看| 18+在线观看网站| 99久久中文字幕三级久久日本| 久久久久性生活片| 免费av不卡在线播放| 久久人人爽人人爽人人片va| 免费看av在线观看网站| 亚洲成人av在线免费| 久久久精品94久久精品| 97在线人人人人妻| 亚洲精品aⅴ在线观看| 舔av片在线| 久久国产精品男人的天堂亚洲 | 3wmmmm亚洲av在线观看| 国产老妇伦熟女老妇高清| 一个人看的www免费观看视频| 国产黄片视频在线免费观看| 日韩成人伦理影院| av一本久久久久| 国产高清三级在线| 日韩中字成人| 亚洲人与动物交配视频| 久久国产精品大桥未久av | 在线观看免费高清a一片| 午夜免费男女啪啪视频观看| 99热网站在线观看| 妹子高潮喷水视频| 亚洲av欧美aⅴ国产| 午夜福利影视在线免费观看| 免费看光身美女| 久久久久人妻精品一区果冻| 日韩欧美一区视频在线观看 | 日韩强制内射视频| 久久久久久久亚洲中文字幕| 99久久精品热视频| 国产综合精华液| av又黄又爽大尺度在线免费看| av黄色大香蕉| 一级毛片 在线播放| 久久久久久久久久久丰满| 欧美日韩视频精品一区| 51国产日韩欧美| 九九在线视频观看精品| 能在线免费看毛片的网站| 久久鲁丝午夜福利片| 人人妻人人添人人爽欧美一区卜 | 三级国产精品欧美在线观看| 国产成人免费无遮挡视频| 18+在线观看网站| 亚洲一级一片aⅴ在线观看| 超碰97精品在线观看| 久久久亚洲精品成人影院| 精品久久久精品久久久| 国产成人精品福利久久| 亚洲精品国产色婷婷电影| 国产淫语在线视频| 高清日韩中文字幕在线| 亚洲精品456在线播放app| 中文字幕av成人在线电影| 99久久精品国产国产毛片| 国产精品一区二区在线观看99| 免费大片18禁| 男女无遮挡免费网站观看| 七月丁香在线播放| 91精品国产九色| 亚洲精品,欧美精品| 狂野欧美白嫩少妇大欣赏| 国产精品一区二区性色av| 日韩欧美精品免费久久| 女性生殖器流出的白浆| 最近中文字幕高清免费大全6| 欧美人与善性xxx| 噜噜噜噜噜久久久久久91| 成人一区二区视频在线观看| 各种免费的搞黄视频| videos熟女内射| 高清av免费在线| 中国美白少妇内射xxxbb| 亚洲aⅴ乱码一区二区在线播放| 插逼视频在线观看| 免费黄色在线免费观看| 在线观看一区二区三区| 国产免费又黄又爽又色| 久久综合国产亚洲精品| www.av在线官网国产| 最近中文字幕高清免费大全6| 亚洲,欧美,日韩| 欧美激情极品国产一区二区三区 | 日本av免费视频播放| 最近2019中文字幕mv第一页| 欧美最新免费一区二区三区| 交换朋友夫妻互换小说| 国产高清有码在线观看视频| 麻豆成人av视频| 丰满乱子伦码专区| 日韩一区二区视频免费看| 亚洲精品色激情综合| 观看免费一级毛片| av免费在线看不卡| 精品人妻一区二区三区麻豆| 七月丁香在线播放| 国产亚洲av片在线观看秒播厂| 国产成人91sexporn| 夜夜爽夜夜爽视频| 在线观看美女被高潮喷水网站| 老司机影院毛片| 久久久久精品性色| 亚洲欧美日韩无卡精品| tube8黄色片| 久久久久人妻精品一区果冻| 夫妻性生交免费视频一级片| 国产精品一区www在线观看| 亚洲欧美日韩无卡精品| 最近最新中文字幕大全电影3| 精品一区在线观看国产| 黄色一级大片看看| 女性被躁到高潮视频| 欧美精品一区二区免费开放| 丝袜喷水一区| 激情 狠狠 欧美| .国产精品久久| 国产精品99久久99久久久不卡 | 国产亚洲av片在线观看秒播厂| 男女边吃奶边做爰视频| 亚洲中文av在线| 国产精品嫩草影院av在线观看| 亚洲欧美精品专区久久| 老女人水多毛片| 男女国产视频网站| av福利片在线观看| 在线免费观看不下载黄p国产| 亚洲欧洲国产日韩| 国产成人a区在线观看| 久久综合国产亚洲精品| 欧美日韩一区二区视频在线观看视频在线| 国产中年淑女户外野战色| 搡女人真爽免费视频火全软件| av专区在线播放| 日日摸夜夜添夜夜爱| 高清黄色对白视频在线免费看 | 亚洲无线观看免费| 国产在视频线精品| 亚洲美女黄色视频免费看| 老女人水多毛片| 丰满迷人的少妇在线观看| 国产av精品麻豆| 狂野欧美激情性bbbbbb| 久久99热这里只有精品18| 午夜免费观看性视频| 91久久精品国产一区二区成人| 男的添女的下面高潮视频| 亚洲精品国产av蜜桃| 大片电影免费在线观看免费| 亚洲最大成人中文| 亚洲欧美中文字幕日韩二区| 在线观看一区二区三区| 国产av一区二区精品久久 | 精品少妇黑人巨大在线播放| 99久国产av精品国产电影| 国产 一区精品| 夜夜爽夜夜爽视频| 女人十人毛片免费观看3o分钟| 国产免费一级a男人的天堂| 亚洲av不卡在线观看| 高清日韩中文字幕在线| 精品亚洲成a人片在线观看 | 亚洲精品中文字幕在线视频 | 日日摸夜夜添夜夜添av毛片| 一边亲一边摸免费视频| 亚洲av中文字字幕乱码综合| 伦理电影免费视频| 看十八女毛片水多多多| 91精品伊人久久大香线蕉| 国产av精品麻豆| 丝袜脚勾引网站| freevideosex欧美| 热re99久久精品国产66热6| 五月伊人婷婷丁香| 亚洲图色成人| 中国三级夫妇交换| 免费人成在线观看视频色| 国产亚洲最大av| 99re6热这里在线精品视频| 男男h啪啪无遮挡| 人体艺术视频欧美日本| 久久久久网色| 亚洲av国产av综合av卡| 免费看日本二区| 久久99热这里只有精品18| 国产成人精品一,二区| 激情五月婷婷亚洲| 99re6热这里在线精品视频| 亚洲成人手机| 免费观看在线日韩| 黄色视频在线播放观看不卡| 最新中文字幕久久久久| kizo精华| 亚洲av免费高清在线观看| 少妇被粗大猛烈的视频| 少妇的逼水好多| 最近手机中文字幕大全| 哪个播放器可以免费观看大片| 一个人免费看片子| 一级a做视频免费观看| 亚洲国产精品999| 一级毛片久久久久久久久女| 不卡视频在线观看欧美| 亚洲,一卡二卡三卡| 岛国毛片在线播放| 国产在视频线精品| 欧美日韩在线观看h| av线在线观看网站| 国产男人的电影天堂91| 国产又色又爽无遮挡免| 国产高清有码在线观看视频| 久久久久久久久久人人人人人人| 五月天丁香电影| 亚洲真实伦在线观看| 中文字幕免费在线视频6| 我的女老师完整版在线观看| 日韩一区二区视频免费看| 日韩成人av中文字幕在线观看| 亚洲成色77777| 亚洲国产色片| 日本av免费视频播放| 又爽又黄a免费视频| 一级a做视频免费观看| 国产探花极品一区二区| 大片免费播放器 马上看| 高清黄色对白视频在线免费看 | 干丝袜人妻中文字幕| 精品一区二区免费观看| 亚洲丝袜综合中文字幕| 久久久久久久精品精品|