劉丹楓, 劉建霞
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 榆次 030600)
作為機(jī)器學(xué)習(xí)[1]中最重要的分支,深度學(xué)習(xí)[2]理論和應(yīng)用近年來(lái)得到了快速的發(fā)展.深度學(xué)習(xí)模型利用無(wú)監(jiān)督學(xué)習(xí)的互連權(quán)重初始化和監(jiān)督學(xué)習(xí)教學(xué)信號(hào),不僅可以學(xué)習(xí)復(fù)雜的大數(shù)據(jù)集,而且可以通過(guò)深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)提取高層信息特征[3].通常情況下,深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用多個(gè)隱藏層,因此很難確定一個(gè)恰當(dāng)?shù)膶W(xué)習(xí)算法來(lái)訓(xùn)練多個(gè)隱藏層之間的互連權(quán)重.然而,計(jì)算隱藏層之間的互連權(quán)重又是十分必要的,這是因?yàn)榛谏顚由窠?jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法有望取代特定人工領(lǐng)域的工作,大幅度提高工作效率[4].因此,深度學(xué)習(xí)模型構(gòu)建和深層特征,已經(jīng)成為國(guó)內(nèi)外計(jì)算機(jī)科學(xué)、自動(dòng)化科學(xué)等的研究熱點(diǎn).
過(guò)擬合[5-6]問(wèn)題是機(jī)器學(xué)習(xí)方法最嚴(yán)重的問(wèn)題之一,其主要后果是不可見(jiàn)數(shù)據(jù)模型的低準(zhǔn)確度惡化數(shù)據(jù)訓(xùn)練精度.只要模型是基于有偏差的數(shù)據(jù)建立的,那么過(guò)擬合問(wèn)題就會(huì)發(fā)生,且當(dāng)模型是復(fù)雜的、包含大參數(shù)集的,則會(huì)導(dǎo)致更嚴(yán)重的過(guò)擬合,多層神經(jīng)網(wǎng)絡(luò)就是如此.
針對(duì)深度學(xué)習(xí)中的過(guò)擬合問(wèn)題,文獻(xiàn)[7]提出一種基于擴(kuò)大數(shù)據(jù)集、減少網(wǎng)絡(luò)參數(shù)和參數(shù)更新迭代算法的過(guò)擬合削弱方案.文獻(xiàn)[8]利用深度置信網(wǎng)絡(luò)替代淺層神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了隱層節(jié)點(diǎn)數(shù)選取的遞推公式,并進(jìn)一步構(gòu)建了深度置信網(wǎng)絡(luò)狀態(tài)觀測(cè)器,從而解決過(guò)擬合問(wèn)題.文獻(xiàn)[9]提出一種基于多層自動(dòng)編碼器的特征提取算法,通過(guò)數(shù)據(jù)生成性預(yù)訓(xùn)練和正則化方法防止過(guò)擬合的發(fā)生.文獻(xiàn)[10]通過(guò)在深度神經(jīng)網(wǎng)絡(luò)的聯(lián)通層后接入放棄層,可有效降低過(guò)擬合對(duì)數(shù)據(jù)預(yù)測(cè)的影響.文獻(xiàn)[11]在設(shè)計(jì)一種定量檢測(cè)過(guò)擬合的變量——過(guò)擬合率的基礎(chǔ)上,提出了一種新型的AdaBELM過(guò)擬合降低方法,實(shí)驗(yàn)結(jié)果表明提出的方法可以大幅度提高多文本分類的性能.
支持向量機(jī)[12]在解決高維模式識(shí)別中具有獨(dú)特的優(yōu)勢(shì),并能夠推廣到函數(shù)擬合等機(jī)器學(xué)習(xí)領(lǐng)域中,是解決過(guò)擬合問(wèn)題的一種有效途徑.文獻(xiàn)[13]提出了一種基于樣本先驗(yàn)信息調(diào)整超平面閾值的改進(jìn)型支持向量機(jī),降低了光纖入侵信號(hào)識(shí)別中的過(guò)擬合問(wèn)題.文獻(xiàn)[14]通過(guò)引入調(diào)整項(xiàng),提出了一種改進(jìn)的模糊孿生支持向量機(jī)模型,不僅可以克服噪聲或異常對(duì)數(shù)據(jù)分類的影響,而且可以有效削弱過(guò)擬合的影響.文獻(xiàn)[15]使用線性支持向量機(jī)替代softmax激活函數(shù),從而降低了計(jì)算復(fù)雜度.文獻(xiàn)[16]利用遺傳算法對(duì)傳統(tǒng)的支持向量機(jī)進(jìn)行參數(shù)優(yōu)化,從而提高了基于支持向量機(jī)的分類器的計(jì)算精度,降低了過(guò)擬合程度.
在以上研究的基礎(chǔ)上,論文首先設(shè)計(jì)了可以表征深層特征空間的判別力和表達(dá)力的神經(jīng)網(wǎng)絡(luò)深層結(jié)構(gòu),進(jìn)而提出了提升深層節(jié)點(diǎn)泛化性能的支持向量數(shù)據(jù)描述方法,從而解決深度學(xué)習(xí)中的過(guò)擬合問(wèn)題.最后,通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了所提方法具備學(xué)習(xí)多級(jí)數(shù)據(jù)而不產(chǎn)生嚴(yán)重過(guò)度擬合的優(yōu)點(diǎn).
支持向量機(jī)是一種廣泛用于分類和回歸任務(wù)的監(jiān)督學(xué)習(xí)方法.對(duì)于線性可分問(wèn)題,支持向量機(jī)可以得到最優(yōu)分類超平面,同時(shí)最大化平面與最近數(shù)據(jù)點(diǎn)之間的距離.在支持向量數(shù)據(jù)描述的封閉超球面內(nèi),數(shù)據(jù)被分離在低密度外部區(qū)域和高密度內(nèi)部區(qū)域中.由于目標(biāo)數(shù)據(jù)的概率密度估計(jì)需要大量的樣本,因此支持向量數(shù)據(jù)描述通過(guò)構(gòu)造給定數(shù)據(jù)球體來(lái)創(chuàng)建訓(xùn)練數(shù)據(jù),而該數(shù)據(jù)球體的邊界可以用來(lái)檢測(cè)類似的學(xué)習(xí)訓(xùn)練集對(duì)象[17].
支持向量數(shù)據(jù)描述的數(shù)據(jù)超球面可以用球心C和半徑R來(lái)定義,用來(lái)建立封閉邊界的目標(biāo)函數(shù)定義為:
minJ(C,R)=min(R-‖C‖)2,
(1)
s.t.‖D-C‖≤R2.
(2)
式中:D=(d1,d2, …,dn)為訓(xùn)練數(shù)據(jù)集,n為D中包含的數(shù)據(jù)數(shù)量;‖·‖代表范數(shù).
在式(2)的約束條件下求解式(1),即可得到最小閉合球體.由于數(shù)據(jù)訓(xùn)練組很可能出現(xiàn)異常值,因此,需要利用松弛變量θi≥0對(duì)式(1)進(jìn)行改造:
(3)
此時(shí)保證所有數(shù)據(jù)都在球體內(nèi)的約束條件變?yōu)椋?/p>
(4)
通過(guò)調(diào)節(jié)參數(shù)γ,可實(shí)現(xiàn)超球體的體積和誤差之間的動(dòng)態(tài)平衡.(3)和(4)的拉格朗日乘法公式為:
式中:αi,βi> 0為拉格朗日算子,i=1,2,…,n.對(duì)函數(shù)L求導(dǎo),并令偏導(dǎo)數(shù)為零,可得:
如果待測(cè)數(shù)據(jù)樣本是已知的,則數(shù)據(jù)樣本和球心之間的距離為:
(5)
與支持向量機(jī)類似,支持向量數(shù)據(jù)描述也可以使用內(nèi)核進(jìn)行擴(kuò)展,即
‖φ(D)-C‖2≤(R-θi)2,
式中:φ(·)是一個(gè)映射到更高維特征空間的函數(shù).利用映射和內(nèi)核函數(shù)可將式(5)轉(zhuǎn)化為:
式中:Λ( , )代表滿足Mercer 定理的核函數(shù).支持向量數(shù)據(jù)描述的輸出為:
R2-‖φ(D)-C‖2+θiγ.
(6)
如果式(6)的計(jì)算結(jié)果為正,則表示數(shù)據(jù)樣品位于邊界內(nèi),反之則位于邊界外.
由上述分析可得支持向量數(shù)據(jù)描述模型的總體結(jié)構(gòu),如圖1所示.圖中:隱藏層利用支持向量數(shù)據(jù)描述值來(lái)提取特征;每一層都與一個(gè)(位于某一類上的)支持向量數(shù)據(jù)描述相匹配,即對(duì)于k-類分類問(wèn)題,每個(gè)隱藏層由k個(gè)支持向量數(shù)據(jù)描述節(jié)點(diǎn);通過(guò)選擇具有最高置信度值的支持向量數(shù)據(jù)描述節(jié)點(diǎn),即可令每一層有效處理k-類問(wèn)題.
為了驗(yàn)證提出的基于支持向量數(shù)據(jù)描述的深度學(xué)習(xí)方法的有效性,利用兒童肥胖癥基因表達(dá)譜數(shù)據(jù)集[18](簡(jiǎn)稱第一類數(shù)據(jù)集)、呼和浩特太陽(yáng)能輻射數(shù)據(jù)集[19](簡(jiǎn)稱第二類數(shù)據(jù)集)作為實(shí)驗(yàn)數(shù)據(jù)集來(lái)驗(yàn)證該算法.兒童肥胖癥基因表達(dá)譜數(shù)據(jù)集包括600個(gè)樣本,其中,1類樣本250個(gè),2類樣本350個(gè),存在20個(gè)數(shù)據(jù)屬性(為了保證仿真結(jié)果的實(shí)際意義,刪除第1個(gè)屬性“樣本編號(hào)”,即只使用剩下的19個(gè)屬性).呼和浩特太陽(yáng)能輻射數(shù)據(jù)集包含陰雨天氣、太陽(yáng)耀斑等情況下的不確定性量化數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分類來(lái)預(yù)測(cè)太陽(yáng)能可用資源的模擬結(jié)果.該數(shù)據(jù)集包括700個(gè)模擬數(shù)據(jù),其中有55個(gè)數(shù)據(jù)代表無(wú)可用太陽(yáng)能資源(視作失敗數(shù)據(jù)),其余都是成功數(shù)據(jù).
實(shí)驗(yàn)中的置信度閾值是由神經(jīng)網(wǎng)絡(luò)的層深度確定的,如果置信度閾值過(guò)大,則會(huì)導(dǎo)致更多的數(shù)據(jù)樣本被作為可疑結(jié)果,從而使得神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)變得更深層,加大計(jì)算復(fù)雜度;反之,則會(huì)導(dǎo)致更多的數(shù)據(jù)樣本被視為可信的,又會(huì)使得神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)變淺,從而影響計(jì)算精度.為了有效平衡計(jì)算的復(fù)雜度和精度,實(shí)驗(yàn)中將置信度閾值設(shè)置為0.62.
圖2為兩類數(shù)據(jù)集的大于置信度閾值的數(shù)據(jù)量,由于提出的模型是基于貪婪學(xué)習(xí)方式的,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的深度增加,從而導(dǎo)致了模型中高于置信度閾值的數(shù)據(jù)量也隨之增加.
圖3為兩類數(shù)據(jù)集的訓(xùn)練精度,可見(jiàn),隨著層數(shù)的增加,精度開(kāi)始迅速變大,并在第7層達(dá)到最大值,之后層上的精度則趨于飽和.表1對(duì)比了提出的算法與一種典型的基于線性支持向量機(jī)模型的測(cè)試精度,可見(jiàn),提出的模型具有更強(qiáng)的泛化性能,而且通過(guò)構(gòu)建深層模型可以有效地開(kāi)發(fā)深度學(xué)習(xí)的表達(dá)能力,從而提高其精度.
表1 兩種模型平均精度對(duì)比
本文針對(duì)深度學(xué)習(xí)中的過(guò)擬合問(wèn)題,在已有研究的基礎(chǔ)上,提出一種支持向量數(shù)據(jù)描述模型,從而提高神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)信息的精度和效率.此外,提出的模型具有較高的泛化性能,進(jìn)一步提高了深度學(xué)習(xí)的表達(dá)能力.兩種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提模型的有效性,與傳統(tǒng)的線性支持向量機(jī)模型的對(duì)比實(shí)驗(yàn)結(jié)果也證明所提方法的優(yōu)越性.
參考文獻(xiàn)
[1] 黨紅恩, 趙爾平, 劉煒,等. 利用數(shù)據(jù)變換與并行運(yùn)算的閉頻繁項(xiàng)集挖掘方法[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào), 2018, 40(1): 119-122.
[2] CHEN Y,LIN Z,ZHAO X, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2017, 7(6): 2094-2107.
[3] MAJUMDER N,PORIA S,GELBUKH A, et al. Deep learning-based document modeling for personality detection from text[J]. IEEE Intelligent Systems, 2017, 32(2): 74-79.
[4] HOU W,GAO X,TAO D, et al. Blind image quality assessment via deep learning[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(6): 1275-1286.
[5] SUK H.An introduction to neural networks and deep learning[C]//Deep Learning for Medical Image Analysis, 2017: 3-24.
[6] 彭玉青, 劉帆, 高晴晴, 等. 基于微調(diào)優(yōu)化的深度學(xué)習(xí)在語(yǔ)音識(shí)別中的應(yīng)用[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2016, 48(4): 30-35.
[7] 李騰飛, 秦永彬. 基于迭代深度學(xué)習(xí)的缺陷檢測(cè)[J]. 計(jì)算機(jī)與數(shù)字工程, 2017, 45(6): 1133-1137.
[8] 鄭曉飛, 郭創(chuàng), 姚斌, 等. 基于深度學(xué)習(xí)的航空傳感器故障診斷方法[J]. 計(jì)算機(jī)工程, 2017, 43(7): 281-287.
[9] 孫志軍, 薛磊, 許陽(yáng)明. 基于深度學(xué)習(xí)的邊際Fisher分析特征提取算法[J]. 電子與信息學(xué)報(bào), 2013, 35(4): 805-811.
[10] ASHIQUZZAMAN A,TUSHAR A K,ISLAM M R, et al. Reduction of overfitting in diabetes prediction using deep learning neural network[C]//IT Convergence and Security, 2017: 35-43.
[11] FENG X,LIANG Y,SHI X, et al. Overfitting reduction of text classification based on AdaBELM[J]. Entropy, 2017, 19(7): 330-338.
[12] 時(shí)培明, 梁凱, 趙娜, 等. 基于深度學(xué)習(xí)特征提取和粒子群支持向量機(jī)狀態(tài)識(shí)別的齒輪智能故障診斷[J]. 中國(guó)機(jī)械工程, 2017, 28(9): 1056-1061.
[13] 曲洪權(quán), 夏雨, 畢福昆. 一種基于改進(jìn)型SVM算法的光纖入侵信號(hào)識(shí)別研究[J]. 北方工業(yè)大學(xué)學(xué)報(bào), 2017, 29(2): 33-38.
[14] 李凱, 顧麗鳳, 胡少方. 引入調(diào)整項(xiàng)的模糊孿生支持向量機(jī)[J]. 計(jì)算機(jī)科學(xué), 2017, 44(8): 260-264.
[15] XU M,TANG Z,YAO Y, et al. Deep learning for person reidentification using support vector machines[J]. Advances in Multimedia, 2017, 32(3): 1-12.
[16] KHARRAT A,HALIMA M B,AYED M B. MRI brain tumor classification usingsupport vector machines and meta-heuristic method[C]//International Conference on Intelligent Systems Design & Applications, 2016: 456-462.
[17] YANG I B,NA S G,HEO H. Intelligent algorithm based on support vector data description for automotive collision avoidance system[J]. International Journal of Automotive Technology, 2017, 18(1): 69-77.
[18] 喬召華, 婁丹. 兒童肥胖癥相關(guān)基因的生物信息學(xué)分析[J]. 西部醫(yī)學(xué), 2017, 29(5): 604-608.
[19] 蔣少龍, 任艷男, 王晶晶. 基于C#.NET的太陽(yáng)能數(shù)據(jù)庫(kù)系統(tǒng)開(kāi)發(fā)[J]. 內(nèi)蒙古科技與經(jīng)濟(jì), 2016, 29(10): 51-52.