秦利娟,馮乃勤
(1. 鄭州工業(yè)應(yīng)用技術(shù)學(xué)院信息工程學(xué)院,河南 鄭州451150;2. 河南師范大學(xué),河南 新鄉(xiāng)453007)
伴隨互聯(lián)網(wǎng)發(fā)展,人們可以通過數(shù)據(jù)提取技術(shù)來獲取更多有價值的信息。數(shù)據(jù)提取是指從數(shù)據(jù)集中抽取數(shù)據(jù)對其進行分析,找出數(shù)據(jù)集中潛在的信息,以及完成抽取數(shù)據(jù)的其它過程。當(dāng)前數(shù)據(jù)大多以文本形式存在,怎樣對文本數(shù)據(jù)進行有效地利用與管理,從中獲取有價值的數(shù)據(jù)信息,是現(xiàn)階段研究的熱點話題之一。
近幾年,越來越多的科研人員投入到數(shù)據(jù)分析工作中。文獻[1]分別通過相空間重構(gòu)方法和非線性統(tǒng)計序列分析方法對數(shù)據(jù)的特征進行重構(gòu)與重組,采用特征提取技術(shù)對特征向量高維稀疏數(shù)據(jù)的平均信息進行抽取,利用深度學(xué)習(xí)方法對數(shù)據(jù)尋優(yōu),實現(xiàn)高維稀疏數(shù)據(jù)的提取。該算法對數(shù)據(jù)的識別性較好,但在數(shù)據(jù)的分級推薦方面需要做進一步研究。文獻[2]對多維度的粗糙數(shù)據(jù)進行降維處理,為了消除數(shù)據(jù)的未知性,對數(shù)據(jù)的動態(tài)進行調(diào)整,采用將數(shù)據(jù)轉(zhuǎn)入精確幾何空間集的方法。該算法數(shù)據(jù)提取的精度很高,但數(shù)據(jù)提取的延時較長。文獻[3]為了解決數(shù)據(jù)結(jié)構(gòu)的局限性,在保留原有數(shù)據(jù)訓(xùn)練參數(shù)的情況下,對向量空間進行擴展,并根據(jù)新數(shù)據(jù)調(diào)整參數(shù),完成對新數(shù)據(jù)的學(xué)習(xí),該算法具有較好的實用性,但存在明顯的局限性。
由于數(shù)據(jù)本身具有稀疏和高維度等特點,采用傳統(tǒng)的機器學(xué)習(xí)方法對數(shù)據(jù)進行提取,會造成高維稀疏數(shù)據(jù)中存在噪聲,因此傳統(tǒng)方法不能很好的解決數(shù)據(jù)提取問題[4]。本文針對稀疏數(shù)據(jù),引入深度學(xué)習(xí)反向傳播的方法對數(shù)據(jù)特征進行提取。該方法中通過深度學(xué)習(xí)算法對稀疏數(shù)據(jù)進行處理,并且通過Softmax實現(xiàn)對數(shù)據(jù)的分類,最后結(jié)合反向傳播方法對數(shù)據(jù)結(jié)果進行微調(diào)。
為了實現(xiàn)對稀疏數(shù)據(jù)的提取,結(jié)合稀疏數(shù)據(jù)分布式結(jié)構(gòu),將稀疏數(shù)據(jù)體系分別建立在Web和分散式社會網(wǎng)絡(luò)的基礎(chǔ)上[5]。稀疏數(shù)據(jù)的模型圖用二元有向圖A=(B,C)表示,B表示數(shù)據(jù)模型圖頂點集合,C表示稀疏數(shù)據(jù)在有限區(qū)間內(nèi)所有邊界的集合。稀疏數(shù)據(jù)的Sink節(jié)點和傳輸節(jié)點的相軌跡間距分別用歐式距離表示,在初始鏈路模型下可以得出稀疏數(shù)據(jù)的拓撲模型。如圖1所示。
圖1 稀疏數(shù)據(jù)拓撲模型
在稀疏數(shù)據(jù)的存儲網(wǎng)絡(luò)中,模型有向圖向量加權(quán)系數(shù)用E={u,e1,e2,…,ek}表示,假設(shè)在稀疏數(shù)據(jù)覆蓋區(qū)域內(nèi)有M個網(wǎng)絡(luò)節(jié)點的傳輸層數(shù)據(jù)分別為x(k-1),x(k-2),…,x(k-M),那么數(shù)據(jù)諧波分布節(jié)點的初始位置估計值用公式可表示為:
(1)
采用優(yōu)先級劃分方法,稀疏數(shù)據(jù)傳輸節(jié)點的模型可表示為
(2)
其中,α(t)表示虛擬節(jié)點的維數(shù);ds_s表示稀疏數(shù)據(jù)Source與Sink間的距離。采用相空間重構(gòu)結(jié)合非線性統(tǒng)計序列分析方法[6-7]對稀疏數(shù)據(jù)進行重構(gòu),重構(gòu)的結(jié)構(gòu)模型可表示為
(3)
其中,K表示稀疏數(shù)據(jù)特征空間維數(shù);δ表示延時;n表示虛擬節(jié)點個數(shù)。通過對相空間的重構(gòu),有利于提高稀疏數(shù)據(jù)特征提取性能。
假設(shè)稀疏數(shù)據(jù)流的統(tǒng)計分布序列用{xorg_1,xorg_2,…,xorg_M}表示,x(m)表示為回歸分析的特征向量,對n維重構(gòu)相空間中的稀疏數(shù)據(jù)進行云映射處理,得出稀疏數(shù)據(jù)的分布重組結(jié)構(gòu)式為
X(m)={x(m),x(m+δ),…,x(m+(n-1)δ)}
(4)
進一步建立數(shù)據(jù)的狀態(tài)轉(zhuǎn)移模型,稀疏數(shù)據(jù)特征的評價概念集合用公式可表示為
(5)
結(jié)合云稀疏散亂點處理方法,可以求出稀疏數(shù)據(jù)的第i個散亂點集為Ji=(ji1,ji2,…,jiK),采用數(shù)據(jù)的時隙分配模式,對稀疏數(shù)據(jù)的屬性混合值進行迭代處理,公式可表示為
(6)
其中,xi(n)表示xi的范數(shù)。
當(dāng)處理數(shù)量較多且相對復(fù)雜的聲音及文本等數(shù)據(jù)信息時,早期的神經(jīng)網(wǎng)絡(luò)所具有的特征局限性就顯得尤為明顯??紤]到深層結(jié)構(gòu)的模型具有自適應(yīng)非線性等特征,非常適合對大規(guī)模數(shù)據(jù)的提取與建立,于是針對稀疏數(shù)據(jù)的提取問題,提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的方法。該方法中,深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每兩個相鄰神經(jīng)網(wǎng)絡(luò)層的配對工作,通過輸入層訓(xùn)練兩層間的權(quán)值參數(shù),并構(gòu)建出輸出層。Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。
圖2 Softmax分類器模型
在深度學(xué)習(xí)和Softmax算法中使用了無標(biāo)簽與部分數(shù)據(jù)有標(biāo)簽相結(jié)合的訓(xùn)練模型,分別通過無標(biāo)簽和有標(biāo)簽數(shù)據(jù)完成對深度學(xué)習(xí)和Softmax回歸模型的訓(xùn)練。在模型中,輸入的樣本數(shù)據(jù)層為cin,深度學(xué)習(xí)對稀疏數(shù)據(jù)的降維結(jié)果輸出lout,通過訓(xùn)練Softmax模型可以得出初始的權(quán)值,有利于提高稀疏數(shù)據(jù)的收斂速度。若僅僅考慮Softmax模型的訓(xùn)練,若為k分類問題,且函數(shù)的輸出也是k維向量,函數(shù)參數(shù)為?par,那么Softmax模型的輸出形式可表示為
(7)
其中,?par包含Softmax模型的權(quán)值?par_q_ij和輸出偏置?par_p_j。Softmax模型通過訓(xùn)練可以提高稀疏數(shù)據(jù)分類的準確率,在訓(xùn)練中采用最小化代價函數(shù)對模型的參數(shù)進行修正,代價函數(shù)表示為
(8)
采用深度學(xué)習(xí)算法提取稀疏數(shù)據(jù)的特征量,從起始時間t0開始對特征量進行統(tǒng)計,求出稀疏數(shù)據(jù)中時隙分配的信任值,公式表示為
(9)
其中:?∈(0,1]。綜上所述,通過深度學(xué)習(xí)算法可實現(xiàn)對稀疏數(shù)據(jù)的初步識別與提取。
反向傳播可以將學(xué)習(xí)網(wǎng)絡(luò)中的殘差傳輸?shù)捷斎雽又校鶕?jù)誤差減小最快的方向?qū)訖?quán)系數(shù)進行調(diào)整,直到獲取最佳的加權(quán)系數(shù)。調(diào)整的過程就是使系統(tǒng)模型的代價函數(shù)取值最小,調(diào)整過程中系統(tǒng)模型的代價函數(shù)類似于Softmax模型代價函數(shù),用公式可表示為
(10)
理想的多類稀疏數(shù)據(jù)標(biāo)簽對應(yīng)信息為1,其余稀疏數(shù)據(jù)對應(yīng)信息為0,其標(biāo)簽形式可表示為z={0,…,0,1,0,…,0}T,為了對輸出的向量q與標(biāo)準稀疏數(shù)據(jù)向量標(biāo)簽z之間的距離進行度量,需定義置信度距離,公式表示為
(11)
其中,max(·)和max*(·)分別表示返回最大元素值與第二個最大值元素值;test(·)表示返回稀疏數(shù)據(jù)測試樣本對應(yīng)編號的元素值。樣本權(quán)重更新公式表示為
(12)
其中,Qt(i)表示第i個稀疏數(shù)據(jù)樣本在第t次迭代時的權(quán)重值;Wt表示歸一化因子;ξt表示第t個弱分類器對應(yīng)的權(quán)重值;為了避免難以分類的稀疏數(shù)據(jù)樣本權(quán)重值增長較快,參數(shù)cons(·)取值范圍限制在[-1,1]之間。
從整個稀疏數(shù)據(jù)的訓(xùn)練集中選擇一些數(shù)據(jù)作為弱分類器的訓(xùn)練集,為了方便抽取樣本個數(shù),先驗概率質(zhì)量函數(shù)用稀疏數(shù)據(jù)的當(dāng)前樣本權(quán)重值表示,這樣不僅可以降低訓(xùn)練過程的復(fù)雜性,還可以保證各個弱分類器之間的相互獨立性。
為了驗證深度學(xué)習(xí)反向傳播算法對稀疏數(shù)據(jù)特征提取的有效性,本文選取文本集和新聞組語料庫這兩個數(shù)據(jù)集進行實驗,在測試集的文檔中選擇詞頻最多的前1000個單詞,因此一篇文檔中具有1000維的向量中會包含了每個單詞出現(xiàn)的次數(shù)頻率。然后計算每個單詞在文章中出現(xiàn)的權(quán)重,并將該結(jié)果作為模型的輸入。通過從數(shù)據(jù)集中選取不同個數(shù)的文檔,驗證本文算法對不同規(guī)模數(shù)據(jù)訓(xùn)練的效果,并分別在小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集以及新聞組數(shù)據(jù)集上進行實驗,利用誤差率與均方差反映所提算法的精確度。
在小規(guī)模數(shù)據(jù)集實驗中,文本為300篇,訓(xùn)練集文本為220篇,測試集文本為80篇,類別數(shù)量為5,從訓(xùn)練集中選擇具有類別標(biāo)簽的20篇文本。在文本訓(xùn)練過程中,每個單元迭代50次,并采用不同的模型進行測試實驗,測試結(jié)果的準確率如表1所示。
表1 測試結(jié)果準確率
從實驗結(jié)果可以看出,采用梯度下降算法的模型進行微調(diào)后,準確率達到62.21%,比KNN模型準確率提高了6.87%;采用本文算法進行微調(diào)后準確率可達到91.59%,比KNN模型的準確率提高了36.25%。同時在微調(diào)過程中,對分類誤差進行比較,圖3為不同算法的誤差率曲線。
圖3 誤差率曲線
根據(jù)誤差率曲線,在迭代增加的過程中,梯度下降法誤差率表現(xiàn)出持續(xù)震蕩的現(xiàn)象,在前60次迭代過程中,誤差率沒有明顯的下降趨勢;而采用本文提出的算法在前9次的迭代過程中,誤差率明顯發(fā)生下降的趨勢,從第10次開始誤差率維持在一個穩(wěn)定的狀態(tài),且誤差率較低為9.85%左右。
實驗中選擇3000篇文本,訓(xùn)練集文本選擇2200篇(從中選擇200篇具有類別標(biāo)簽的文本),測試文本選擇800篇,在對數(shù)據(jù)訓(xùn)練與測試過程中,迭代次數(shù)為50次。準確率測試結(jié)果如表2所示。
表2 準確率測試結(jié)果
從實驗結(jié)果可以看出,采用本文算法相對于梯度下降算法能夠更好的優(yōu)化系統(tǒng)模型參數(shù),大大提高數(shù)據(jù)分類提取的準確率。與小規(guī)模數(shù)據(jù)集的試驗相比,采用三種算法模型的準確率均有提高,說明數(shù)據(jù)量越大,數(shù)據(jù)分類的準確率越高。與小規(guī)模數(shù)據(jù)集試驗類似也進行了分類誤差率的對比,實驗結(jié)果如圖4所示。
圖4 誤差率曲線
從圖中可以看出,采用梯度下降算法模型從第一次迭代開始誤差率一直沒有發(fā)生變化,說明該算法對大規(guī)模數(shù)據(jù)集起不到微調(diào)的作用;而采用本文算法在前25次迭代過程中,誤差率具有明顯下降的趨勢,并隨著迭代次數(shù)的增加誤差率基本維持在最低的狀態(tài),但誤差率并不是最小值。
在新聞組語料庫數(shù)據(jù)集實驗中,類別數(shù)量為20,選擇不同規(guī)模的測試數(shù)據(jù),并針對不同模型算法的分類情況與本文算法進行對比,準確率測試結(jié)果如表3所示。
表3 準確率測試結(jié)果
從實驗結(jié)果可以看出,隨著新聞組數(shù)據(jù)集數(shù)量的增加,采用KNN算法對數(shù)據(jù)分類的準確率相對較低,其次是采用梯度下降算法,采用本文算法的數(shù)據(jù)分類準確率最高;在微調(diào)過程中,梯度下降算法的模型對數(shù)據(jù)分類的結(jié)果影響力較小,通過新聞組數(shù)據(jù)集的試驗表明,在微調(diào)過程中采用本文提出的模型,對不同規(guī)模的數(shù)據(jù)集都可以較好地完成數(shù)據(jù)分類。
對于稀疏數(shù)據(jù)的分類提取問題,本文提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的混合模型。其中深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每兩個相鄰神經(jīng)網(wǎng)絡(luò)層的配對工作,Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。在數(shù)據(jù)微調(diào)過程中將深度學(xué)習(xí)和Softmax作為一個整體,并結(jié)合數(shù)據(jù)分類的準確率和誤差率,采用反向傳播方法完成對系統(tǒng)模型權(quán)值的優(yōu)化。為了驗證本文算法的有效性,選取文本集和新聞組語料庫這兩個數(shù)據(jù)集,分別進行小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集和新聞組數(shù)據(jù)集實驗。實驗結(jié)果表明,采用本文算法對數(shù)據(jù)特征進行分類提取準確率較高,并且誤差率較低,在數(shù)據(jù)的提取上具有令人滿意的效果。