中圖分類號(hào):TP181;TP183 文獻(xiàn)標(biāo)志碼:A
A Recursive Back Propagation Algorithm for Data Stream Classification
LIU Zhanhua, WEN Yimin, LIU Xiang (School of Computer Science and Information Security amp; School of Software Engineering, GuilinUniversityofElectronic Technology,Guilin541OO4,Guangxi,China)
Abstract:To enhancethelearning abilityof deep neural network model,a recursive back propagation algorithmfordata streamclassfication was proposedto solvethe problemoflowclasification accuracydue toconcept driftinthe traditional deep neural network.Theproposedalgorithm combined the powerful data stream learning ability ofonlinegradient descent algorithm with the fast convergence characteristic of recursive least square method.When the concept drift occurred in thedata stream,the neural network model wastrained graduallbyusing recursive least square method,after reaching arelativelystable state,online gradient descent algorithm was switched to further trainthedeep neural network model,achieve deeperdata stream learning,andoptimize the clasification performanceoftedeep neural network model. The effctivenessof the proposedalgorithm wasverified insomeartificialdata setsandrealdatasets.Theresults show that the proposed algorithm hasexcelentadaptability toconcept drift,and theaccuracyof datastream clasification exceeds those of many algorithms thatonly use online gradient descent algorithm or recursiveleast square method to train neural network model.
Keywords:onlinedeep learning;online gradient descent algorithm;recursive least square method;back propagation; deep neural network;concept drift
近年來,深度學(xué)習(xí)在眾多應(yīng)用領(lǐng)域取得了顯著成就[1-3],然而,深度神經(jīng)網(wǎng)絡(luò)模型(DNN)的學(xué)習(xí)面臨諸多問題,包括梯度消失、特征重用率下降[4]鞍點(diǎn)和局部最小值問題[5]、龐大的參數(shù)調(diào)整量、訓(xùn)練過程中內(nèi)部協(xié)變量偏移[6、正則化器選擇困難、超參數(shù)難以確定等。盡管在以上方面已有很多進(jìn)展[7]但大多數(shù)現(xiàn)有方法都基于批量學(xué)習(xí)環(huán)境,要求在開始學(xué)習(xí)任務(wù)前必須提供完整的訓(xùn)練數(shù)據(jù)集。這些要求在許多現(xiàn)實(shí)任務(wù)中不可行,原因是數(shù)據(jù)以流的形式順序到達(dá),且可能過于龐大而無法在內(nèi)存中存儲(chǔ),因此,在線環(huán)境中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的算法備受青睞。
本文研究背景為在線深度學(xué)習(xí),其中要處理的數(shù)據(jù)都是以數(shù)據(jù)流的形式輸人。數(shù)據(jù)流是一串連續(xù)不斷的數(shù)據(jù)集合,具有潛在的無限性和分布隨時(shí)間動(dòng)態(tài)更新的特點(diǎn)。與傳統(tǒng)靜態(tài)數(shù)據(jù)相比,數(shù)據(jù)流的三大特點(diǎn)如下:一是數(shù)據(jù)連續(xù)生成的特性,要求算法能快速處理;二是數(shù)據(jù)量巨大;三是數(shù)據(jù)流本身易變,數(shù)據(jù)分布可能隨時(shí)間改變(概念漂移)。這些特性給數(shù)據(jù)流處理算法的設(shè)計(jì)帶來了很大的挑戰(zhàn)。
在線深度學(xué)習(xí)中,Sahoo等8提出了對(duì)沖反向傳播(HBP)算法,用于在線訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以解決深度網(wǎng)絡(luò)收斂緩慢的問題,通過在每個(gè)隱藏層后附加一個(gè)輸出層,改進(jìn)了現(xiàn)有DNN架構(gòu)。Ashfahani等[9]提出自動(dòng)深度學(xué)習(xí)(ADL)算法,解決神經(jīng)網(wǎng)絡(luò)寬度和深度自適應(yīng)問題。Yang等[\"0]提出增量自適應(yīng)深度模型(IADM)算法,該算法采用加權(quán)費(fèi)舍爾(Fisher)正則化來提高隱藏神經(jīng)元的穩(wěn)定性,并使用注意力網(wǎng)絡(luò)調(diào)整分類器權(quán)重。為了解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)收斂慢問題,Huang 等[1I-12]提出極限學(xué)習(xí)機(jī)(ELM)算法和在線極限學(xué)習(xí)機(jī)(OSELM)算法,這2個(gè)算法只更新輸出層權(quán)重,不更新隱藏層權(quán)重,因此在收斂速度上有顯著的優(yōu)勢(shì)。為了解決神經(jīng)網(wǎng)絡(luò)中特征重用的問題,Igelnik 等[13]提出隨機(jī)向量功能鏈接(RVFL)算法,該算法把隱藏層的輸出和初始輸入特征拼接作為輸出層的輸入,解決了在前向傳播過程中初始輸入特征經(jīng)過隱藏層而丟失了自身原有特性的問題。Shiva等[14]在傳統(tǒng)RVFL上提出在線隨機(jī)向量功能鏈接(OLRVFL)算法和在線集成隨機(jī)向量功能鏈接(OLedRVFL)算法,把RVFL從批量學(xué)習(xí)改為在線學(xué)習(xí),并集成多個(gè)RVFL網(wǎng)絡(luò)模型,利用多個(gè)RVFL分類結(jié)果加權(quán)得到最終的分類結(jié)果。
反向傳播(BP)算法作為深度學(xué)習(xí)的基礎(chǔ),是一種梯度計(jì)算的方法,其中參數(shù)的更新方式有很多,在數(shù)據(jù)流中最為常見的是使用在線梯度下降(OGD)算法[15]訓(xùn)練神經(jīng)網(wǎng)絡(luò),應(yīng)用于圖像識(shí)別、語音處理、自然語言理解等領(lǐng)域,取得了突破性進(jìn)展。BP算法能夠廣泛應(yīng)用的原因在于不僅對(duì)非線性模型良好的適應(yīng)性及靈活的網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整能力,而且利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的模型在處理數(shù)據(jù)時(shí)的精度比遞歸最小二乘(RLS)法[16]訓(xùn)練的模型精度高。盡管如此,BP算法在實(shí)際應(yīng)用中也存在明顯缺點(diǎn):該算法在處理小批量任務(wù)易于陷入局部最優(yōu)解,在深層網(wǎng)絡(luò)中存在梯度消失或梯度爆炸問題,并且OGD算法在處理概念漂移時(shí),適應(yīng)漂移速度較慢,一旦遇到概念漂移,模型預(yù)測(cè)精度顯著下降,需要大量新概念數(shù)據(jù)才能適應(yīng)。同時(shí),若數(shù)據(jù)流中存在多個(gè)概念漂移且漂移間隔相對(duì)較小,則導(dǎo)致網(wǎng)絡(luò)還未適應(yīng)該概念漂移又遇到了另一個(gè)概念漂移。
RLS法作為一種優(yōu)化參數(shù)估計(jì)算法,在信號(hào)處理、系統(tǒng)控制等領(lǐng)域具有獨(dú)到特性。通過遞歸方式更新參數(shù)估計(jì),能夠快速適應(yīng)系統(tǒng)參數(shù)變化,特別適合于處理實(shí)時(shí)變化的數(shù)據(jù)流。RLS法具有快速收斂和對(duì)時(shí)變系統(tǒng)的適應(yīng)性[17],在動(dòng)態(tài)環(huán)境中性能優(yōu)異。同時(shí),利用RLS法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),雖然預(yù)測(cè)精度比BP算法差,但對(duì)概念漂移的適應(yīng)速度優(yōu)于OGD算法的。
為了將神經(jīng)網(wǎng)絡(luò)更好地應(yīng)用到數(shù)據(jù)流分類中,本文中提出一種新的神經(jīng)網(wǎng)絡(luò)算法——遞歸反向傳播(BR)算法,旨在提升算法對(duì)概念漂移的適應(yīng)能力并確保算法快速收斂和高精度。BR算法結(jié)合OGD算法和RLS法的優(yōu)勢(shì),不依賴于遺忘策略,而是通過在分類邊界上進(jìn)行有效擬合來應(yīng)對(duì)概念漂移。該算法在初始化時(shí)使用最小二乘(LS)法[更新輸出層權(quán)重,隱藏層權(quán)重隨機(jī)初始化,隨后根據(jù)樣本預(yù)測(cè)結(jié)果采用RLS法更新輸出層權(quán)重,網(wǎng)絡(luò)精度穩(wěn)定后則切換至OGD算法更新網(wǎng)絡(luò)權(quán)重。BR算法通過引入穩(wěn)定常數(shù)實(shí)現(xiàn)RLS法和OGD算法的平滑切換,利用RLS法快速適應(yīng)概念漂移,OGD算法則用于持續(xù)提升分類精度。此外,BR算法結(jié)合霍夫丁概念漂移檢測(cè)法(HDDM)[18],以更好地適應(yīng)概念漂移,展現(xiàn)特有的性能優(yōu)勢(shì)。
RLS 法和OGD算法
RLS法是一種用于在線學(xué)習(xí)和參數(shù)估計(jì)的遞歸算法,是對(duì)LS法的改進(jìn)。具體來說,LS法適用于批量學(xué)習(xí),RLS法適用于在線學(xué)習(xí),主要應(yīng)用于估計(jì)線性模型參數(shù),特別適用于動(dòng)態(tài)環(huán)境中實(shí)時(shí)數(shù)據(jù)的處理。在線性網(wǎng)絡(luò)模型中有一個(gè)輸人向量 x 和一個(gè)對(duì)應(yīng)標(biāo)簽向量 y ,模型的預(yù)測(cè)輸出 為模型權(quán)重矩陣。在神經(jīng)網(wǎng)絡(luò)中,由于隱藏層權(quán)重不變,因此可把整個(gè)網(wǎng)絡(luò)都看成一個(gè)線性層,必須要更新的只有輸出層權(quán)重。RLS法的計(jì)算步驟如下
步驟1初始化輸出層權(quán)重矩陣 W0 和中間矩陣 ,中間矩陣
初始化可以利用嶺回歸[19],以避免矩陣
不可逆,從而達(dá)到快速初始化。
步驟2 根據(jù)獲到的數(shù)據(jù)流計(jì)算增益矢量
式中: 為第 n 個(gè)樣本與第 n-1 個(gè)中間矩陣共同計(jì)算得到的增益矢量;
為第 n-1 個(gè)樣本計(jì)算出的中間矩陣; xn 為第 n 個(gè)樣本特征向量
步驟3 更新中間矩陣
Pn=Pn-1-KnxnTPn-1°
步驟4 更新權(quán)重
式中: 為更新后的權(quán)重矩陣: yn 為第 n 個(gè)樣本標(biāo)簽向量。
OGD算法是專為處理大規(guī)模數(shù)據(jù)流和在線學(xué)習(xí)設(shè)計(jì)的優(yōu)化算法[20],是經(jīng)典梯度下降算法的一種變體,特別適用于無法一次性加載所有數(shù)據(jù)的場(chǎng)景。與傳統(tǒng)的批量學(xué)習(xí)(BL)方法[2不同,OGD 算法在接收新的數(shù)據(jù)樣本時(shí)實(shí)時(shí)更新模型參數(shù),使網(wǎng)絡(luò)模型在動(dòng)態(tài)數(shù)據(jù)和大規(guī)模數(shù)據(jù)集的處理中有較好的性能[22-24]。
設(shè) xt 為第 Ψt 個(gè)樣本特征向量, yt 為第 χt 個(gè)樣本真實(shí)標(biāo)簽, 為利用第 χt 次得到的權(quán)重矩陣與第 χt 個(gè)樣本特征和標(biāo)簽計(jì)算得到的交叉熵?fù)p失, ablaL(Wt) 為第 Ψt 步得到的權(quán)重矩陣梯度,
為第 Ψt 次計(jì)算出的權(quán)重矩陣, η 為學(xué)習(xí)率,OGD算法的計(jì)算步驟如下。
步驟1初始化模型權(quán)重參數(shù) 和學(xué)習(xí)率 η 。
步驟2 迭代更新。
接收數(shù)據(jù):接收新的樣本 。
計(jì)算梯度:計(jì)算損失函數(shù) ,計(jì)算當(dāng)前模型參數(shù) Wι 的梯度 ablaL(Wt) 。
更新參數(shù):使用梯度下降法更新參數(shù)。
步驟3對(duì)每一個(gè)新獲到的樣本重復(fù)步驟2。
由于OGD算法每次只須計(jì)算一個(gè)樣本的梯度,因此計(jì)算時(shí)間開銷較小,適合高頻率數(shù)據(jù)流處理
此外,OGD算法每次只保存一個(gè)數(shù)據(jù)樣本,所需內(nèi)存空間極少,因此適用于大規(guī)模數(shù)據(jù)流場(chǎng)景。
2BR算法
BR算法融合了RLS法快速適應(yīng)概念漂移并迅速達(dá)到收斂狀態(tài)和OGD算法訓(xùn)練的網(wǎng)絡(luò)模型具有較高精度的優(yōu)勢(shì)。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),BR算法的初始化使用LS法更新輸出層權(quán)重,隱藏層權(quán)重則隨機(jī)初始化。隨著數(shù)據(jù)流的輸入,神經(jīng)網(wǎng)絡(luò)經(jīng)相應(yīng)預(yù)測(cè)后利用RLS法更新輸出層權(quán)重,在數(shù)據(jù)處理過程中不更新隱藏層權(quán)重。為了使訓(xùn)練模式從RLS法準(zhǔn)確改變?yōu)镺GD算法,本文中引入穩(wěn)定常數(shù)e判斷RLS法是否已達(dá)到收斂狀態(tài),如果達(dá)到收斂狀態(tài),則用OGD算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),相應(yīng)更新隱藏層權(quán)重。為了能更好地適應(yīng)概念漂移,本文中在BR算法中引人HDDM檢測(cè)概念漂移狀態(tài)(數(shù)據(jù)流在這一個(gè)數(shù)據(jù)點(diǎn)處已發(fā)生概念漂移)和警告狀態(tài)(數(shù)據(jù)流在這個(gè)數(shù)據(jù)點(diǎn)處將要發(fā)生概念漂移)。如果遇到概念漂移,BR算法用警告點(diǎn)和漂移點(diǎn)之間的數(shù)據(jù),利用LS法更新輸出層權(quán)重,隱藏層權(quán)重則不更新,然后切換到RLS法訓(xùn)練模式,并持續(xù)在線學(xué)習(xí)。當(dāng)遇到概念漂移時(shí),無論訓(xùn)練模式是RLS法還是OGD算法,都要用LS法重新計(jì)算輸出層權(quán)重,然后切換到RLS訓(xùn)練模式。LS法更新輸出層權(quán)重的計(jì)算公式如下:
式中:W為輸出層權(quán)重矩陣; X 為最后一個(gè)隱藏層的輸出特征矩陣。
穩(wěn)定常數(shù) ? 的定義如下:
式中: M 為數(shù)據(jù)塊長(zhǎng)度; m 為數(shù)據(jù)塊個(gè)數(shù); yi?f(xi) 分別第 i 個(gè)樣本的真實(shí)類別和預(yù)測(cè)類別; Π 為指示函數(shù),若預(yù)測(cè)類別和真實(shí)類別相同則指示函數(shù)值為1,否則為0; εj 衡量這 M 個(gè)樣本的錯(cuò)誤程度; ε 為 m 個(gè)批次樣本總體錯(cuò)誤程度; ? 統(tǒng)計(jì)相鄰幾個(gè)批次數(shù)據(jù)的穩(wěn)定情況,如果 ? 小于或等于預(yù)設(shè)定閾值,則可認(rèn)為已達(dá)到收斂狀態(tài),此時(shí)把訓(xùn)練模式從RLS法切換為OGD算法。BR算法流程如圖1所示。
BR算法首先使用LS法和一小批數(shù)據(jù)計(jì)算最初的輸出層權(quán)重;然后,隨著樣本的輸人,模型預(yù)測(cè)樣本類別并通過真實(shí)類別計(jì)算模型對(duì)該樣本的交叉熵?fù)p失,根據(jù)當(dāng)前訓(xùn)練模式選擇用RLS法或OGD算法更新模型參數(shù),再根據(jù)概念漂移的情況切換訓(xùn)練模式;最后,計(jì)算穩(wěn)定常數(shù)e,選擇相應(yīng)的更新方式。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
為了全面評(píng)估BR算法的分類性能,本文將BR算法與5個(gè)常用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行實(shí)驗(yàn)對(duì)比。選擇4個(gè)人工構(gòu)建的概念漂移數(shù)據(jù)集和3個(gè)真實(shí)世界數(shù)據(jù)集作為測(cè)試對(duì)象,其中人工數(shù)據(jù)集的概念漂移類型為突變型,真實(shí)數(shù)據(jù)集的概念漂移類型不可知。這些數(shù)據(jù)集在概念漂移數(shù)據(jù)流的研究領(lǐng)域得到廣泛的應(yīng)用,并且各具特色,涵蓋不同的數(shù)據(jù)類型,包括文本和圖像等。不同數(shù)據(jù)集的相關(guān)參數(shù)見表1。其中Sine數(shù)據(jù)集[25]、LED數(shù)據(jù)集[25]、RandomRBF數(shù)據(jù)集[25]、Waveform數(shù)據(jù)集[25]和 STAGGER數(shù)據(jù)集[25]是人工數(shù)據(jù)集,Mnist集[26]、Weather數(shù)據(jù)集[25]和Electricity數(shù)據(jù)集[25]是真實(shí)數(shù)據(jù)集。Sine、RandomRBF、Waveform、STAGGER數(shù)據(jù)集人為設(shè)置每隔10000個(gè)樣本變換一個(gè)概念,LED 數(shù)據(jù)集則是人為設(shè)置5000個(gè)樣本發(fā)生一次概念的變換。真實(shí)數(shù)據(jù)集中有豐富的概念變換,并且變換的類型的位置無法預(yù)知。
3.2 對(duì)比算法與配置
為了體現(xiàn)BR算法的分類性能,本文用了5種常用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比。5種常用神經(jīng)網(wǎng)絡(luò)算法分別為OLRVFL算法、OSELM算法、OLedRVFL算法、IADM算法、廣泛集成學(xué)習(xí)系統(tǒng)(BELS)算法[7],其中OLRVFL、OSELM、OLedRVFL、BELS算法是利用遞歸最小二乘法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)算法,而IADM算法則是使用OGD算法訓(xùn)練的DNN算法。在實(shí)驗(yàn)中,學(xué)習(xí)率 α 設(shè)置為0.001,穩(wěn)定常數(shù)閾值8設(shè)置為4,最后將數(shù)據(jù)塊長(zhǎng)度 M 和數(shù)據(jù)塊數(shù)量 m 設(shè)置為100和5。網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)一設(shè)置了5個(gè)隱藏層,每個(gè)隱藏層256個(gè)節(jié)點(diǎn)。
采用實(shí)時(shí)準(zhǔn)確率和累計(jì)準(zhǔn)確率作為數(shù)據(jù)分類評(píng)估標(biāo)準(zhǔn)。對(duì)每個(gè)算法在不同數(shù)據(jù)集中都進(jìn)行10次的重復(fù)實(shí)驗(yàn),最終結(jié)果為10次結(jié)果的平均值。本文的實(shí)驗(yàn)環(huán)境為在線場(chǎng)景,數(shù)據(jù)逐一輸入并且每個(gè)數(shù)據(jù)集都以100個(gè)數(shù)據(jù)為標(biāo)準(zhǔn)劃分成若干個(gè)獨(dú)立的塊計(jì)算實(shí)時(shí)準(zhǔn)確率,也就是說實(shí)時(shí)準(zhǔn)確率代表每個(gè)獨(dú)立的塊自身的準(zhǔn)確率,累計(jì)準(zhǔn)確率則是在整個(gè)數(shù)據(jù)集被完全處理完畢后計(jì)算的準(zhǔn)確率。這種評(píng)估方式關(guān)注的是算法在整個(gè)數(shù)據(jù)集上的總體分類能力,即算法在整個(gè)數(shù)據(jù)集上分類正確的樣本數(shù)量。在本文的實(shí)驗(yàn)中,算法須要對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè),然后統(tǒng)計(jì)分類正確的樣本總數(shù),以此來計(jì)算累計(jì)準(zhǔn)確率。
4結(jié)果與分析
4.1 分類準(zhǔn)確率
不同算法在各數(shù)據(jù)集中的分類準(zhǔn)確率結(jié)果見表2。由表可以看出,各種算法在不同數(shù)據(jù)集中的最終準(zhǔn)確率差異顯著??傮w來看,BR算法在大部分?jǐn)?shù)據(jù)集中表現(xiàn)出色,尤其在Sine、Waveform、STAGGER、Mnist、Electricity數(shù)據(jù)集中的分類準(zhǔn)確率均最高,表明BR算法在應(yīng)對(duì)數(shù)據(jù)漂移和處理復(fù)雜數(shù)據(jù)分布方面具有較強(qiáng)的適應(yīng)能力。此外,在LED數(shù)據(jù)集中,IADM、BELS算法表現(xiàn)優(yōu)異,分類準(zhǔn)確率分別為 91.22% 、 92.32% ,略微高于BR算法的,表明IADM、BELS算法在處理LED數(shù)據(jù)集特有的特征噪聲方面更具優(yōu)勢(shì)。相比之下,OSELM、OLRVFL、OLedRVFL算法在大多數(shù)數(shù)據(jù)集上的分類準(zhǔn)確率偏低,準(zhǔn)確率不足 80% ,說明這些算法在適應(yīng)概念漂移或數(shù)據(jù)分布變化方面的能力有限,無法對(duì)數(shù)據(jù)進(jìn)行有效分類。
不同算法在各數(shù)據(jù)集的實(shí)時(shí)準(zhǔn)確率如圖2所示。由圖可以看出,在Sine數(shù)據(jù)集中,BR、IADM算法在概念漂移發(fā)生后具有較強(qiáng)的恢復(fù)能力,能夠迅速恢復(fù)至高準(zhǔn)確率水平,特別是BR算法在大多數(shù)時(shí)間內(nèi)保持較高的準(zhǔn)確率,說明其能夠快速適應(yīng)數(shù)據(jù)分布的突然變化。相比之下,OLedRVFL、BELS算法的準(zhǔn)確率曲線波動(dòng)明顯,且在概念漂移發(fā)生后難以恢復(fù)到較高的準(zhǔn)確率,表明它們?cè)趹?yīng)對(duì)數(shù)據(jù)分布發(fā)生突變時(shí)的學(xué)習(xí)能力存在不足。
在LED數(shù)據(jù)集中,所有算法的準(zhǔn)確率波動(dòng)較大,但BR、BELS算法的表現(xiàn)相對(duì)穩(wěn)定,能夠在初始波動(dòng)后逐漸趨于穩(wěn)定的高準(zhǔn)確率,表明BR、BELS算法能夠更好地適應(yīng)大噪聲和頻繁變化的數(shù)據(jù)模式,而OSELM、OLRVFL算法則波動(dòng)較大,說明它們對(duì)復(fù)雜數(shù)據(jù)的適應(yīng)性較弱。此外,IADM算法在概念漂移發(fā)生后的恢復(fù)速度相對(duì)較慢,說明其在應(yīng)對(duì)復(fù)雜噪聲時(shí)存在一定局限性。在Mnist數(shù)據(jù)集中,
BR算法在概念漂移發(fā)生后能迅速恢復(fù)到較高的準(zhǔn)確率并保持穩(wěn)定,在圖像數(shù)據(jù)流處理中具有優(yōu)越性和魯棒性。相比之下,OLRVFL、IADM算法的精度恢復(fù)速度較慢,且在概念漂移后波動(dòng)較大,反映了這些算法在處理復(fù)雜圖像數(shù)據(jù)分布變化時(shí)的適應(yīng)能力不足。在Electricity數(shù)據(jù)集中,各算法的表現(xiàn)存在顯著差異,BR算法在整個(gè)數(shù)據(jù)流中保持了較高且穩(wěn)定的分類準(zhǔn)確率,即使在概念漂移發(fā)生時(shí)準(zhǔn)確率僅出現(xiàn)輕微下降,并能迅速恢復(fù)到原有水平,表明該算法在處理實(shí)際數(shù)據(jù)中的概念漂移和噪聲干擾方面具有較強(qiáng)的魯棒性和適應(yīng)性。相比之下,OSELM、OLRVFL算法的分類準(zhǔn)確率波動(dòng)較大,特別是在概念漂移點(diǎn)附近,準(zhǔn)確率明顯下降且恢復(fù)緩慢,反映出這些算法在適應(yīng)電力市場(chǎng)數(shù)據(jù)的復(fù)雜動(dòng)態(tài)變化時(shí)存在一定的局限性。此外,IADM、BELS算法的分類準(zhǔn)確率也存在一定程度的波動(dòng),雖有恢復(fù)但總體性能不及BR算法的。在Weather數(shù)據(jù)集中,BR算法同樣展現(xiàn)了較好的分類穩(wěn)定性,但整體準(zhǔn)確率略低于在其他數(shù)據(jù)集中的,原因可能是Weather數(shù)據(jù)集本身具有大噪聲和復(fù)雜的數(shù)據(jù)模式變化,增加了分類難度。盡管如此,BR算法在概念漂移發(fā)生后仍能保持相對(duì)平穩(wěn)的準(zhǔn)確率,具有一定的魯棒性。相比之下,IADM、OLedRVFL算法的準(zhǔn)確率波動(dòng)更為劇烈,特別是在概念漂移點(diǎn),其準(zhǔn)確率大幅下降且難以及時(shí)恢復(fù),說明這些算法在處理具有大噪聲和非平穩(wěn)性的天氣數(shù)據(jù)時(shí)適應(yīng)能力較弱。
總體來看,BR算法在特征維度高數(shù)據(jù)和大噪聲數(shù)據(jù)中的學(xué)習(xí)和分類能力表現(xiàn)突出,能夠有效應(yīng)對(duì)數(shù)據(jù)流中的概念漂移和噪聲干擾,使其成為適用于實(shí)際應(yīng)用中動(dòng)態(tài)數(shù)據(jù)環(huán)境的有效算法選擇。
4.2 參數(shù)敏感性分析
在BR算法的訓(xùn)練中,訓(xùn)練模型的切換是一個(gè)關(guān)鍵步驟,穩(wěn)定常數(shù)的作用是用于權(quán)衡OGD算法和RLS算法的切換時(shí)機(jī)。表3所示為不同穩(wěn)定常數(shù)閾值 δ(2、5、7、10) 對(duì) BR算法在各數(shù)據(jù)集中最終分類準(zhǔn)確率的影響。由表可以看出:在Sine、LED數(shù)據(jù)集中,BR算法對(duì) δ 的變化較敏感,但影響程度不同。在Sine數(shù)據(jù)集中,隨著 δ 逐漸增大,分類準(zhǔn)確率從 93.23% 微幅上升到 93.45% 。
在LED數(shù)據(jù)集中,BR算法的分類準(zhǔn)確率隨著δ的增大而顯著提升,最終準(zhǔn)確率從 89.32% 上升至94.19% ,表明較大的穩(wěn)定常數(shù)閾值有助于算法更好地平滑噪聲影響,增強(qiáng)算法對(duì)數(shù)據(jù)流的適應(yīng)性和穩(wěn)定性。由此可見,針對(duì)含有大噪聲的復(fù)雜數(shù)據(jù)集,適當(dāng)增大穩(wěn)定常數(shù)閾值可以有效提升BR算法的分類性能。
在RBF、STAGGER數(shù)據(jù)集中,BR算法對(duì)δ的變化的敏感性較弱。在RBF數(shù)據(jù)集中,δ不同時(shí)分類準(zhǔn)確率變化不明顯,在這個(gè)數(shù)據(jù)集上BR算法在應(yīng)對(duì)非線性數(shù)據(jù)分布時(shí)具有較好的穩(wěn)健性。同樣,在STAGGER數(shù)據(jù)集中,BR算法的分類準(zhǔn)確率均穩(wěn)定在 99.5% 以上,顯示了BR算法在處理結(jié)構(gòu)化數(shù)據(jù)或離散型數(shù)據(jù)時(shí)穩(wěn)定性較好,也就是說,在這個(gè)數(shù)據(jù)集上穩(wěn)定常數(shù)閾值的選擇范圍較大,并且分類準(zhǔn)確率都能保持較高水平.
在Waveform、Weather、Mnist、Electricity數(shù)據(jù)集中,BR算法對(duì)δ的敏感性差異顯著。在Wave-form數(shù)據(jù)集中,BR算法對(duì) δ 的變化表現(xiàn)較為穩(wěn)定,分類準(zhǔn)確率均保持在 84.3% 左右,說明其在處理波動(dòng)性較大的數(shù)據(jù)流時(shí)的魯棒性較好。在Weather數(shù)據(jù)集中,隨著δ的增大,BR算法的分類準(zhǔn)確率略微波動(dòng),準(zhǔn)確率從 72.14% 上升至 72.54% ,但整體變化幅度較小,表明該算法在天氣數(shù)據(jù)的復(fù)雜模式下仍能保持相對(duì)穩(wěn)定的分類性能。相比之下,在Mnist數(shù)據(jù)集中,隨著δ的增大,準(zhǔn)確率從 83.39% 顯著提升至 89.26% ,表明在圖像數(shù)據(jù)中較大的穩(wěn)定常數(shù)閾值可使算法模型在概念漂移后能更快地學(xué)習(xí)新概念的數(shù)據(jù)特征。在Electricity數(shù)據(jù)集中,BR算法的分類準(zhǔn)確率從 79.49% 提升到 82.37% ,表明較大的穩(wěn)定常數(shù)閥值有利于算法平滑處理復(fù)雜電力市場(chǎng)數(shù)據(jù)流,減少噪聲對(duì)分類精度的影響。
綜合以上分析可知,BR算法在不同數(shù)據(jù)集中的穩(wěn)定常數(shù)閾值敏感性差異顯著。在噪聲較多或數(shù)據(jù)分布復(fù)雜的數(shù)據(jù)集中,適當(dāng)增大穩(wěn)定常數(shù)閾值可以加強(qiáng)BR算法對(duì)復(fù)雜數(shù)據(jù)特征的學(xué)習(xí),提升算法的適應(yīng)性和穩(wěn)定性;在結(jié)構(gòu)化或離散型數(shù)據(jù)集中,BR算法對(duì)穩(wěn)定常數(shù)閾值的變化不敏感,表現(xiàn)出較高的魯棒性和一致性,因此,在實(shí)際應(yīng)用中,可以根據(jù)不同數(shù)據(jù)集的特點(diǎn)調(diào)節(jié)BR算法的穩(wěn)定常數(shù)閾值,以獲得最佳性能,進(jìn)一步提高其在不同數(shù)據(jù)環(huán)境下的分類能力和穩(wěn)定性。
5 結(jié)語
本文中融合OGD算法和RLS算法的優(yōu)勢(shì),提出BR算法,該算法改進(jìn)了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)參數(shù)的更新機(jī)制。為了驗(yàn)證BR算法的有效性,在多個(gè)數(shù)據(jù)集上進(jìn)行分類能力和參數(shù)敏感性實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了BR算法的有效性和穩(wěn)定性。在面對(duì)漸變式概念漂移,BR算法的實(shí)時(shí)精度可能會(huì)經(jīng)歷多次顯著波動(dòng),而且波動(dòng)次數(shù)與實(shí)際概念漂移出現(xiàn)的次數(shù)不符。
現(xiàn)實(shí)世界中的數(shù)據(jù)流往往更加復(fù)雜,尤其是在處理大規(guī)模和多樣化的數(shù)據(jù)流時(shí),對(duì)算法的適應(yīng)性和穩(wěn)定性提出了更高的要求,因此,未來的研究將重點(diǎn)聚焦于如何進(jìn)一步提升BR算法在漸變式和復(fù)雜概念漂移場(chǎng)景中的表現(xiàn),以增強(qiáng)其應(yīng)對(duì)多種概念漂移模式的能力。一方面,將考慮引入自適應(yīng)調(diào)整機(jī)制,使BR算法能夠動(dòng)態(tài)調(diào)整更新頻率和參數(shù),更好地適應(yīng)緩慢或漸進(jìn)的概念漂移;另一方面,探索如何將BR算法擴(kuò)展到大規(guī)模數(shù)據(jù)流場(chǎng)景中,提高其在高維數(shù)據(jù)和長(zhǎng)時(shí)間數(shù)據(jù)序列中的計(jì)算效率和穩(wěn)定性。這些改進(jìn)將使BR算法在現(xiàn)實(shí)數(shù)據(jù)流場(chǎng)景中更具有實(shí)用性,為處理復(fù)雜概念漂移的數(shù)據(jù)流問題提供更加有效的解決方案。
參考文獻(xiàn):
[1]KRIZHEVSKY A,SUTSKEVER I,HINTONGE. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6) : 84.
[2]BENGIO Y,COURVILLE A,VINCENT P. Representation learning:a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Inteligence,2013,35(8):1798.
[3]HOI S C H,WANG JL,ZHAO P L. Libol:a library for online learning algorithms[J].The Journal of Machine Learning Research, 2014,15(1) : 495.
[4] CHEN K L,LEE C H,GARUDADRI H,et al. ResNEsts and DenseNEsts:block-based DNN models with improved representation guarantees[J]. Advances in Neural Information Procesing Systems,2021,34:3413.
[5]DAUPHIN Y N, PASCANU R, GULCEHRE C, et al. Identifying and attacking the saddle point problem in high-dimensional nonconvex optimization[C]//NIPS'14:Proceedings of the 27th International Conference on Neural Information Processing Systems : Vol 2.New York:ACM,2014:2933.
[6]IOFFE S, SZEGEDY C. Batch normalization:accelerating deep network training by reducing internal covariate shift[EB/OL]. (2015-11-11)[2024-05-10].htps://doi.org/10.48550/ arXiv. 1502.03167.
[7]NAIR V,HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning(ICML-10),June 21-24, 2010, Haifa,Israel. Madison:Omnipress,2010:807.
[8]SAHOO D,PHAM Q,LUJ,et al. Online deep learning: learning deep neural networks on the fly[EB/OL]. (2017-11-10)[2024- 05-10]. htps://doi.org/10.48550/arXiv. 1711.03705.
[9] ASHFAHANI A, PRATAMA M. Autonomous deep learning: continual learning approach for dynamic environments [C]/? Proceedings of the 2O19 SIAM international conference on data mining,May 2-4,2019,Calgary,Canada.Philadelphia:SIAM, 2019: 666.
[10]YANG Y, ZHOU D W, ZHAN D C,et al. Adaptive deep models for incremental learning: considering capacity scalability and sustainability[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining,August 4-8,2019,Anchorage,USA. New York:ACM,2019:74.
[11]HUANG G B, ZHU QY, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//2004 IEEE International Joint Conference on Neural Networks,July 25- 29,2004,Budapest, Hungary. Piscataway: IEEE,2004:2.
[12]HUANG G B,LIANG N Y,RONG H J,et al. On-line sequential extreme learning machine[J].Computational Intelligence, 2005,2005:232.
[13]IGELNIK B,PAO Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net[J]. IEEE Transactions on Neural Networks,1995,6(6):1320.
[14]SHIVA S,HU M H, SUGANTHAN P N. Online learming using deep random vector functional link network[J]. Pattern recognition,2022,129:108744.
[15]XUE H, REN Z. Sketch discriminatively regularized online gradient descent classfication[J].Applied Intelligence,2020,50 (5): 1367.
[16]MARQUARDT D W. An algorithm for least-squares estimation of nonlinear parameters[J].Journal on the Society for Industrial and Applied Mathematics,1963, 11(2):431 :
[17]SONG Q,MI Y X,LAI W X.A novel variable forgetting factor recursive least square algorithm to improve the anti-interference ability of battery model parameters identification[J]. IEEE Access , 2019,7: 61548.
[18]GOLUB G H, HANSEN P C, O' LEARY D P. Tikhonov regularization and total least squares[J].SIAM Journal on Matrix Analysis and Applications,1999,21(1) : 185.
[19]YING Y M,PONTIL M. Online gradient descent learning algorithms[J].Foundations of Computational Mathematics,2008, 8: 561.
[20]MASTERS D,LUSCHI C.Revisiting small batch training for deep neural networks[EB/OL]. (2018-04-20)[2024-05- 09].https://doi. org/10.48550/arXiv.1804.07612.
[21]CHEN W W, TAN D K, ZHAO L F. Vehicle sideslip angle and road friction estimation using online gradient descent algorithm[J]. IEEE Transactions on Vehicular Technology,2018,67(12): 11475.
[22]JANSSON P A. Neural networks:an overview[J]. Analytical Chemistry,1991,63(6): 357A.
[23]BISHOP C M. Neural networks and their applications[J]. Review of Scientific Instruments,1994,65(6):1803.
[24]FRIAS-BLANCO I, CAMPO-AVILA Jdel, RAMOS-JIMENEZ G, etal.Online and non-parametric drift detection methods based on Hoeffding's bounds[J]. IEEE Transactions on Knowledge and Data Engineering,2014, 27(3) : 810.
[25]LU J,LIU A J,DONG F,et al. Learning under concept drift: a review[J]. IEEE Transactions on Knowledge and Data Engineering, 2018,31(12) : 2346.
[26]LECUN Y,BOTTOU L,BENGIO Y,etal.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11) : 2278.
[27]BAKHSHI S,GHAHRAMANIAN P,BONAB H,et al. A broad ensemble learning system for drifting stream classification[J]. THs
(責(zé)任編輯:劉飚)
濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年3期